摘要
提示智能体将提示优化视为结构化空间中的序列决策问题,但现有方法多依赖监督奖励信号。本文提出 UPA,一种无需监督反馈的无监督提示智能体。UPA 利用大语言模型的细粒度成对比较构建演化树结构以导航提示空间。针对局部比较缺乏全局一致性的问题,文章解耦探索与选择阶段,提出基于 Bradley-Terry-Luce 模型的两阶段框架:首先通过路径贝叶斯聚合过滤候选项,随后利用全局锦标赛机制推断潜在质量并锁定最优提示。实验表明,UPA 在完全无监督设置下仍显著优于现有方法。
AI 推荐理由
论文核心提出基于树搜索的规划算法,解决无监督下的提示优化决策问题。
研究机构
MAIS CASIA
SAL UCAS
Mininglamp Technology
IEE CAS
SCS UCAS
CAIR, HKUST CAS
SCSE, FIE, M.U.ST
论文信息