Prompt Optimization Tree Search Unsupervised Learning Agent Planning
摘要

提示智能体将提示优化视为结构化空间中的序列决策问题,但现有方法多依赖监督奖励信号。本文提出 UPA,一种无需监督反馈的无监督提示智能体。UPA 利用大语言模型的细粒度成对比较构建演化树结构以导航提示空间。针对局部比较缺乏全局一致性的问题,文章解耦探索与选择阶段,提出基于 Bradley-Terry-Luce 模型的两阶段框架:首先通过路径贝叶斯聚合过滤候选项,随后利用全局锦标赛机制推断潜在质量并锁定最优提示。实验表明,UPA 在完全无监督设置下仍显著优于现有方法。

AI 推荐理由

论文核心提出基于树搜索的规划算法,解决无监督下的提示优化决策问题。

研究机构
MAIS CASIA SAL UCAS Mininglamp Technology IEE CAS SCS UCAS CAIR, HKUST CAS SCSE, FIE, M.U.ST
论文信息
作者 Siran Peng, Weisong Zhao, Tianyu Fu, Chenxu Zhao, Tianshuo Zhang et al.
发布日期 2026-01-30
arXiv ID 2601.23273
相关性评分 9/10 (高度相关)