Reinforcement Learning Long-horizon Planning Contrastive Learning Search Agent
摘要

代理强化学习使大语言模型能执行复杂的多轮规划与工具使用,但长程设置因奖励稀疏而极具挑战。现有树基方法存在高方差和低效问题。本文发现性能差异主要源于尾部决策,据此提出无值分支相对策略优化(BranPO)。该方法通过截断轨迹并重采样替代延续,构建基于共享前缀的对比后缀,提供步级对比监督以消除信用模糊。此外,引入难度感知分支采样和冗余步骤掩码以提升效率与稳定性。实验表明,BranPO 在长程任务上显著优于基线且未增加训练预算。

AI 推荐理由

论文核心解决长程多步规划中的奖励稀疏问题,提出新算法优化决策。

研究机构
香港城市大学科学与工程学院
论文信息
作者 Yubao Zhao, Weiquan Huang, Sudong Wang, Ruochen Zhao, Chen Chen et al.
发布日期 2026-02-03
arXiv ID 2602.03719
相关性评分 9/10 (高度相关)