强化学习 多轮搜索代理 对比学习 轨迹优化
摘要

智能体强化学习使大型语言模型能够执行复杂的多轮规划和工具使用。然而,在长时域设置中,由于稀疏的轨迹级结果奖励,学习仍然具有挑战性。尽管先前基于树的方法试图缓解这一问题,但它们通常存在高方差和计算效率低的问题。通过对搜索代理的实证分析,我们发现一个常见模式:性能差异主要源于尾部附近的决策。受此启发,我们提出了一种无价值的方法——分支相对策略优化(BranPO),它在没有密集奖励的情况下提供步骤级别的对比监督。BranPO在轨迹尾部进行截断,并重新采样替代的延续路径,以构建共享前缀上的对比后缀,从而减少长时域展开中的信用模糊。为进一步提高效率并稳定训练,我们引入了难度感知的分支采样,以适应不同任务的分支频率,并采用冗余步骤掩码来抑制无信息动作。在多个问答基准测试中的广泛实验表明,BranPO始终优于强大的基线方法,在不增加整体训练预算的情况下显著提升了长时域任务的准确性。我们的代码可在https://github.com/YubaoZhao/BranPO获取。

AI 推荐理由

论文涉及多轮搜索代理的训练,通过对比动态分支采样优化记忆相关决策,但未直接研究记忆机制本身。

论文信息
作者 Yubao Zhao, Weiquan Huang, Sudong Wang, Ruochen Zhao, Chen Chen et al.
发布日期 2026-02-03
arXiv ID 2602.03719
相关性评分 6/10 (相关)