摘要
随着大语言模型(LLMs)的发展,研究者正转向使用强化学习(RL)从任务间的迭代、多轮交互中训练代理。然而,多轮RL仍然面临奖励稀疏或延迟以及环境随机性等挑战。在这一背景下,简单的轨迹采样可能阻碍利用并导致模式崩溃。本文提出TSR(轨迹搜索展开),一种训练时的方法,通过将测试时的扩展思想应用于训练阶段的轨迹生成,以提高每轮展开的质量。TSR采用轻量级树状搜索,在每一步选择高得分动作以构建高质量轨迹,从而提升展开质量并稳定学习过程,同时保持底层优化目标不变,使TSR与优化器无关。作者通过最佳N选一、束搜索和浅层前瞻搜索实现TSR,并结合PPO和GRPO算法,在Sokoban、FrozenLake和WebShop任务上实现了最高15%的性能提升和更稳定的学习效果。通过将搜索从推理阶段转移到训练的展开阶段,TSR为更强的多轮代理学习提供了一种简单且通用的机制,可作为现有框架和拒绝采样类选择方法的补充。
AI 推荐理由
论文涉及多轮强化学习中的轨迹生成,与Agent Memory相关但非核心主题。
论文信息