摘要
强化学习是训练大语言模型代理的重要范式,但传统方法在处理长程任务时常受限于稀疏的结果奖励,忽略了交互轨迹中丰富的环境动态信息。本文提出 EnvRL 框架,通过状态预测和逆动力学两个辅助目标,将环境动态学习融入代理强化学习。该方法鼓励代理从自身交互经验中内化环境机制,构建更准确的内部模型。在 ALFWorld 和 WebShop 基准上的实验表明,相比纯 RL 基线,EnvRL 显著提升了任务成功率。
AI 推荐理由
论文针对长程任务规划中的稀疏奖励问题,利用环境动态学习提升策略,显著改善规划成功率。
研究机构
清华大学计算机科学与技术系
上海人工智能实验室
论文信息