Reinforcement Learning Agent Planning Environment Dynamics Long-horizon Tasks
摘要

强化学习是训练大语言模型代理的重要范式,但传统方法在处理长程任务时常受限于稀疏的结果奖励,忽略了交互轨迹中丰富的环境动态信息。本文提出 EnvRL 框架,通过状态预测和逆动力学两个辅助目标,将环境动态学习融入代理强化学习。该方法鼓励代理从自身交互经验中内化环境机制,构建更准确的内部模型。在 ALFWorld 和 WebShop 基准上的实验表明,相比纯 RL 基线,EnvRL 显著提升了任务成功率。

AI 推荐理由

论文针对长程任务规划中的稀疏奖励问题,利用环境动态学习提升策略,显著改善规划成功率。

研究机构
清华大学计算机科学与技术系 上海人工智能实验室
论文信息
作者 Zhitong Wang, Songze Li, Hao Peng, Shuzheng Si, Yi Wang et al.
发布日期 2026-06-16
arXiv ID 2606.17680
相关性评分 8/10 (高度相关)