EnvRL：在代理强化学习中从环境动态中学习

Reinforcement Learning Agent Planning Environment Dynamics Long-horizon Tasks

摘要

强化学习是训练大语言模型代理的重要范式，但传统方法在处理长程任务时常受限于稀疏的结果奖励，忽略了交互轨迹中丰富的环境动态信息。本文提出 EnvRL 框架，通过状态预测和逆动力学两个辅助目标，将环境动态学习融入代理强化学习。该方法鼓励代理从自身交互经验中内化环境机制，构建更准确的内部模型。在 ALFWorld 和 WebShop 基准上的实验表明，相比纯 RL 基线，EnvRL 显著提升了任务成功率。

AI 推荐理由

论文针对长程任务规划中的稀疏奖励问题，利用环境动态学习提升策略，显著改善规划成功率。

研究机构

清华大学计算机科学与技术系上海人工智能实验室

论文信息

作者 Zhitong Wang, Songze Li, Hao Peng, Shuzheng Si, Yi Wang et al.

发布日期 2026-06-16

arXiv ID 2606.17680