World Model Reinforcement Learning LLM Agents Self-Supervised Learning
摘要

针对大语言模型在智能体场景中难以预测动作后果及适应环境动态的问题,本文提出强化世界模型学习(RWML)。该方法利用模拟到现实的差距奖励,自监督地学习基于动作的文本状态世界模型。通过在预训练嵌入空间中对齐模拟状态与实际观察状态,RWML 确保了内部仿真与环境动态的一致性,克服了传统令牌预测的局限性。在 ALFWorld 和$\tau^2$ Bench 上的实验表明,该方法显著优于基线模型,结合任务成功奖励后表现更佳。

AI 推荐理由

论文提出世界模型以预测动作后果和环境动态,这是智能体进行有效任务规划和决策的核心基础。

研究机构
Project Lead 'Equal Advising', Columbia University, New York
论文信息
作者 Xiao Yu, Baolin Peng, Ruize Xu, Yelong Shen, Pengcheng He et al.
发布日期 2026-02-05
arXiv ID 2602.05842
相关性评分 9/10 (高度相关)