基于强化学习的世界模型训练用于LLM代理

世界模型强化学习 LLM代理自监督学习环境建模

摘要

大型语言模型（LLMs）在语言相关任务中表现出色，但在代理设置中，它们往往难以预测行动后果并适应环境动态，这突显了LLM代理需要具备世界建模能力。我们提出了强化世界模型学习（RWML），一种自监督方法，通过使用模拟到现实的差距奖励，在文本状态上为LLM代理学习动作条件化的世界模型。该方法将模型生成的模拟下一状态与从环境中观察到的实际下一状态对齐，鼓励预训练嵌入空间中内部世界模拟与实际环境动态之间的一致性。与优先考虑标记级保真度（即重现确切措辞）而忽视语义等价性的下一状态标记预测不同，我们的方法提供了更稳健的训练信号，并且在经验上比LLM作为评判者更不容易受到奖励黑客攻击。我们在ALFWorld和$τ^2$ Bench上评估了我们的方法，尽管是完全自监督的，但仍观察到相对于基线模型有显著提升。当结合任务成功奖励时，我们的方法在ALFWorld和$τ^2$ Bench上的表现分别优于直接任务成功奖励强化学习6.9和5.7个百分点，同时匹配专家数据训练的性能。

AI 推荐理由

论文提出世界模型学习方法，与Agent Memory相关，但非唯一主题。

论文信息

作者 Xiao Yu, Baolin Peng, Ruize Xu, Yelong Shen, Pengcheng He et al.

发布日期 2026-02-05

arXiv ID 2602.05842