通过潜在动作实现自我改进的世界建模

世界建模潜在变量逆动力学建模强化学习 LLM

摘要

世界内部建模——预测在动作Z下的前一状态X与下一状态Y之间的转换——对于LLM和VLM的推理和规划至关重要。通常需要代价高昂的动作标记轨迹来学习此类模型。本文提出SWIRL，一种自改进框架，通过将动作视为潜在变量，并在前向世界建模（FWM）Pθ(Y|X,Z)和逆动力学建模（IDM）Qφ(Z|X,Y)之间交替，从仅包含状态的序列中进行学习。SWIRL迭代两个阶段：(1) 变分信息最大化，更新FWM以生成与潜在动作在给定先前状态下具有最大条件互信息的下一状态，鼓励可识别的一致性；(2) ELBO最大化，更新IDM以解释观察到的转换，有效执行坐标上升。两个模型均使用强化学习（具体为GRPO）进行训练，奖励信号为相反冻结模型的日志概率。我们为两种更新提供了理论可学习性保证，并在多个环境中对SWIRL进行了评估，包括单轮和多轮开放世界视觉动态以及用于物理、网络和工具调用的合成文本环境。SWIRL在AURORABench上实现了16%的提升，在ByteMorph上提升了28%，在WorldPredictionBench上提升了16%，在StableToolBench上提升了14%。

AI 推荐理由

论文涉及世界建模与隐式动作学习，与Agent Memory相关但非唯一主题。

论文信息

作者 Yifu Qiu, Zheng Zhao, Waylon Li, Yftah Ziser, Anna Korhonen et al.

发布日期 2026-02-05

arXiv ID 2602.06130