摘要
近期世界模型的研究为环境状态的未来动态建模提供了新思路,使智能体能够在不接触真实环境的情况下进行推理和行动。当前方法主要采用单步或固定时间范围的模拟,未能充分利用其在复杂任务规划中的潜力。本文提出了一种统一框架Imagine-then-Plan(ITP),通过前瞻性想象进行智能体学习,其中策略模型与学习到的世界模型交互,生成多步“想象”轨迹。由于想象的时间跨度可能因任务和阶段而异,我们引入了一种新的自适应前瞻机制,在最终目标与任务进展之间进行权衡。这些想象轨迹提供了关于未来后果的丰富信息,如已完成的进展和潜在冲突,并与当前观测融合,形成一个部分可观测且可想象的马尔可夫决策过程,以指导策略学习。我们实现了训练无关和强化训练两种变体的ITP。大量实验表明,ITP显著优于竞争性基线。进一步分析验证了我们的自适应前瞻机制大幅提升了智能体的推理能力,为解决更广泛和复杂任务提供了有价值的见解。
AI 推荐理由
论文提出基于世界模型的前瞻性想象机制,与Agent Memory中的未来状态建模和规划相关。
论文信息