世界模型 记忆一致性 动作控制 基准测试 动作泛化
摘要

世界模型旨在理解、记忆并预测动态视觉环境,但目前缺乏一个统一的基准来评估其基本能力。为弥补这一不足,我们引入了MIND,这是首个用于评估世界模型中记忆一致性与动作控制的开放领域闭环重访基准。MIND包含250个高质量1080p和24 FPS视频,涵盖共享动作空间下的100个第一人称和100个第三人称视频片段,以及覆盖八个不同场景的25+25个跨动作空间片段。我们设计了一个高效的评估框架,用于衡量两个核心能力:记忆一致性和动作控制,捕捉不同视角下的时间稳定性和上下文连贯性。此外,我们设计了多种动作空间,包括不同的角色移动速度和相机旋转角度,以评估在共享场景下跨动作空间的动作泛化能力。为了便于未来在MIND上的性能基准测试,我们引入了MIND-World,一种新颖的交互式视频到世界的基线方法。大量实验表明了MIND的完整性,并揭示了当前世界模型中的关键挑战,包括长期记忆一致性维护和跨动作空间泛化的困难。

AI 推荐理由

论文明确聚焦于世界模型中的记忆一致性与动作控制,是Agent Memory机制的核心研究。

论文信息
作者 Yixuan Ye, Xuanyu Lu, Yuxin Jiang, Yuchao Gu, Rui Zhao et al.
发布日期 2026-02-08
arXiv ID 2602.08025
相关性评分 8/10 (高度相关)