摘要
本文提出EMemBench,一个通过交互式游戏评估智能体长期记忆能力的程序化基准。与固定问题集不同,EMemBench从每个智能体自身的轨迹中生成问题,涵盖文本和视觉游戏环境。每个模板均基于底层游戏信号计算可验证的真实答案,并控制回答难度与覆盖记忆技能:单跳/多跳回忆、归纳、时间、空间、逻辑及对抗性推理。实验使用强LM/VLM作为后端,以上下文提示作为基线,在15个文本游戏和多个视觉种子中进行评估。结果显示,归纳和空间推理仍是持续瓶颈,尤其在视觉环境中。持久记忆在文本游戏中为开放架构带来明显提升,但对VLM智能体效果不一致,表明视觉基础的情景记忆仍是一个开放挑战。人类研究进一步确认了EMemBench的难度。
AI 推荐理由
论文直接聚焦于Agent的Episodic Memory评估,提出专门的基准测试EMemBench,属于核心Memory研究。
论文信息