Agent Memory Benchmark Multi-Session Tasks Long-Context Learning
摘要

现有对具有记忆能力的智能体的评估通常单独考察记忆和行动。一类基准通过测试过去对话或文本的回忆来评估记忆,但未能体现记忆如何引导未来决策;另一类则专注于单次会话任务,无需长期记忆。然而,在现实场景中,记忆与行动紧密耦合:智能体在与环境交互过程中获取记忆,并依靠该记忆解决后续任务。为此,我们引入了MemoryArena,一个统一的评估框架,用于在多会话的智能体-环境循环中评估智能体的记忆能力。该基准包含由人工设计的智能体任务,其中子任务相互依赖,智能体必须从早期行动和反馈中提取经验并存储到记忆中,再利用这些记忆指导后续行动以完成整体任务。MemoryArena支持网页导航、偏好约束规划、渐进信息搜索和顺序形式推理等任务的评估,并揭示出当前在长上下文记忆基准(如LoCoMo)上表现接近饱和的智能体,在本研究的智能体设置中表现较差,暴露出当前对具有记忆能力的智能体评估的不足。

AI 推荐理由

论文核心聚焦于Agent Memory的评估,提出MemoryArena基准测试,直接针对多会话任务中的记忆机制。

论文信息
作者 Zexue He, Yu Wang, Churan Zhi, Yuanzhe Hu, Tzu-Ping Chen et al.
发布日期 2026-02-18
arXiv ID 2602.16313
相关性评分 9/10 (高度相关)