Agent Memory Benchmark Task-Oriented Agents Long-Term Memory Tool Use
摘要

基于大语言模型(LLM)的智能体越来越多地被部署在需要复杂工具操作的任务中,其中长期记忆对于驱动行动至关重要。然而,现有基准主要测试智能体在回答显式问题时被动检索孤立事实的能力,未能评估其主动应用记忆执行任务的关键能力。为弥补这一不足,本文提出Mem2ActBench,一个用于评估智能体是否能主动利用长期记忆选择适当工具并进行参数定位的基准。该基准模拟了持续的助手使用场景,用户在长时间、中断的交互中提及相同主题,并期望之前建立的偏好和任务状态被隐式应用。数据集通过自动化流程构建,整合了多个异构来源(ToolACE、BFCL、Oasst1),并通过一致性建模解决冲突,合成2029个会话,平均包含12轮用户-助手-工具交互。从这些记忆链中,反向生成方法生成400个工具使用任务,人工评估确认其中91.3%具有高度依赖记忆的特性。实验表明,当前系统在主动利用记忆进行参数定位方面仍存在不足,突显了改进记忆应用评估与优化的必要性。

AI 推荐理由

论文直接聚焦于长期记忆在任务导向智能体中的应用,提出专门的基准测试Mem2ActBench。

论文信息
作者 Yiting Shen, Kun Li, Wei Zhou, Songlin Hu
发布日期 2026-01-13
arXiv ID 2601.19935
相关性评分 9/10 (高度相关)