摘要
现代基于LLM的代理和聊天助手依赖长期记忆框架来存储可重用的知识、回忆用户偏好并增强推理能力。随着研究人员构建更复杂的记忆架构,分析其能力和指导未来记忆设计变得愈发困难。目前大多数长期记忆基准主要关注简单事实保留、多跳回忆和时间变化等能力,这些能力通常可以通过简单的检索增强型LLM实现,并未测试复杂记忆层次结构。为弥补这一差距,我们提出了StructMemEval——一个用于测试代理组织其长期记忆能力的基准,而不仅仅是事实性回忆。我们收集了一系列任务,这些任务需要人类通过特定结构组织知识来解决,例如交易账本、待办事项列表、树形结构等。初步实验表明,简单的检索增强型LLM在这些任务中表现不佳,而如果提示如何组织记忆,记忆代理可以可靠地完成这些任务。然而,我们也发现现代LLM在未被提示时并不总是能够识别记忆结构。这突显了未来在LLM训练和记忆框架改进方面的重要方向。
AI 推荐理由
论文直接聚焦于LLM Agent的Memory结构评估,提出新的基准测试方法,属于核心Memory研究。
论文信息