LLM Agent Cognitive Memory Evaluation Framework Constraint Consistency
摘要

长期对话记忆是基于LLM的对话系统的核心能力,但现有基准和评估协议主要关注表层事实性回忆。在实际交互中,适当回应往往依赖于隐式约束,如用户状态、目标或价值观,这些内容不会被后续显式查询。为此,我们引入了LoCoMo-Plus,一个用于评估在提示与语义断开情况下认知记忆的基准。我们进一步表明,传统的字符串匹配指标和显式任务类型提示与此类场景不一致,并提出了基于约束一致性的统一评估框架。实验结果表明,认知记忆仍然具有挑战性,并揭示了现有基准未能捕捉到的失败情况。我们的代码和评估框架已公开。

AI 推荐理由

论文明确聚焦于LLM Agent的认知记忆评估,提出新的框架和指标。

论文信息
作者 Yifei Li, Weidong Guo, Lingling Zhang, Rongman Xu, Muye Huang et al.
发布日期 2026-02-11
arXiv ID 2602.10715
相关性评分 9/10 (高度相关)