LLM Factuality Memory Recall Benchmarking Knowledge Encoding
摘要

标准的事实性评估将所有错误视为相同,掩盖了失败是源于知识缺失(空货架)还是对已编码事实的访问受限(丢失的钥匙)。本文提出一种行为框架,从事实层面而非问题层面分析事实知识,通过是否编码以及可访问性(无法回忆、可直接回忆或需推理计算回忆)进行分类。为支持此类分析,我们引入WikiProfile基准,该基准通过基于网络搜索的提示LLM自动构建。在13个LLM的400万次响应中发现,前沿模型在本基准上编码几乎饱和,GPT-5和Gemini-3编码了95%-98%的事实。然而,回忆仍是主要瓶颈:许多原本归因于知识缺失的错误实际上源于无法访问已有知识。这些失败具有系统性,且特别影响长尾事实和反向问题。最后,我们表明推理可以提高回忆能力,并能恢复大量错误,表明未来进展可能更多依赖于提升模型利用已有编码知识的方法,而非单纯扩展规模。

AI 推荐理由

论文聚焦于LLM中事实记忆的编码与召回机制,直接涉及Agent Memory的核心问题。

论文信息
作者 Nitay Calderon, Eyal Ben-David, Zorik Gekhman, Eran Ofek, Gal Yona
发布日期 2026-02-15
arXiv ID 2602.14080
相关性评分 8/10 (高度相关)