语料库推理 长上下文 记忆增强 智能体架构 基准测试
摘要

尽管当前的大语言模型能够处理百万级标记的上下文,但其在整个文档仓库中的推理能力尚未得到充分验证。现有基准测试存在局限性,主要集中在单个长文本或依赖于“稀疏检索”假设,即答案可以从少量相关片段中得出。然而,在真正的语料库级分析中,证据高度分散在数百个文档中,答案需要全局整合、比较和统计聚合。为解决这一关键问题,我们引入了CorpusQA,这是一个扩展至1000万标记的新基准,通过一种新颖的数据合成框架生成。该框架将推理与文本表示解耦,创建复杂且计算密集型的查询,并通过程序化保证真实答案,挑战系统在不依赖人工标注的情况下对大量非结构化文本进行整体推理。此外,我们还展示了该框架在评估之外的实用性,表明在合成数据上进行微调可以有效提升LLM的一般长上下文推理能力。实验结果表明,即使是最先进的长上下文LLM在输入长度增加时也表现不佳,而标准的检索增强生成系统完全崩溃。我们的研究结果表明,记忆增强的智能体架构提供了更稳健的替代方案,提示需要从简单扩展上下文窗口转向开发用于全局信息合成的先进架构。

AI 推荐理由

论文探讨了大规模语境下的推理能力,涉及记忆增强的智能体架构,与Agent Memory相关但非唯一主题。

论文信息
作者 Zhiyuan Lu, Chenliang Li, Yingcheng Shi, Weizhou Shen, Ming Yan et al.
发布日期 2026-01-21
arXiv ID 2601.14952
相关性评分 7/10 (相关)