检索增强生成 嵌入空间分析 盲点检测 文档增强
摘要

可靠的检索增强生成(RAG)系统依赖于检索器找到相关信息的能力。本文表明,用于RAG系统的神经检索器存在盲点,即无法检索到与查询相关但与查询嵌入相似度低的实体。我们研究了导致此类盲点实体被映射到嵌入空间中难以访问区域的训练偏差。利用从Wikidata关系和维基百科首段构建的大规模数据集以及提出的检索概率评分(RPS),我们展示了标准检索器(如CONTRIEVER、REASONIR)的盲点风险可在索引前通过实体嵌入几何预测,避免昂贵的检索评估。为解决这些盲点,我们引入ARGUS,一个通过知识库(KB)和维基百科首段进行定向文档增强的流程,以提高高风险(低RPS)实体的可检索性。在BRIGHT、IMPLIRET和RAR-B上的广泛实验表明,ARGUS在所有评估检索器上均取得一致改进(平均提升nDCG@5 +3.4和nDCG@10 +4.5),在具有挑战性的子集中提升更大。这些结果证明,预先修复盲点对于构建稳健且可信的RAG系统至关重要。

AI 推荐理由

论文涉及检索盲点问题,与Agent Memory中的信息检索和存储相关,但非核心主题。

论文信息
作者 Zeinab Sadat Taghavi, Ali Modarressi, Hinrich Schutze, Andreas Marfurt
发布日期 2026-02-10
arXiv ID 2602.09616
相关性评分 6/10 (相关)