检索增强生成 信息多样性 问答系统 语言模型
摘要

检索增强生成(RAG)是一种将语言模型输出与领域特定信息结合的常用技术。然而,在需要推理的问答任务中,RAG常因常见检索方法(如余弦相似度)过度追求相关性而引入冗余内容,从而降低信息召回率。为解决这一问题,本文提出了一种以多样性为导向的检索增强生成方法(DF-RAG),在检索阶段系统性地引入多样性以提升复杂推理型问答基准的表现。DF-RAG基于最大边际相关性框架,选择既与查询相关又彼此差异最大的信息片段。其关键创新在于能够在测试时动态优化每个查询的多样性水平,无需额外微调或先验信息。实验表明,DF-RAG在推理密集型问答基准上相比传统RAG提升了4-10个百分点的F1分数,并优于其他已有基线。此外,研究还估计了DF-RAG相对于传统RAG的理论上限可达18%的F1增益,其中DF-RAG实现了高达91.3%的增益。

AI 推荐理由

论文涉及检索增强生成中的信息多样性,与Agent Memory中信息检索和内容管理相关,但非核心主题。

论文信息
作者 Saadat Hasan Khan, Spencer Hong, Jingyu Wu, Kevin Lybarger, Youbing Yin et al.
发布日期 2026-01-23
arXiv ID 2601.17212
相关性评分 6/10 (相关)