搜索增强模型 过度搜索 LLM效率 检索系统 多轮对话
摘要

搜索增强的大型语言模型(LLMs)通过整合外部检索在知识密集型任务中表现出色。然而,它们常常出现过度搜索现象——即使检索不提高响应质量,也会不必要的调用搜索工具,这导致计算效率低下,并通过引入无关上下文引发幻觉。在本研究中,我们从多个维度系统评估了过度搜索问题,包括查询类型、模型类别、检索条件和多轮对话。我们的发现表明:(i) 搜索通常能提高可回答查询的答案准确性,但会损害不可回答查询的回避能力;(ii) 过度搜索在复杂推理模型和深度研究系统中更为明显,受噪声检索影响加剧,并在多轮对话中累积;(iii) 检索证据的组成至关重要,负证据的存在有助于提升回避能力。为了量化过度搜索,我们引入了“正确性每令牌”(TPC),一个用于衡量搜索增强LLMs性能-成本权衡的评估指标。最后,我们在查询和检索层面探讨了缓解方法,并发布了OverSearchQA数据集,以促进对高效搜索增强LLMs的持续研究。

AI 推荐理由

论文涉及搜索增强模型中的冗余检索问题,与记忆机制相关,但非核心主题。

论文信息
作者 Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun et al.
发布日期 2026-01-09
arXiv ID 2601.05503
相关性评分 6/10 (相关)