CompactRAG：减少多跳问答中LLM调用和token开销

摘要

检索增强生成（RAG）已成为知识密集型问答的关键范式。然而，现有的多跳RAG系统效率较低，因为它们在每一步之间交替进行检索和推理，导致重复的LLM调用、高token消耗以及跨跳实体锚定不稳定。本文提出CompactRAG，一种简单而有效的框架，将离线语料库重构与在线推理解耦。在离线阶段，LLM一次性读取语料库并将其转换为原子QA知识库，以最小、细粒度的问题-答案对表示知识。在线阶段，复杂查询被分解并仔细重写以保持实体一致性，然后通过密集检索和基于RoBERTa的答案提取进行处理。值得注意的是，在推理过程中，无论推理跳数多少，LLM仅被调用两次——一次用于子问题分解，一次用于最终答案合成。实验表明，CompactRAG在HotpotQA、2WikiMultiHopQA和MuSiQue数据集上实现了与迭代RAG基线相当的准确性，同时显著减少了token消耗，突显了其在大规模知识语料库上进行多跳推理时的成本效益和实用性。

AI 推荐理由

论文涉及RAG系统优化，减少LLM调用和token消耗，与Agent Memory中的知识存储和检索相关。

论文信息

作者 Hao Yang, Zhiyu Yang, Xupeng Zhang, Wei Wei, Yunjie Zhang et al.

发布日期 2026-02-05

arXiv ID 2602.05728