RAG KV缓存 生成质量 推理优化
摘要

检索增强生成(RAG)通过整合外部知识来增强大型语言模型(LLM),虽然减少了幻觉问题,但增加了提示长度,导致计算成本上升和首次生成时间(TTFT)延长。为缓解此问题,现有方法尝试重用每个检索块的预处理KV缓存以加速RAG。然而,缺乏跨块上下文信息显著降低了生成质量,限制了KV缓存重用的潜在优势。本文提出FusionRAG,一种新的推理框架,优化了RAG的预处理和重处理阶段。在离线预处理阶段,将其他相关文本块的信息嵌入到每个块中;在线重处理阶段,仅对模型关注的标记重新计算KV缓存。实验表明,FusionRAG在相同重计算比例下显著提升了生成质量,并在重计算少于15%的标记时,实现了比基线高70%的归一化F1分数,同时将TTFT减少了2.66倍至9.39倍。

AI 推荐理由

论文涉及KV缓存重用以提升RAG效率,与Agent Memory相关但非唯一主题。

论文信息
作者 Jiahao Wang, Weiyu Xie, Mingxing Zhang, Boxing Zhang, Jianwei Dong et al.
发布日期 2026-01-19
arXiv ID 2601.12904
相关性评分 7/10 (相关)