长上下文模型 KV-cache压缩 微调 检索增强生成 鲁棒性
摘要

随着上下文窗口达到数百万个token,长上下文语言模型(LCLMs)能够编码整个文档集合,成为传统检索增强生成(RAG)方法的有力替代方案。然而,尚不清楚微调策略是否能提升长上下文性能,并在键值缓存(KV-cache)压缩技术下表现出更强的鲁棒性。本文研究了哪些训练策略最有效地增强LCLMs识别和使用相关信息的能力,并提高其在KV-cache压缩下的鲁棒性。实验表明,在领域内任务中取得了显著改进,最高可达基础模型的+20分。然而,跨领域泛化能力仍依赖于具体任务,存在较大方差——LCLMs在金融问题上表现优异(+9分),而RAG在多项选择题上优于基线模型(+6分)。最后,我们的微调方法在KV-cache压缩下的鲁棒性方面带来了适度的提升,不同任务中的增益有所差异。

AI 推荐理由

论文涉及KV-cache压缩与长上下文模型的微调,与Agent Memory相关但非核心主题。

论文信息
作者 Francesco Maria Molfese, Momchil Hardalov, Rexhina Blloshmi, Bill Byrne, Adrià de Gispert
发布日期 2026-01-26
arXiv ID 2601.18527
相关性评分 6/10 (相关)