KV-cache 长上下文 LLM推理优化 内存管理 高效检索
摘要

KV缓存检索对于长上下文LLM的推理至关重要,但现有方法在大规模场景下面临分布漂移和高延迟问题。本文提出ParisKV,一种基于碰撞候选选择和量化内积重排序估计器的、具有抗漂移特性的GPU原生KV缓存检索框架。对于百万token的上下文,ParisKV通过统一虚拟寻址(UVA)支持CPU卸载的KV缓存,并实现按需top-k获取,开销极小。ParisKV在长输入和长生成基准测试中匹配或优于全注意力机制的质量。其在长上下文解码效率方面达到最先进水平:在批量大小为1时,其速度可匹敌甚至超过全注意力机制;在全注意力可运行范围内,吞吐量最高可达其2.8倍;并能扩展到全注意力无法处理的百万token上下文。在百万token规模上,ParisKV相比MagicPIG和PQCache两种最先进的KV缓存Top-k检索基线,分别将解码延迟降低了17倍和44倍。

AI 推荐理由

论文聚焦KV-cache检索,直接涉及长上下文LLM的内存管理与优化,是Agent Memory机制的核心研究。

论文信息
作者 Yanlin Qi, Xinhang Chen, Huiqiang Jiang, Qitong Wang, Botao Peng et al.
发布日期 2026-02-07
arXiv ID 2602.07721
相关性评分 8/10 (高度相关)