摘要
在自主代理、长链推理和创意写作等应用中部署高效的长上下文LLM时,KV缓存内存的线性增长是根本瓶颈。现有的压缩和淘汰方法通常难以平衡准确性、压缩比和硬件效率。我们提出了DeltaKV,一种基于残差的KV缓存压缩框架,其灵感来源于两个经验发现:长距离的标记间相似性和KV表示中的高度共享潜在组件。DeltaKV不丢弃标记,而是相对于检索到的历史参考编码语义残差,在保持保真度的同时显著减少存储。为了将压缩优势转化为实际系统加速,我们进一步引入了Sparse-vLLM,这是一种具有解耦内存管理和针对稀疏和不规则KV布局优化的高性能推理引擎。实验表明,DeltaKV将KV缓存内存减少到原始的29%,同时在LongBench、SCBench和AIME上保持接近无损的准确性。当与Sparse-vLLM集成时,它在长上下文场景中实现了比vLLM高达2倍的吞吐量提升,展示了可扩展长上下文LLM部署的实际路径。
AI 推荐理由
论文直接针对KV缓存压缩问题,提出DeltaKV框架,核心聚焦于Agent Memory的优化。
论文信息