KVzap: 快速、自适应且保真的KV缓存剪枝

KV缓存模型压缩推理优化 LLM推理

摘要

随着基于Transformer的语言模型上下文长度的增长，键值（KV）缓存已成为推理过程中的关键瓶颈。尽管已有许多KV缓存剪枝方法被提出，但由于速度与精度之间的权衡，这些方法尚未被主流推理引擎广泛采用。本文引入了KVzap，这是一种快速且输入自适应的KV缓存剪枝方法，适用于预填充和解码阶段。在Qwen3-8B、Llama-3.1-8B-Instruct和Qwen3-32B等模型上，KVzap在长上下文和推理任务中实现了2至4倍的KV缓存压缩，几乎不损失精度，并在KVpress排行榜上取得了最先进的性能。代码和模型可在https://github.com/NVIDIA/kvpress获取。

AI 推荐理由

论文聚焦KV缓存压缩，直接涉及Agent Memory机制，是推理效率的关键优化。

论文信息

作者 Simon Jegou, Maximilian Jeblick

发布日期 2026-01-12

arXiv ID 2601.07891