KV缓存 模型压缩 推理优化 LLM推理
摘要

随着基于Transformer的语言模型上下文长度的增长,键值(KV)缓存已成为推理过程中的关键瓶颈。尽管已有许多KV缓存剪枝方法被提出,但由于速度与精度之间的权衡,这些方法尚未被主流推理引擎广泛采用。本文引入了KVzap,这是一种快速且输入自适应的KV缓存剪枝方法,适用于预填充和解码阶段。在Qwen3-8B、Llama-3.1-8B-Instruct和Qwen3-32B等模型上,KVzap在长上下文和推理任务中实现了2至4倍的KV缓存压缩,几乎不损失精度,并在KVpress排行榜上取得了最先进的性能。代码和模型可在https://github.com/NVIDIA/kvpress获取。

AI 推荐理由

论文聚焦KV缓存压缩,直接涉及Agent Memory机制,是推理效率的关键优化。

论文信息
作者 Simon Jegou, Maximilian Jeblick
发布日期 2026-01-12
arXiv ID 2601.07891
相关性评分 8/10 (高度相关)