摘要
随着基于Transformer的语言模型上下文长度的增长,键值(KV)缓存已成为推理过程中的关键瓶颈。尽管已有许多KV缓存剪枝方法被提出,但由于速度与精度之间的权衡,这些方法尚未被主流推理引擎广泛采用。本文引入了KVzap,这是一种快速且输入自适应的KV缓存剪枝方法,适用于预填充和解码阶段。在Qwen3-8B、Llama-3.1-8B-Instruct和Qwen3-32B等模型上,KVzap在长上下文和推理任务中实现了2至4倍的KV缓存压缩,几乎不损失精度,并在KVpress排行榜上取得了最先进的性能。代码和模型可在https://github.com/NVIDIA/kvpress获取。
AI 推荐理由
论文聚焦KV缓存压缩,直接涉及Agent Memory机制,是推理效率的关键优化。
论文信息