摘要
大型语言模型依赖于KV缓存以避免自回归解码过程中的冗余计算,但随着上下文长度的增加,读写缓存会迅速占用GPU内存带宽。尽管已有研究探索了KV缓存压缩,但大多数方法忽略了KV缓存的数据依赖性和层间变化。本文提出KV-CoRE(基于奇异值分解的KV缓存可压缩性评估方法),用于量化KV缓存的数据依赖低秩可压缩性。该方法在Frobenius范数下计算最优低秩近似,并通过无梯度和增量方式实现高效的数据集级、逐层评估。利用该方法,我们分析了多个模型和数据集,涵盖五个英文领域和十六种语言,揭示了可压缩性与模型架构、训练数据和语言覆盖之间的系统性关联。作为分析的一部分,我们采用归一化有效秩作为可压缩性指标,并证明其与压缩下的性能下降高度相关。本研究建立了原理性的评估框架,并首次构建了LLMs中KV缓存可压缩性的大规模基准,为动态、数据感知的压缩和数据驱动的模型开发提供了见解。
AI 推荐理由
论文聚焦KV-cache压缩性,与Agent Memory中的缓存管理密切相关,但非唯一主题。
论文信息