摘要
长上下文推理受到KV缓存内存的限制,其大小随序列长度线性增长;因此,KV缓存压缩的关键在于可靠地选择保留哪些过去的token。大多数基于几何的淘汰方法通过计算键与全局质心的余弦相似度来评分,但余弦相似度不考虑尺度变化,可能忽略区分语义重要token的幅度信息。本文提出ManifoldKV,一种无需训练的评分方法,通过计算token到键质心的欧几里得距离进行排序,同时捕捉角度和径向偏差。在RULER基准测试中,ManifoldKV在4K-16K上下文范围内以20%压缩率实现了95.7%的准确率,与最佳几何基线相当,并在余弦评分失效的两种情况下提升了鲁棒性。首先,在多键检索任务中,ManifoldKV减少了方向冲突,以50%压缩率在3键NIAH任务中达到92.4%,优于KeyDiff的77.0%(+15.4分)。其次,为了解决在64K上下文中全局质心稀释和性能崩溃的问题,本文引入了WindowedManifoldKV,使25%压缩率下的准确率达到84.3%,比全局L2方法恢复了49分,比KeyDiff高出3.2分。该方法仅需3行代码,且无需调优即可跨4种架构使用。
AI 推荐理由
论文直接针对KV缓存压缩问题,核心研究Agent Memory机制与优化方法。
论文信息