KV缓存压缩 重要性评分 Agent Memory LLM优化
摘要

本文通过Speculative Importance Prediction(SIP)方法研究了学习型KV缓存压缩的可行性。SIP是一种基于KV表示预测token重要性的1.7M参数非查询感知评分器。尽管其架构复杂(多时间跨度前瞻、交叉注意力),但在多个种子、保留级别和任务中,SIP的表现并未优于随机选择等简单基线。主要发现包括:(1) 基于位置的启发式方法(保留前4个和最后N个token)可匹配或超越学习方法;(2) 预填充注意力提供的信号与复杂学习评分器相当;(3) KV表示中超出位置和预填充注意力的信息对重要性预测帮助有限。我们假设未来查询与生成轨迹之间的循环依赖是造成这一困难的原因。

AI 推荐理由

论文探讨了KV缓存压缩中的重要性评分机制,与Agent Memory相关但非唯一主题。

论文信息
作者 Brady Steele
发布日期 2026-01-13
arXiv ID 2601.14279
相关性评分 7/10 (相关)