面向视觉-语言模型长视频理解的双信号自适应KV缓存优化

KV缓存优化视觉-语言模型长视频处理内存管理

摘要

视觉-语言模型（VLMs）在处理长视频内容时面临关键的内存瓶颈，因为Key-Value（KV）缓存随序列长度线性增长。现有解决方案主要采用反应式驱逐策略，在丢弃token前计算完整的注意力矩阵，导致大量计算浪费。本文提出Sali-Cache，一种新颖的先验优化框架，通过主动内存管理实现双信号自适应缓存。该方法结合基于光流分析的时间滤波器以检测帧间冗余，并利用显著性检测的空间滤波器识别视觉重要区域，从而在进入计算密集型注意力操作之前智能管理内存分配。在LLaVA 1.6架构上的实验评估表明，该方法在保持BLEU、ROUGE-L和Exact Match指标100%准确率的同时，有效内存使用量达到2.20倍的压缩比。此外，在相同的内存预算约束下，Sali-Cache能够在更长的时间范围内保留上下文丰富的特征，而不会降低模型性能，从而实现在消费级硬件上高效处理长视频内容。

AI 推荐理由

论文聚焦KV缓存优化，涉及内存管理机制，是长视频处理中的关键问题。

论文信息

作者 Vishnu Sai, Dheeraj Sai, Srinath B, Girish Varma, Priyesh Shukla

发布日期 2026-02-15

arXiv ID 2602.14236