摘要
视觉-语言模型(VLMs)在处理长视频内容时面临关键的内存瓶颈,因为Key-Value(KV)缓存随序列长度线性增长。现有解决方案主要采用反应式驱逐策略,在丢弃token前计算完整的注意力矩阵,导致大量计算浪费。本文提出Sali-Cache,一种新颖的先验优化框架,通过主动内存管理实现双信号自适应缓存。该方法结合基于光流分析的时间滤波器以检测帧间冗余,并利用显著性检测的空间滤波器识别视觉重要区域,从而在进入计算密集型注意力操作之前智能管理内存分配。在LLaVA 1.6架构上的实验评估表明,该方法在保持BLEU、ROUGE-L和Exact Match指标100%准确率的同时,有效内存使用量达到2.20倍的压缩比。此外,在相同的内存预算约束下,Sali-Cache能够在更长的时间范围内保留上下文丰富的特征,而不会降低模型性能,从而实现在消费级硬件上高效处理长视频内容。
AI 推荐理由
论文聚焦KV缓存优化,涉及内存管理机制,是长视频处理中的关键问题。
论文信息