KV缓存优化 视觉-语言模型 长视频处理 内存管理
摘要

视觉-语言模型(VLMs)在处理长视频内容时面临关键的内存瓶颈,因为Key-Value(KV)缓存随序列长度线性增长。现有解决方案主要采用反应式驱逐策略,在丢弃token前计算完整的注意力矩阵,导致大量计算浪费。本文提出Sali-Cache,一种新颖的先验优化框架,通过主动内存管理实现双信号自适应缓存。该方法结合基于光流分析的时间滤波器以检测帧间冗余,并利用显著性检测的空间滤波器识别视觉重要区域,从而在进入计算密集型注意力操作之前智能管理内存分配。在LLaVA 1.6架构上的实验评估表明,该方法在保持BLEU、ROUGE-L和Exact Match指标100%准确率的同时,有效内存使用量达到2.20倍的压缩比。此外,在相同的内存预算约束下,Sali-Cache能够在更长的时间范围内保留上下文丰富的特征,而不会降低模型性能,从而实现在消费级硬件上高效处理长视频内容。

AI 推荐理由

论文聚焦KV缓存优化,涉及内存管理机制,是长视频处理中的关键问题。

论文信息
作者 Vishnu Sai, Dheeraj Sai, Srinath B, Girish Varma, Priyesh Shukla
发布日期 2026-02-15
arXiv ID 2602.14236
相关性评分 7/10 (相关)