摘要
近年来,多模态大语言模型(MLLMs)在离线视频理解方面取得了显著进展。然而,将其扩展到视频流输入仍面临挑战,现有模型难以同时保持稳定的理解性能、实时响应和低GPU内存开销。为解决这一问题,本文提出HERMES,一种无需训练的实时且准确理解视频流的新架构。基于对注意力机制的机理研究,我们将KV缓存概念化为一个分层记忆框架,用于封装多粒度的视频信息。在推理过程中,HERMES复用紧凑的KV缓存,在资源受限条件下实现高效的视频流理解。值得注意的是,HERMES在用户查询到达时不需要辅助计算,从而保证了连续视频流交互的实时响应,相比之前最先进的方法,其首次令牌延迟(TTFT)提高了10倍。即使将视频token数量减少多达68%(与均匀采样相比),HERMES在所有基准测试中仍实现了优于或相当的准确性,在流式数据集上最高提升了11.4%。
AI 推荐理由
论文核心提出KV缓存作为分层记忆框架,直接针对Agent Memory机制进行创新设计。
论文信息