摘要
长视频流的实时理解对多模态大语言模型(VLMs)仍具挑战性,主要由于冗余帧处理和快速遗忘过去上下文。现有流系统依赖固定间隔解码或缓存修剪,这要么导致重复输出,要么丢弃关键时间信息。本文提出Event-VStream,一个事件感知框架,将连续视频表示为一系列语义连贯的离散事件。该系统通过整合运动、语义和预测线索检测有意义的状态转换,并仅在这些边界触发语言生成。每个事件嵌入被整合到持久记忆库中,从而实现长期推理并保持低延迟。在OVOBench-Realtime和长篇Ego4D评估中,Event-VStream表现出竞争力。它在OVOBench-Realtime上比VideoLLM-Online-8B基线提升了10.4分,在使用通用LLaMA-3-8B文本主干的情况下性能接近Flash-VStream-7B,并在2小时Ego4D流中保持约70%的GPT-5胜率。
AI 推荐理由
论文提出事件驱动的视频流处理框架,涉及持久记忆库和长期推理,与Agent Memory相关但非唯一主题。
论文信息