Event-VStream：面向长视频流的事件驱动实时理解

事件驱动视频流处理持久记忆库长期推理多模态语言模型

摘要

长视频流的实时理解对多模态大语言模型（VLMs）仍具挑战性，主要由于冗余帧处理和快速遗忘过去上下文。现有流系统依赖固定间隔解码或缓存修剪，这要么导致重复输出，要么丢弃关键时间信息。本文提出Event-VStream，一个事件感知框架，将连续视频表示为一系列语义连贯的离散事件。该系统通过整合运动、语义和预测线索检测有意义的状态转换，并仅在这些边界触发语言生成。每个事件嵌入被整合到持久记忆库中，从而实现长期推理并保持低延迟。在OVOBench-Realtime和长篇Ego4D评估中，Event-VStream表现出竞争力。它在OVOBench-Realtime上比VideoLLM-Online-8B基线提升了10.4分，在使用通用LLaMA-3-8B文本主干的情况下性能接近Flash-VStream-7B，并在2小时Ego4D流中保持约70%的GPT-5胜率。

AI 推荐理由

论文提出事件驱动的视频流处理框架，涉及持久记忆库和长期推理，与Agent Memory相关但非唯一主题。

论文信息

作者 Zhenghui Guo, Yuanbin Man, Junyuan Sheng, Bowen Lin, Ahmed Ahmed et al.

发布日期 2026-01-22

arXiv ID 2601.15655