事件驱动 视频流处理 持久记忆库 长期推理 多模态语言模型
摘要

长视频流的实时理解对多模态大语言模型(VLMs)仍具挑战性,主要由于冗余帧处理和快速遗忘过去上下文。现有流系统依赖固定间隔解码或缓存修剪,这要么导致重复输出,要么丢弃关键时间信息。本文提出Event-VStream,一个事件感知框架,将连续视频表示为一系列语义连贯的离散事件。该系统通过整合运动、语义和预测线索检测有意义的状态转换,并仅在这些边界触发语言生成。每个事件嵌入被整合到持久记忆库中,从而实现长期推理并保持低延迟。在OVOBench-Realtime和长篇Ego4D评估中,Event-VStream表现出竞争力。它在OVOBench-Realtime上比VideoLLM-Online-8B基线提升了10.4分,在使用通用LLaMA-3-8B文本主干的情况下性能接近Flash-VStream-7B,并在2小时Ego4D流中保持约70%的GPT-5胜率。

AI 推荐理由

论文提出事件驱动的视频流处理框架,涉及持久记忆库和长期推理,与Agent Memory相关但非唯一主题。

论文信息
作者 Zhenghui Guo, Yuanbin Man, Junyuan Sheng, Bowen Lin, Ahmed Ahmed et al.
发布日期 2026-01-22
arXiv ID 2601.15655
相关性评分 7/10 (相关)