streaming video long-term memory VLM real-time processing
摘要

视觉语言模型(VLM)在视频通话助手等应用中需处理无界视频流,但现有模型缺乏流式能力与专用基础设施。本文从三方面填补空白:首先,构建 Streaming-Train-248K 数据集及新训练目标以适配流式交互;其次,提出 Streaming Harness 系统,赋予任意 VLM 主动交互、长时记忆(12 小时上下文)及实时处理能力;最后,设计 Streaming-Eval 基准以评估多样场景下的流式能力。实验表明该方法显著提升了流式视频理解的核心性能。

AI 推荐理由

论文核心贡献之一是构建支持 12 小时上下文保留的长时记忆系统,解决流式视频中的记忆难题。

研究机构
中国科学院信息工程研究所,北京,中国 中国科学院网络空间安全学院,北京,中国 JD.COM
论文信息
作者 Dingyu Yao, Shuhuan Gu, Qingyi Si, Junhao Zhou, Chenxu Yang et al.
发布日期 2026-06-07
arXiv ID 2606.08615
相关性评分 8/10 (高度相关)