利用野外流式视频

streaming video long-term memory VLM real-time processing

摘要

视觉语言模型（VLM）在视频通话助手等应用中需处理无界视频流，但现有模型缺乏流式能力与专用基础设施。本文从三方面填补空白：首先，构建 Streaming-Train-248K 数据集及新训练目标以适配流式交互；其次，提出 Streaming Harness 系统，赋予任意 VLM 主动交互、长时记忆（12 小时上下文）及实时处理能力；最后，设计 Streaming-Eval 基准以评估多样场景下的流式能力。实验表明该方法显著提升了流式视频理解的核心性能。

AI 推荐理由

论文核心贡献之一是构建支持 12 小时上下文保留的长时记忆系统，解决流式视频中的记忆难题。

研究机构

中国科学院信息工程研究所，北京，中国中国科学院网络空间安全学院，北京，中国 JD.COM

论文信息

作者 Dingyu Yao, Shuhuan Gu, Qingyi Si, Junhao Zhou, Chenxu Yang et al.

发布日期 2026-06-07

arXiv ID 2606.08615