摘要
视觉语言模型(VLM)在视频通话助手等应用中需处理无界视频流,但现有模型缺乏流式能力与专用基础设施。本文从三方面填补空白:首先,构建 Streaming-Train-248K 数据集及新训练目标以适配流式交互;其次,提出 Streaming Harness 系统,赋予任意 VLM 主动交互、长时记忆(12 小时上下文)及实时处理能力;最后,设计 Streaming-Eval 基准以评估多样场景下的流式能力。实验表明该方法显著提升了流式视频理解的核心性能。
AI 推荐理由
论文核心贡献之一是构建支持 12 小时上下文保留的长时记忆系统,解决流式视频中的记忆难题。
研究机构
中国科学院信息工程研究所,北京,中国
中国科学院网络空间安全学院,北京,中国
JD.COM
论文信息