视频理解 工具推理 合成数据 Agent系统
摘要

当前视频大语言模型在长视频理解方面仍面临挑战,多数模型依赖于对均匀采样帧的静态推理,导致时间定位能力弱且信息丢失严重。本文提出VideoThinker,一种通过合成工具交互轨迹训练的智能视频大模型。其核心思想是将视频转换为丰富的字幕,并利用强大的智能语言模型生成多步骤的工具使用序列。这些轨迹随后通过将字幕替换为对应帧,生成大规模的视频与工具推理交织数据集,无需模型具备长视频理解能力。实验表明,VideoThinker在长视频基准测试中显著优于仅基于字幕的语言模型代理和强视频模型基线,展示了工具增强的合成数据和自适应检索与缩放推理在长视频理解中的有效性。

AI 推荐理由

论文涉及基于工具的动态推理与记忆机制,但核心是视频理解而非纯记忆系统。

论文信息
作者 Chenglin Li, Qianglong Chen, Feng Han, Yikun Wang, Xingxi Yin et al.
发布日期 2026-01-22
arXiv ID 2601.15724
相关性评分 7/10 (相关)