摘要
在长视频理解任务中,传统的均匀帧采样方法往往无法捕捉关键视觉证据,导致性能下降和幻觉增加。为解决这一问题,近期出现了基于智能体视频思维的范式,采用定位-剪辑-回答的流程,模型主动识别相关视频片段,并在这些片段内进行密集采样以生成答案。然而,现有方法效率较低,定位能力较弱且流程僵化。为此,我们提出VideoTemp-o3,一种统一的智能体视频思维框架,联合建模视频定位与问答任务。该框架具有强大的定位能力,支持按需剪辑并能优化不准确的定位。具体而言,在监督微调阶段,我们设计了一种统一的掩码机制,鼓励探索同时防止噪声干扰。在强化学习中,我们引入专用奖励以缓解奖励黑客问题。此外,从数据角度来看,我们开发了一个有效流程来构建高质量的长视频定位问答数据集,并配套相应的基准用于系统评估不同视频时长下的表现。实验结果表明,我们的方法在长视频理解和定位任务上均取得了显著性能提升。
AI 推荐理由
论文涉及基于视频的智能体思维框架,包含定位与记忆相关机制,但非唯一主题。
论文信息