摘要
理解相机动态是视频空间智能的基石。现有模型常将其视为黑盒分类,依赖表面视觉模式而非几何线索。本文提出 CamReasoner 框架,将相机运动理解重构为结构化推理过程。该方法以“观察 - 思考 - 回答”范式为核心,迫使模型在显式推理块中解码时空线索。我们构建了包含大量推理链和强化学习反馈样本的数据集,并首次在该领域应用强化学习进行逻辑对齐,确保推断基于物理几何而非上下文猜测,有效抑制幻觉并取得最先进性能。
AI 推荐理由
论文核心提出结构化空间推理框架,利用思维链和强化学习提升相机运动理解能力。
研究机构
加州大学默塞德分校
中国科学院大学
昆士兰大学
纽约州立大学布法罗分校
Ant Group
论文信息