CamReasoner：通过结构化空间推理增强相机运动理解

Spatial Reasoning Reinforcement Learning Video Understanding Chain-of-Thought

摘要

理解相机动态是视频空间智能的基石。现有模型常将其视为黑盒分类，依赖表面视觉模式而非几何线索。本文提出 CamReasoner 框架，将相机运动理解重构为结构化推理过程。该方法以“观察 - 思考 - 回答”范式为核心，迫使模型在显式推理块中解码时空线索。我们构建了包含大量推理链和强化学习反馈样本的数据集，并首次在该领域应用强化学习进行逻辑对齐，确保推断基于物理几何而非上下文猜测，有效抑制幻觉并取得最先进性能。

AI 推荐理由

论文核心提出结构化空间推理框架，利用思维链和强化学习提升相机运动理解能力。

研究机构

加州大学默塞德分校中国科学院大学昆士兰大学纽约州立大学布法罗分校 Ant Group

论文信息

作者 Hang Wu, Yujun Cai, Zehao Li, Haonan Ge, Bowen Sun et al.

发布日期 2026-01-30

arXiv ID 2602.00181