OmniVideo-R1：利用查询意图与模态注意力强化视听推理

多模态推理视听理解强化学习注意力机制

摘要

尽管人类通过多种模态协同感知世界以获得整体理解，但现有的全视频模型在视听理解任务上仍面临巨大挑战。本文提出 OmniVideo-R1，一种旨在提升混合模态推理能力的新型强化框架。该框架通过两大关键策略赋予模型“利用全模态线索思考”的能力：一是基于自监督学习范式的查询密集型接地；二是基于对比学习范式的模态注意力融合。在多个基准测试上的大量实验表明，OmniVideo-R1 持续优于强基线模型，彰显了其有效性与强大的泛化能力。

AI 推荐理由

论文核心提出强化视听推理框架，直接针对多模态推理能力进行优化，属于该主题的核心研究。

研究机构

中国科学院自动化研究所

论文信息

作者 Zhangquan Chen, Jiale Tao, Ruihuang Li, Yihao Hu, Ruitao Chen et al.

发布日期 2026-02-05

arXiv ID 2602.05847