多模态推理 视听理解 强化学习 注意力机制
摘要

尽管人类通过多种模态协同感知世界以获得整体理解,但现有的全视频模型在视听理解任务上仍面临巨大挑战。本文提出 OmniVideo-R1,一种旨在提升混合模态推理能力的新型强化框架。该框架通过两大关键策略赋予模型“利用全模态线索思考”的能力:一是基于自监督学习范式的查询密集型接地;二是基于对比学习范式的模态注意力融合。在多个基准测试上的大量实验表明,OmniVideo-R1 持续优于强基线模型,彰显了其有效性与强大的泛化能力。

AI 推荐理由

论文核心提出强化视听推理框架,直接针对多模态推理能力进行优化,属于该主题的核心研究。

研究机构
中国科学院自动化研究所
论文信息
作者 Zhangquan Chen, Jiale Tao, Ruihuang Li, Yihao Hu, Ruitao Chen et al.
发布日期 2026-02-05
arXiv ID 2602.05847
相关性评分 9/10 (高度相关)