摘要
尽管人类通过多种模态协同感知世界以获得整体理解,但现有的全视频模型在视听理解任务上仍面临巨大挑战。本文提出 OmniVideo-R1,一种旨在提升混合模态推理能力的新型强化框架。该框架通过两大关键策略赋予模型“利用全模态线索思考”的能力:一是基于自监督学习范式的查询密集型接地;二是基于对比学习范式的模态注意力融合。在多个基准测试上的大量实验表明,OmniVideo-R1 持续优于强基线模型,彰显了其有效性与强大的泛化能力。
AI 推荐理由
论文核心提出强化视听推理框架,直接针对多模态推理能力进行优化,属于该主题的核心研究。
研究机构
中国科学院自动化研究所
论文信息