Multimodal LLM Deep Research Reasoning Tool Use Reinforcement Learning
摘要

多模态大语言模型(MLLMs)在视觉任务中表现优异,但受限于内部知识,现有“先推理后调用工具”的方法往往假设简单的查询即可获取关键证据,难以应对现实场景中的视觉噪声及复杂问题。为此,本文提出 Vision-DeepResearch,确立了一种新的多模态深度研究范式:执行多轮、多实体及多尺度的视觉与文本搜索,以在重噪声环境下稳健地利用搜索引擎。该方法支持数十步推理和数百次引擎交互,并通过冷启动监督与强化学习将深度研究能力内化于 MLLM 中。实验表明,其性能显著优于现有的多模态深度研究模型及基于 GPT-5 等闭源基座模型的工作流。

AI 推荐理由

论文核心在于通过多轮搜索增强多模态模型的深度推理能力,解决复杂证据聚合问题。

研究机构
中国科学院大学 东华大学 加州大学洛杉矶分校 牛津大学
论文信息
作者 Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao et al.
发布日期 2026-01-29
arXiv ID 2601.22060
相关性评分 9/10 (高度相关)