Vision-DeepResearch：激励多模态大语言模型的深度研究能力

Multimodal LLM Deep Research Reasoning Tool Use Reinforcement Learning

摘要

多模态大语言模型（MLLMs）在视觉任务中表现优异，但受限于内部知识，现有“先推理后调用工具”的方法往往假设简单的查询即可获取关键证据，难以应对现实场景中的视觉噪声及复杂问题。为此，本文提出 Vision-DeepResearch，确立了一种新的多模态深度研究范式：执行多轮、多实体及多尺度的视觉与文本搜索，以在重噪声环境下稳健地利用搜索引擎。该方法支持数十步推理和数百次引擎交互，并通过冷启动监督与强化学习将深度研究能力内化于 MLLM 中。实验表明，其性能显著优于现有的多模态深度研究模型及基于 GPT-5 等闭源基座模型的工作流。

AI 推荐理由

论文核心在于通过多轮搜索增强多模态模型的深度推理能力，解决复杂证据聚合问题。

研究机构

中国科学院大学东华大学加州大学洛杉矶分校牛津大学

论文信息

作者 Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao et al.

发布日期 2026-01-29

arXiv ID 2601.22060