Multimodal Reasoning Chain-of-Thought Dual Tuning Thinking Boundary
摘要

尽管增强推理的大语言模型在数学和编码等复杂任务中表现卓越,但其在通用多模态场景中的有效性尚不明确。本文提出“双重微调”框架,旨在评估在给定基座模型和数据集下,推理是否能带来正向增益。通过在受控提示下联合微调思维链与直接回答数据,系统量化并比较两种训练模式的增益,建立“思维边界”以评估空间、数学等多领域任务的推理适用性。研究进一步探讨了强化训练与思维模式的影响,验证了该边界对数据优化的指导作用,挑战了“万物皆需推理”的范式,为开发资源高效的自适应自动思考系统提供依据。

AI 推荐理由

论文核心提出“思维边界”概念,量化评估多模态任务中推理训练的适用性,直接针对推理能力研究。

研究机构
Ant Group
论文信息
作者 Ruobing Zheng, Tianqi Li, Jianing Li, Qingpei Guo, Yi Yuan et al.
发布日期 2026-02-04
arXiv ID 2603.04415
相关性评分 9/10 (高度相关)