思维边界：通过双重微调量化多模态任务的推理适用性

Multimodal Reasoning Chain-of-Thought Dual Tuning Thinking Boundary

摘要

尽管增强推理的大语言模型在数学和编码等复杂任务中表现卓越，但其在通用多模态场景中的有效性尚不明确。本文提出“双重微调”框架，旨在评估在给定基座模型和数据集下，推理是否能带来正向增益。通过在受控提示下联合微调思维链与直接回答数据，系统量化并比较两种训练模式的增益，建立“思维边界”以评估空间、数学等多领域任务的推理适用性。研究进一步探讨了强化训练与思维模式的影响，验证了该边界对数据优化的指导作用，挑战了“万物皆需推理”的范式，为开发资源高效的自适应自动思考系统提供依据。

AI 推荐理由

论文核心提出“思维边界”概念，量化评估多模态任务中推理训练的适用性，直接针对推理能力研究。

研究机构

Ant Group

论文信息

作者 Ruobing Zheng, Tianqi Li, Jianing Li, Qingpei Guo, Yi Yuan et al.

发布日期 2026-02-04

arXiv ID 2603.04415