短链深思：通过拆分 - 合并优化平衡推理效率与段内能力

推理效率思维链优化强化学习大型推理模型

摘要

大型推理模型（LRMs）虽能通过生成长推理链解决复杂任务，但冗长的生成导致显著延迟和计算开销。为此，本文提出 CoSMo 框架，旨在消除结构性冗余而非盲目限制 token 数量。CoSMo 利用拆分 - 合并算法动态优化推理链，通过合并冗余片段和分割逻辑缺口以确保连贯性。此外，采用结构对齐的强化学习与新颖的段级预算机制，监督模型在训练中维持高效的推理结构。实验表明，该方法在多个基准上优于现有基线，准确率提升 3.3 分，段使用量平均减少 28.7%。

AI 推荐理由

论文核心研究推理链的结构优化与效率平衡，直接提升推理能力。

研究机构

University of Science and Technology of China

论文信息

作者 Runquan Gui, Jie Wang, Zhihai Wang, Chi Ma, Jianye Hao et al.

发布日期 2026-02-03

arXiv ID 2602.03141