摘要
大型推理模型(LRMs)虽能通过生成长推理链解决复杂任务,但冗长的生成导致显著延迟和计算开销。为此,本文提出 CoSMo 框架,旨在消除结构性冗余而非盲目限制 token 数量。CoSMo 利用拆分 - 合并算法动态优化推理链,通过合并冗余片段和分割逻辑缺口以确保连贯性。此外,采用结构对齐的强化学习与新颖的段级预算机制,监督模型在训练中维持高效的推理结构。实验表明,该方法在多个基准上优于现有基线,准确率提升 3.3 分,段使用量平均减少 28.7%。
AI 推荐理由
论文核心研究推理链的结构优化与效率平衡,直接提升推理能力。
研究机构
University of Science and Technology of China
论文信息