摘要
大型推理模型通常生成长思维链导致推理开销巨大。本文发现“自压缩”现象:当提示中包含多个独立问题时,模型会自发缩短各问题的推理轨迹。基于此,提出 ConPress 方法,通过构建多问题提示诱导自压缩,筛选简洁正确的推理轨迹进行监督微调。该方法无需外部教师或强化学习,仅在 8k 样本下即可将 MATH500 和 AIME25 的推理 token 用量分别降低 59% 和 33%,同时保持竞争力准确率。
AI 推荐理由
论文核心研究如何通过上下文压力优化思维链长度,显著提升推理效率。
研究机构
Microsoft, Beijing, China
论文信息