Chain-of-Thought Efficient Reasoning Self-Supervised Learning Token Reduction
摘要

大型推理模型通常生成长思维链导致推理开销巨大。本文发现“自压缩”现象:当提示中包含多个独立问题时,模型会自发缩短各问题的推理轨迹。基于此,提出 ConPress 方法,通过构建多问题提示诱导自压缩,筛选简洁正确的推理轨迹进行监督微调。该方法无需外部教师或强化学习,仅在 8k 样本下即可将 MATH500 和 AIME25 的推理 token 用量分别降低 59% 和 33%,同时保持竞争力准确率。

AI 推荐理由

论文核心研究如何通过上下文压力优化思维链长度,显著提升推理效率。

研究机构
Microsoft, Beijing, China
论文信息
作者 Jie Deng, Shining Liang, Jun Li, Hongzhi Li, Yutao Xie
发布日期 2026-02-01
arXiv ID 2602.01472
相关性评分 9/10 (高度相关)