ConPress：从多问题上下文压力中学习高效推理

Chain-of-Thought Efficient Reasoning Self-Supervised Learning Token Reduction

摘要

大型推理模型通常生成长思维链导致推理开销巨大。本文发现“自压缩”现象：当提示中包含多个独立问题时，模型会自发缩短各问题的推理轨迹。基于此，提出 ConPress 方法，通过构建多问题提示诱导自压缩，筛选简洁正确的推理轨迹进行监督微调。该方法无需外部教师或强化学习，仅在 8k 样本下即可将 MATH500 和 AIME25 的推理 token 用量分别降低 59% 和 33%，同时保持竞争力准确率。

AI 推荐理由

论文核心研究如何通过上下文压力优化思维链长度，显著提升推理效率。

研究机构

Microsoft, Beijing, China

论文信息

作者 Jie Deng, Shining Liang, Jun Li, Hongzhi Li, Yutao Xie

发布日期 2026-02-01

arXiv ID 2602.01472