基于结构感知掩码与 GRPO 的高效思维链蒸馏课程学习

Chain-of-Thought Knowledge Distillation Curriculum Learning GRPO Reasoning Efficiency

摘要

将大语言模型的思维链（CoT）推理能力蒸馏至紧凑学生模型面临巨大挑战：教师推理过程往往过于冗长，导致小模型难以忠实复现。现有方法常将推理压缩为单步，丧失了 CoT 的可解释性价值。本文提出一种三阶段课程学习框架，通过渐进式技能习得解决容量不匹配问题。首先，利用掩码洗牌重建建立结构理解；其次，在掩码补全任务上应用组相对策略优化（GRPO），使模型自主平衡准确率与简洁性；最后，识别持续失败案例并引导学生在针对性重写中内化教师知识。GSM8K 实验表明，该方法使 Qwen2.5-3B-Base 准确率提升 11.29%，输出长度减少 27.4%，优于指令微调变体及先前蒸馏方法。

AI 推荐理由

论文核心研究思维链（CoT）蒸馏，通过课程学习提升小模型推理能力与效率。

研究机构

香港城市大学

论文信息

作者 Bowen Yu, Maolin Wang, Sheng Zhang, Binhao Wang, Yi Wen et al.

发布日期 2026-02-05

arXiv ID 2602.17686