摘要
将大语言模型的思维链(CoT)推理能力蒸馏至紧凑学生模型面临巨大挑战:教师推理过程往往过于冗长,导致小模型难以忠实复现。现有方法常将推理压缩为单步,丧失了 CoT 的可解释性价值。本文提出一种三阶段课程学习框架,通过渐进式技能习得解决容量不匹配问题。首先,利用掩码洗牌重建建立结构理解;其次,在掩码补全任务上应用组相对策略优化(GRPO),使模型自主平衡准确率与简洁性;最后,识别持续失败案例并引导学生在针对性重写中内化教师知识。GSM8K 实验表明,该方法使 Qwen2.5-3B-Base 准确率提升 11.29%,输出长度减少 27.4%,优于指令微调变体及先前蒸馏方法。
AI 推荐理由
论文核心研究思维链(CoT)蒸馏,通过课程学习提升小模型推理能力与效率。
研究机构
香港城市大学
论文信息