摘要
针对大推理模型标准后训练流程中监督微调导致过度自信及多样性降低的问题,本文提出 CurioSFT 方法。该方法通过内在好奇心增强探索能力,包含自探索蒸馏与熵引导温度选择机制,前者鼓励模型在能力范围内探索,后者自适应调整蒸馏强度以平衡推理 token 的探索与事实 token 的稳定。实验表明,该方法在数学推理任务上显著优于传统微调,并有效提升了后续强化学习阶段的性能表现。
AI 推荐理由
论文针对大推理模型提出新微调方法,直接提升数学推理能力与探索性。
研究机构
香港城市大学
香港科技大学
香港大学
论文信息