摘要
知识蒸馏是将大模型推理能力迁移至高效学生模型的有效途径,但现有在线策略方法受限于词元级对齐,阻碍了探索与环境反馈利用,且存在内存瓶颈。本文提出在线策略言语蒸馏(OVD),一种内存高效框架,利用教师模型的离散言语评分(0-9)进行轨迹匹配,替代词元级概率匹配。该方法大幅降低内存消耗,支持言语反馈下的在线蒸馏,并允许学生自由探索输出空间。实验表明,OVD 在 Web 问答和数学推理任务上显著优于现有方法,训练效率更高。
AI 推荐理由
论文核心在于通过新蒸馏框架提升学生模型的推理能力,并在数学推理任务上取得显著增益。
研究机构
香港科技大学, 香港
论文信息