OVD：在线策略言语蒸馏

Knowledge Distillation Reasoning Memory Efficiency On-policy Learning

摘要

知识蒸馏是将大模型推理能力迁移至高效学生模型的有效途径，但现有在线策略方法受限于词元级对齐，阻碍了探索与环境反馈利用，且存在内存瓶颈。本文提出在线策略言语蒸馏（OVD），一种内存高效框架，利用教师模型的离散言语评分（0-9）进行轨迹匹配，替代词元级概率匹配。该方法大幅降低内存消耗，支持言语反馈下的在线蒸馏，并允许学生自由探索输出空间。实验表明，OVD 在 Web 问答和数学推理任务上显著优于现有方法，训练效率更高。

AI 推荐理由

论文核心在于通过新蒸馏框架提升学生模型的推理能力，并在数学推理任务上取得显著增益。

研究机构

香港科技大学, 香港

论文信息

作者 Jing Xiong, Hui Shen, Shansan Gong, Yuxin Cheng, Jianghan Shen et al.

发布日期 2026-01-29

arXiv ID 2601.21968