摘要
上下文蒸馏使语言模型能够将上下文中的知识内化为其参数。在本研究中,我们提出了一种名为On-Policy Context Distillation (OPCD)的框架,通过在学生模型自身生成的轨迹上进行训练,并最小化与条件上下文教师模型之间的反向Kullback-Leibler散度,从而连接了基于策略的蒸馏与上下文蒸馏。我们在两个重要应用中验证了OPCD的有效性:经验性知识蒸馏,即模型从历史解决方案中提取并巩固可迁移的知识;系统提示蒸馏,即模型内化优化提示中编码的有益行为。在数学推理、基于文本的游戏和特定领域任务中,OPCD始终优于基线方法,在提高任务准确性的同时更好地保留了分布外能力。此外,我们还表明OPCD能够实现有效的跨规模蒸馏,较小的学生模型可以从较大的教师模型中内化经验性知识。
AI 推荐理由
论文涉及模型内部化上下文知识,与Agent Memory相关,但非唯一主题。
论文信息