基于策略的上下文蒸馏用于语言模型

知识蒸馏上下文学习语言模型 Agent Memory

摘要

上下文蒸馏使语言模型能够将上下文中的知识内化为其参数。在本研究中，我们提出了一种名为On-Policy Context Distillation (OPCD)的框架，通过在学生模型自身生成的轨迹上进行训练，并最小化与条件上下文教师模型之间的反向Kullback-Leibler散度，从而连接了基于策略的蒸馏与上下文蒸馏。我们在两个重要应用中验证了OPCD的有效性：经验性知识蒸馏，即模型从历史解决方案中提取并巩固可迁移的知识；系统提示蒸馏，即模型内化优化提示中编码的有益行为。在数学推理、基于文本的游戏和特定领域任务中，OPCD始终优于基线方法，在提高任务准确性的同时更好地保留了分布外能力。此外，我们还表明OPCD能够实现有效的跨规模蒸馏，较小的学生模型可以从较大的教师模型中内化经验性知识。

AI 推荐理由

论文涉及模型内部化上下文知识，与Agent Memory相关，但非唯一主题。

论文信息

作者 Tianzhu Ye, Li Dong, Xun Wu, Shaohan Huang, Furu Wei

发布日期 2026-02-12

arXiv ID 2602.12275