知识蒸馏 上下文学习 语言模型 Agent Memory
摘要

上下文蒸馏使语言模型能够将上下文中的知识内化为其参数。在本研究中,我们提出了一种名为On-Policy Context Distillation (OPCD)的框架,通过在学生模型自身生成的轨迹上进行训练,并最小化与条件上下文教师模型之间的反向Kullback-Leibler散度,从而连接了基于策略的蒸馏与上下文蒸馏。我们在两个重要应用中验证了OPCD的有效性:经验性知识蒸馏,即模型从历史解决方案中提取并巩固可迁移的知识;系统提示蒸馏,即模型内化优化提示中编码的有益行为。在数学推理、基于文本的游戏和特定领域任务中,OPCD始终优于基线方法,在提高任务准确性的同时更好地保留了分布外能力。此外,我们还表明OPCD能够实现有效的跨规模蒸馏,较小的学生模型可以从较大的教师模型中内化经验性知识。

AI 推荐理由

论文涉及模型内部化上下文知识,与Agent Memory相关,但非唯一主题。

论文信息
作者 Tianzhu Ye, Li Dong, Xun Wu, Shaohan Huang, Furu Wei
发布日期 2026-02-12
arXiv ID 2602.12275
相关性评分 7/10 (相关)