摘要
微调使预训练的大型语言模型具备多种期望技能,如遵循指令和推理。然而,这些微调后的模型仅编码到某个截止日期的知识,需要持续适应。现有解决方案无法同时从适应文档语料库中学习新知识并缓解早期学习能力的遗忘。为此,我们引入了基于上下文蒸馏的持续知识适应方法DiSC。该方法通过在训练样本的不同片段上生成学生和教师分布,并最小化共享标记之间的KL散度,从而高效应用上下文蒸馏而无需显式生成步骤。我们在四个微调模型和两个适应领域上进行了实验,结果表明,与之前的微调和蒸馏方法相比,DiSC在学习新知识和缓解先前技能(如指令遵循、推理和事实知识)遗忘之间取得了最佳平衡。
AI 推荐理由
论文提出了一种持续知识适应方法,涉及防止遗忘和学习新知识,与Agent Memory相关。
论文信息