摘要
大型语言模型通过预训练和微调范式在各种任务中表现出色。然而,在连续任务上的微调会导致灾难性遗忘,即新知识干扰已学能力。尽管该现象广泛存在,但其机制理解仍有限。本文对基于Transformer的LLM在连续微调过程中的灾难性遗忘进行了全面的机制分析。通过跨多个模型规模(109B到400B总参数)和任务序列的系统实验,我们识别出三个主要导致遗忘的机制:注意力权重中的梯度干扰、中间层的表示漂移以及损失景观的平坦化。我们证明遗忘严重程度与任务相似性(Pearson r = 0.87)和梯度对齐指标密切相关。分析显示,在微调过程中约有15至23%的注意力头受到严重干扰,底层更容易受到影响。这些发现为开发针对性的缓解策略奠定了机制基础。
AI 推荐理由
论文深入探讨了连续微调中灾难性遗忘的机制,直接涉及Agent Memory的核心问题。
论文信息