摘要
在多模态大语言模型(MLLMs)上进行任务特定数据的微调是提高下游应用性能的有效方法。然而,这种适应通常会导致预训练任务上的泛化能力下降,这一现象被称为灾难性遗忘。现有方法在微调语言解码器深层时效果不佳或难以扩展到更大的模型。为此,我们提出Model-Dowser,一种新颖的稀疏微调方法。该方法通过联合考虑权重幅度、输入激活和输出敏感度,为每个模型参数计算一个关于预训练泛化能力的重要性评分。在微调过程中,Model-Dowser选择性地保留高重要性参数并更新其余参数。在两个代表性MLLMs(LLaVA和NVILA)上的全面实验表明,Model-Dowser有效缓解了灾难性遗忘,并且在资源效率和可扩展性方面优于先前方法。
AI 推荐理由
论文涉及缓解灾难性遗忘问题,与Agent Memory相关,但非核心主题。
论文信息