摘要
当任务按顺序训练时,神经网络仍面临灾难性遗忘这一根本性挑战。在本研究中,我们将持续学习重新表述为一个控制问题,其中学习信号和保留信号在神经活动动态中竞争。我们将正则化惩罚转化为保护先前任务表示的保留信号。学习过程通过最小化整合新任务所需的控制努力,同时与先前任务的保留进行竞争。在平衡状态下,神经活动产生的权重更新隐式编码了完整的先前任务曲率,我们称之为持续自然梯度,无需显式的曲率存储。实验表明,我们的学习框架能够恢复真实的先前任务曲率并实现任务区分,在标准基准测试中优于现有方法,且无需回放。
AI 推荐理由
论文探讨了连续学习中的记忆保持问题,与Agent Memory相关但非唯一主题。
论文信息