持续学习 云边协同 灾难性遗忘 强化学习 资源约束
摘要

本地部署的小型语言模型需在严格资源限制下持续支持多样任务,不可避免地依赖云端大模型。然而,在持续学习中调节云辅助极具挑战,基于奖励的强化学习常导致卸载行为不稳定并加剧灾难性遗忘。本文提出 DA-GRPO,一种将云使用约束直接融入优势计算的双优势组相对策略优化方法。该方法使本地模型能联合学习任务能力与协作行为,在遵循预设辅助预算的同时,让云请求在后训练阶段自然涌现。实验表明,该方法显著提升了切换后准确率,减少了遗忘,并保持了稳定的云使用率。

AI 推荐理由

论文核心研究持续学习中的自我适应与抗遗忘机制,属于典型的自我进化范畴。

研究机构
论文信息
作者 Evan Chen, Wenzhi Fang, Shiqiang Wang, Christopher Brinton
发布日期 2026-01-29
arXiv ID 2602.00166
相关性评分 9/10 (高度相关)