摘要
本地部署的小型语言模型需在严格资源限制下持续支持多样任务,不可避免地依赖云端大模型。然而,在持续学习中调节云辅助极具挑战,基于奖励的强化学习常导致卸载行为不稳定并加剧灾难性遗忘。本文提出 DA-GRPO,一种将云使用约束直接融入优势计算的双优势组相对策略优化方法。该方法使本地模型能联合学习任务能力与协作行为,在遵循预设辅助预算的同时,让云请求在后训练阶段自然涌现。实验表明,该方法显著提升了切换后准确率,减少了遗忘,并保持了稳定的云使用率。
AI 推荐理由
论文核心研究持续学习中的自我适应与抗遗忘机制,属于典型的自我进化范畴。
研究机构
†
论文信息