预算约束下本地语言模型与云卸载决策的联合持续学习

持续学习云边协同灾难性遗忘强化学习资源约束

摘要

本地部署的小型语言模型需在严格资源限制下持续支持多样任务，不可避免地依赖云端大模型。然而，在持续学习中调节云辅助极具挑战，基于奖励的强化学习常导致卸载行为不稳定并加剧灾难性遗忘。本文提出 DA-GRPO，一种将云使用约束直接融入优势计算的双优势组相对策略优化方法。该方法使本地模型能联合学习任务能力与协作行为，在遵循预设辅助预算的同时，让云请求在后训练阶段自然涌现。实验表明，该方法显著提升了切换后准确率，减少了遗忘，并保持了稳定的云使用率。

AI 推荐理由

论文核心研究持续学习中的自我适应与抗遗忘机制，属于典型的自我进化范畴。

研究机构

†

论文信息

作者 Evan Chen, Wenzhi Fang, Shiqiang Wang, Christopher Brinton

发布日期 2026-01-29

arXiv ID 2602.00166