摘要
强化学习在大型推理模型进展中起关键作用,但跨领域训练单一通用模型因领域异构性而极具挑战。研究发现,序列式与混合式强化学习策略均在行为及梯度层面产生严重的跨领域干扰。为此,本文提出模块化梯度手术(MGS),在 Transformer 模块级解决梯度冲突。实验表明,MGS 在数学、通用对话及指令遵循三个领域显著优于标准多任务强化学习,且在长周期训练中依然有效,为训练通用大型推理模型提供了高效方案。
AI 推荐理由
论文核心解决多领域通用推理模型训练中的梯度冲突问题,直接提升推理能力。
研究机构
百度公司
阿尔伯塔大学
论文信息