摘要
prolonged 强化学习与可验证奖励(RLVR)虽能持续提升大语言模型的推理能力,但在混合专家(MoE)架构中常引发训练不稳定。本文提出基于“目标级黑客”视角的理论框架,指出该现象源于令牌级信用错位而非奖励黑客。通过在 30B MoE 模型上的实验,形式化了训练 - 推理差异异常增长这一病理动态的机制,为设计稳定的 RLVR 算法提供了因果解释与指导。
AI 推荐理由
论文核心研究通过 RLVR 提升 LLM 推理能力时的训练不稳定机制,直接关联推理能力的优化。
研究机构
中国科学院大学天文与空间科学学院
论文信息