透过目标级黑客视角探究 RLVR 训练不稳定性

RLVR MoE 训练稳定性推理能力目标级黑客

摘要

prolonged 强化学习与可验证奖励（RLVR）虽能持续提升大语言模型的推理能力，但在混合专家（MoE）架构中常引发训练不稳定。本文提出基于“目标级黑客”视角的理论框架，指出该现象源于令牌级信用错位而非奖励黑客。通过在 30B MoE 模型上的实验，形式化了训练 - 推理差异异常增长这一病理动态的机制，为设计稳定的 RLVR 算法提供了因果解释与指导。

AI 推荐理由

论文核心研究通过 RLVR 提升 LLM 推理能力时的训练不稳定机制，直接关联推理能力的优化。

研究机构

中国科学院大学天文与空间科学学院

论文信息

作者 Yiming Dong, Kun Fu, Haoyu Li, Xinyuan Zhu, Yurou Liu et al.

发布日期 2026-02-01

arXiv ID 2602.01103