摘要
强化学习是对齐和优化大语言模型的关键范式。标准方法将全词汇表作为动作空间,导致无关令牌干扰策略聚焦于合理决策。本文验证了有效推理路径内在于低秩子空间,据此提出“基于高潜令牌的强化学习”(RLPT)框架。该框架利用基座模型的语义先验动态识别高潜令牌集,并通过掩码机制将策略优化限制在该子集内。理论与实验表明,RLPT 有效降低了梯度方差,稳定了训练过程并提高了样本效率。在数学、编程及电信推理任务中,RLPT 优于标准强化学习基线,且适用于不同模型规模与算法。
AI 推荐理由
论文提出 RLPT 框架,通过筛选高潜令牌优化推理路径,显著提升数学与代码推理能力。
研究机构
华为技术有限公司
论文信息