Reinforcement Learning Reasoning Optimization Action Space Reduction
摘要

强化学习是对齐和优化大语言模型的关键范式。标准方法将全词汇表作为动作空间,导致无关令牌干扰策略聚焦于合理决策。本文验证了有效推理路径内在于低秩子空间,据此提出“基于高潜令牌的强化学习”(RLPT)框架。该框架利用基座模型的语义先验动态识别高潜令牌集,并通过掩码机制将策略优化限制在该子集内。理论与实验表明,RLPT 有效降低了梯度方差,稳定了训练过程并提高了样本效率。在数学、编程及电信推理任务中,RLPT 优于标准强化学习基线,且适用于不同模型规模与算法。

AI 推荐理由

论文提出 RLPT 框架,通过筛选高潜令牌优化推理路径,显著提升数学与代码推理能力。

研究机构
华为技术有限公司
论文信息
作者 Jing-Cheng Pang, Liang Lu, Xian Tang, Kun Jiang, Sijie Wu et al.
发布日期 2026-02-03
arXiv ID 2602.03195
相关性评分 9/10 (高度相关)