基于高潜令牌的大语言模型强化学习

Reinforcement Learning Reasoning Optimization Action Space Reduction

摘要

强化学习是对齐和优化大语言模型的关键范式。标准方法将全词汇表作为动作空间，导致无关令牌干扰策略聚焦于合理决策。本文验证了有效推理路径内在于低秩子空间，据此提出“基于高潜令牌的强化学习”（RLPT）框架。该框架利用基座模型的语义先验动态识别高潜令牌集，并通过掩码机制将策略优化限制在该子集内。理论与实验表明，RLPT 有效降低了梯度方差，稳定了训练过程并提高了样本效率。在数学、编程及电信推理任务中，RLPT 优于标准强化学习基线，且适用于不同模型规模与算法。

AI 推荐理由

论文提出 RLPT 框架，通过筛选高潜令牌优化推理路径，显著提升数学与代码推理能力。

研究机构

华为技术有限公司

论文信息

作者 Jing-Cheng Pang, Liang Lu, Xian Tang, Kun Jiang, Sijie Wu et al.

发布日期 2026-02-03

arXiv ID 2602.03195