利用参数空间噪声进行学习探索：深入探究带可验证奖励的强化学习中的参数空间噪声

Reinforcement Learning Mathematical Reasoning Exploration Strategy RLVR Chain-of-Thought

摘要

带可验证奖励的强化学习（RLVR）虽提升了大语言模型推理能力，但存在探索上限，难以发现新策略。本文提出 PSN-RLVR，通过在生成前扰动策略参数，引入时间一致的轨迹级探索，优于动作空间噪声，更能保持长程思维链连贯性。为解决采样更新不匹配，采用截断重要性采样；并设计基于轻量代理的实时自适应噪声调度器，结合语义多样性与自确定性。实验表明，该方法在多种数学推理基准上显著扩展了有效推理边界，大幅提升大采样预算下的通过率。

AI 推荐理由

论文核心解决 RLVR 在数学推理中的探索瓶颈，通过参数空间噪声提升长程思维链一致性。

研究机构

清华大学

论文信息

作者 Bizhe Bai, Xinyue Wang, Peng Ye, Tao Chen

发布日期 2026-01-30

arXiv ID 2602.02555