Reinforcement Learning Mathematical Reasoning Exploration Strategy RLVR Chain-of-Thought
摘要

带可验证奖励的强化学习(RLVR)虽提升了大语言模型推理能力,但存在探索上限,难以发现新策略。本文提出 PSN-RLVR,通过在生成前扰动策略参数,引入时间一致的轨迹级探索,优于动作空间噪声,更能保持长程思维链连贯性。为解决采样更新不匹配,采用截断重要性采样;并设计基于轻量代理的实时自适应噪声调度器,结合语义多样性与自确定性。实验表明,该方法在多种数学推理基准上显著扩展了有效推理边界,大幅提升大采样预算下的通过率。

AI 推荐理由

论文核心解决 RLVR 在数学推理中的探索瓶颈,通过参数空间噪声提升长程思维链一致性。

研究机构
清华大学
论文信息
作者 Bizhe Bai, Xinyue Wang, Peng Ye, Tao Chen
发布日期 2026-01-30
arXiv ID 2602.02555
相关性评分 9/10 (高度相关)