摘要
带可验证奖励的强化学习(RLVR)虽提升了大语言模型推理能力,但存在探索上限,难以发现新策略。本文提出 PSN-RLVR,通过在生成前扰动策略参数,引入时间一致的轨迹级探索,优于动作空间噪声,更能保持长程思维链连贯性。为解决采样更新不匹配,采用截断重要性采样;并设计基于轻量代理的实时自适应噪声调度器,结合语义多样性与自确定性。实验表明,该方法在多种数学推理基准上显著扩展了有效推理边界,大幅提升大采样预算下的通过率。
AI 推荐理由
论文核心解决 RLVR 在数学推理中的探索瓶颈,通过参数空间噪声提升长程思维链一致性。
研究机构
清华大学
论文信息