摘要
可验证奖励的强化学习(RLVR)推动了大模型推理发展,但受限于有限的采样预算,导致探索效率低、训练不稳定。研究发现,许多探索失败源于提示词中少量引入干扰的令牌。据此,本文提出少噪声采样框架(LENS),首先识别并移除干扰令牌进行净化提示,随后将净化过程中的成功采样迁移至原始噪声提示以监督策略优化,使模型学会忽略现实场景中的干扰。实验表明,LENS 显著优于 GRPO,平均性能提升 3.88%,收敛速度加快 1.6 倍以上。
AI 推荐理由
论文核心旨在通过指令净化提升 LLM 在复杂任务中的推理能力与训练效率。
研究机构
清华大学人工智能研究院
丹麦奥胡斯大学计算机科学系
论文信息