少噪声，多声音：通过指令净化实现基于强化学习的推理

RLVR LLM Reasoning Instruction Purification Sampling Efficiency

摘要

可验证奖励的强化学习（RLVR）推动了大模型推理发展，但受限于有限的采样预算，导致探索效率低、训练不稳定。研究发现，许多探索失败源于提示词中少量引入干扰的令牌。据此，本文提出少噪声采样框架（LENS），首先识别并移除干扰令牌进行净化提示，随后将净化过程中的成功采样迁移至原始噪声提示以监督策略优化，使模型学会忽略现实场景中的干扰。实验表明，LENS 显著优于 GRPO，平均性能提升 3.88%，收敛速度加快 1.6 倍以上。

AI 推荐理由

论文核心旨在通过指令净化提升 LLM 在复杂任务中的推理能力与训练效率。

研究机构

清华大学人工智能研究院丹麦奥胡斯大学计算机科学系

论文信息

作者 Yiju Guo, Tianyi Hu, Zexu Sun, Yankai Lin

发布日期 2026-01-29

arXiv ID 2601.21244