RLVR 推理效率 思维链优化 动态惩罚
摘要

可验证奖励的强化学习(RLVR)虽能激发强大的多步推理能力,但常导致生成轨迹过于冗长。现有的长度惩罚机制因基线稀释和难度 - 惩罚不匹配问题,严重损害准确率。本文提出动态解耦条件优势(DDCA)方法,将效率优化与正确性解耦。该方法仅在正确响应簇内计算长度优势以消除基线稀释,并利用群体通过率动态调整惩罚强度以适应问题难度。实验表明,DDCA 在保持或提升准确率的同时,显著减少了简单任务约 60%、困难任务超 20% 的生成令牌数。

AI 推荐理由

论文核心解决多步推理中的冗余问题,提出新算法优化推理效率与准确率平衡。

研究机构
北京理工大学 深圳职业技术学院 香港理工大学 阿里巴巴集团
论文信息
作者 Keqin Peng, Yuanxin Ouyang, Xuebo Liu, Zhiliang Tian, Ruijian Han et al.
发布日期 2026-02-02
arXiv ID 2602.02099
相关性评分 9/10 (高度相关)