摘要
可验证奖励的强化学习(RLVR)虽能激发强大的多步推理能力,但常导致生成轨迹过于冗长。现有的长度惩罚机制因基线稀释和难度 - 惩罚不匹配问题,严重损害准确率。本文提出动态解耦条件优势(DDCA)方法,将效率优化与正确性解耦。该方法仅在正确响应簇内计算长度优势以消除基线稀释,并利用群体通过率动态调整惩罚强度以适应问题难度。实验表明,DDCA 在保持或提升准确率的同时,显著减少了简单任务约 60%、困难任务超 20% 的生成令牌数。
AI 推荐理由
论文核心解决多步推理中的冗余问题,提出新算法优化推理效率与准确率平衡。
研究机构
北京理工大学
深圳职业技术学院
香港理工大学
阿里巴巴集团
论文信息