摘要
大推理模型(LRMs)经强化学习后训练在数学和代码推理上表现优异,但本文发现该过程导致非预期的“探索坍塌”:基于温度的采样不再提升 pass@$n$准确率。实证显示,后训练模型最终层后验熵显著降低,而中间层熵仍较高。受此启发,作者提出潜在探索解码(LED),一种深度条件化解码策略。LED 通过累加中间层后验并选择最大熵的深度配置作为探索候选,无需额外训练或参数,即在多个基准和模型上将 pass@1 和 pass@16 准确率分别提升 0.61 和 1.03 个百分点。
AI 推荐理由
论文针对大推理模型后训练中的探索坍塌问题,提出新解码策略以提升数学与代码推理性能。
研究机构
中国
论文信息