恢复后训练后的探索能力：大推理模型的潜在探索解码

Large Reasoning Models Decoding Strategy Exploration Collapse Entropy Analysis

摘要

大推理模型（LRMs）经强化学习后训练在数学和代码推理上表现优异，但本文发现该过程导致非预期的“探索坍塌”：基于温度的采样不再提升 pass@$n$准确率。实证显示，后训练模型最终层后验熵显著降低，而中间层熵仍较高。受此启发，作者提出潜在探索解码（LED），一种深度条件化解码策略。LED 通过累加中间层后验并选择最大熵的深度配置作为探索候选，无需额外训练或参数，即在多个基准和模型上将 pass@1 和 pass@16 准确率分别提升 0.61 和 1.03 个百分点。

AI 推荐理由

论文针对大推理模型后训练中的探索坍塌问题，提出新解码策略以提升数学与代码推理性能。

研究机构

中国

论文信息

作者 Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo et al.

发布日期 2026-02-02

arXiv ID 2602.01698