基于分类结构学习启发式的自适应测试时计算分配

test-time compute verification efficiency mathematical reasoning adaptive allocation

摘要

测试时计算已成为大语言模型推理进步的主要驱动力，但常受限于昂贵的验证成本。许多系统中大量验证调用浪费在冗余或无希望的中间假设上。本文研究验证成本受限下的推理问题，提出一种状态级选择性验证框架：结合结构化移动接口的确定性可行性门控、基于学习状态距离与残差评分的预验证排序，以及基于局部不确定性的验证调用自适应分配。该方法将验证资源集中于信息量最大的环节，在 MATH 基准上以更少验证调用实现更高准确率。

AI 推荐理由

论文核心研究测试时计算分配以优化 LLM 推理，显著提升数学推理基准表现。

研究机构

斯坦福大学

论文信息

作者 Shuhui Qu

发布日期 2026-02-03

arXiv ID 2602.03975