test-time compute verification efficiency mathematical reasoning adaptive allocation
摘要

测试时计算已成为大语言模型推理进步的主要驱动力,但常受限于昂贵的验证成本。许多系统中大量验证调用浪费在冗余或无希望的中间假设上。本文研究验证成本受限下的推理问题,提出一种状态级选择性验证框架:结合结构化移动接口的确定性可行性门控、基于学习状态距离与残差评分的预验证排序,以及基于局部不确定性的验证调用自适应分配。该方法将验证资源集中于信息量最大的环节,在 MATH 基准上以更少验证调用实现更高准确率。

AI 推荐理由

论文核心研究测试时计算分配以优化 LLM 推理,显著提升数学推理基准表现。

研究机构
斯坦福大学
论文信息
作者 Shuhui Qu
发布日期 2026-02-03
arXiv ID 2602.03975
相关性评分 9/10 (高度相关)