如果我们自适应地分配测试时计算会怎样？

Test-time Compute Process Reward Model Mathematical Reasoning Adaptive Inference

摘要

针对测试时计算扩展通常均匀分配且策略固定的问题，本文提出一种验证器引导的自适应框架，将推理视为迭代轨迹生成与选择过程。该框架在每次迭代中动态生成高层计划、选择推理工具及计算策略，并利用过程奖励模型（PRM）作为统一控制信号：在迭代内指导剪枝与扩展，在迭代间基于聚合奖励选择最终响应。实验表明，该方法在 MATH-500 及高难度基准上显著优于直接扩展，有效集中计算资源于高效用推理路径。

AI 推荐理由

论文核心研究自适应测试时计算分配以优化推理轨迹生成与选择，显著提升数学推理性能。

研究机构

未提供单位

论文信息

作者 Ahsan Bilal, Ahmed Mohsin, Muhammad Umer, Ali Subhan, Hassan Rizwan et al.

发布日期 2026-02-01

arXiv ID 2602.01070