论（近似）奖励模型在推理时缩放中的力量

Inference-time Scaling Reward Models Sequential Monte Carlo Theoretical Analysis Reasoning Efficiency

摘要

推理时缩放已成为提升大语言模型推理能力的强大范式，其中序贯蒙特卡洛（SMC）框架至关重要。该过程依赖奖励模型评估部分解并引导计算分配。然而，实际中仅能使用近似奖励模型。本文从理论层面解答了为何及何时近似模型足以支持有效缩放。研究指出，近似奖励模型的贝尔曼误差是决定 SMC 效果的关键量。若长度为 T 的推理过程中贝尔曼误差受限于 O(1/T)，结合 SMC 可将推理计算复杂度从指数级降至多项式级，从而实现显著的推理效率提升。

AI 推荐理由

论文核心研究推理时的缩放机制，通过理论证明近似奖励模型如何提升推理效率。

研究机构

西北工业大学工业工程与管理科学学院

论文信息

作者 Youheng Zhu, Yiping Lu

发布日期 2026-02-01

arXiv ID 2602.01381