摘要
推理时缩放已成为提升大语言模型推理能力的强大范式,其中序贯蒙特卡洛(SMC)框架至关重要。该过程依赖奖励模型评估部分解并引导计算分配。然而,实际中仅能使用近似奖励模型。本文从理论层面解答了为何及何时近似模型足以支持有效缩放。研究指出,近似奖励模型的贝尔曼误差是决定 SMC 效果的关键量。若长度为 T 的推理过程中贝尔曼误差受限于 O(1/T),结合 SMC 可将推理计算复杂度从指数级降至多项式级,从而实现显著的推理效率提升。
AI 推荐理由
论文核心研究推理时的缩放机制,通过理论证明近似奖励模型如何提升推理效率。
研究机构
西北工业大学工业工程与管理科学学院
论文信息