摘要
大型推理模型(LRMs)在复杂任务中表现卓越,但面临高计算成本和延迟问题。现有选择性思维策略虽能提升效率,却常导致不可控误差,尤其在部分反馈和非平稳数据的在线场景中。为此,本文提出“赌注概率近似正确”(B-PAC)推理方法,这是一种原则性方法,旨在实现任意时刻安全且高效的在线推理。该方法利用逆倾向评分估计器构建候选阈值的测试超鞅,并基于累积的安全统计证据动态调整路由阈值。理论证明其具备任意时刻有效的性能损失控制及高效性。实验表明,该方法显著降低计算开销,思考模型使用率最高减少 81.01%,同时将性能损失控制在用户指定水平以下。
AI 推荐理由
论文提出 B-PAC 方法,核心解决大型推理模型的安全高效在线推理问题。
研究机构
中国科学院
清华大学
论文信息