任意时刻安全且 PAC 高效的推理

Large Reasoning Models Online Learning Efficiency Safety Control

摘要

大型推理模型（LRMs）在复杂任务中表现卓越，但面临高计算成本和延迟问题。现有选择性思维策略虽能提升效率，却常导致不可控误差，尤其在部分反馈和非平稳数据的在线场景中。为此，本文提出“赌注概率近似正确”（B-PAC）推理方法，这是一种原则性方法，旨在实现任意时刻安全且高效的在线推理。该方法利用逆倾向评分估计器构建候选阈值的测试超鞅，并基于累积的安全统计证据动态调整路由阈值。理论证明其具备任意时刻有效的性能损失控制及高效性。实验表明，该方法显著降低计算开销，思考模型使用率最高减少 81.01%，同时将性能损失控制在用户指定水平以下。

AI 推荐理由

论文提出 B-PAC 方法，核心解决大型推理模型的安全高效在线推理问题。

研究机构

中国科学院清华大学

论文信息

作者 Chengyao Yu, Hao Zeng, Youxin Zhu, Jianguo Huang, Huajun Zeng et al.

发布日期 2026-01-30

arXiv ID 2601.22446