Large Reasoning Models Online Learning Efficiency Safety Control
摘要

大型推理模型(LRMs)在复杂任务中表现卓越,但面临高计算成本和延迟问题。现有选择性思维策略虽能提升效率,却常导致不可控误差,尤其在部分反馈和非平稳数据的在线场景中。为此,本文提出“赌注概率近似正确”(B-PAC)推理方法,这是一种原则性方法,旨在实现任意时刻安全且高效的在线推理。该方法利用逆倾向评分估计器构建候选阈值的测试超鞅,并基于累积的安全统计证据动态调整路由阈值。理论证明其具备任意时刻有效的性能损失控制及高效性。实验表明,该方法显著降低计算开销,思考模型使用率最高减少 81.01%,同时将性能损失控制在用户指定水平以下。

AI 推荐理由

论文提出 B-PAC 方法,核心解决大型推理模型的安全高效在线推理问题。

研究机构
中国科学院 清华大学
论文信息
作者 Chengyao Yu, Hao Zeng, Youxin Zhu, Jianguo Huang, Huajun Zeng et al.
发布日期 2026-01-30
arXiv ID 2601.22446
相关性评分 9/10 (高度相关)