推理优化 采样方法 模型效率 自适应推理
摘要

近年来,大型推理模型(LRMs)通过长链推理(CoTs)显著提升了复杂推理任务的性能。然而,这种方法常导致大量冗余,影响计算效率并造成实时应用中的显著延迟。近期研究表明,更长的推理链并不总是与正确性相关,甚至可能损害准确性。进一步分析发现,LRMs实际上隐含地知道何时停止思考,但这一能力被当前的采样范式所掩盖。受此启发,本文提出SAGE(Self-Aware Guided Efficient Reasoning),一种新的采样范式,能够释放这种高效的推理潜力。此外,将SAGE作为混合采样方法整合到基于群体的强化学习(SAGE-RL)中,使SAGE-RL能有效将SAGE发现的高效推理模式融入标准pass@1推理中,显著提升多个数学基准测试中LRMs的推理准确性和效率。

AI 推荐理由

论文探讨了模型在推理过程中隐式停止的能力,与Agent Memory中的自适应推理控制相关。

论文信息
作者 Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang et al.
发布日期 2026-02-09
arXiv ID 2602.08354
相关性评分 6/10 (相关)