摘要
近年来,大型推理模型(LRMs)通过长链推理(CoTs)显著提升了复杂推理任务的性能。然而,这种方法常导致大量冗余,影响计算效率并造成实时应用中的显著延迟。近期研究表明,更长的推理链并不总是与正确性相关,甚至可能损害准确性。进一步分析发现,LRMs实际上隐含地知道何时停止思考,但这一能力被当前的采样范式所掩盖。受此启发,本文提出SAGE(Self-Aware Guided Efficient Reasoning),一种新的采样范式,能够释放这种高效的推理潜力。此外,将SAGE作为混合采样方法整合到基于群体的强化学习(SAGE-RL)中,使SAGE-RL能有效将SAGE发现的高效推理模式融入标准pass@1推理中,显著提升多个数学基准测试中LRMs的推理准确性和效率。
AI 推荐理由
论文探讨了模型在推理过程中隐式停止的能力,与Agent Memory中的自适应推理控制相关。
论文信息