自我验证困境：经验驱动的抑制大语言模型推理中过度使用的检查机制

Self-Verification Reasoning Efficiency Experience-Driven Token Reduction

摘要

大型推理模型（LRMs）通过生成长推理轨迹并包含反思步骤来实现卓越性能。然而，大规模实证分析显示，大量反思步骤实为重复确认中间结果的自我验证，这些检查多为证实性而非纠正性，极少发现错误或改变推理结果。针对这种激活频率与实际效用不匹配的问题，本文提出一种新颖的经验驱动测试时框架。该方法通过检测重查行为，检索离线经验池中的历史验证结果，评估重查的必要性；若判定为不必要，则发送抑制信号引导模型继续推进。实验表明，该方法在多个模型和数据集上减少了高达 20.3% 的 token 消耗，同时保持甚至提升了准确率。

AI 推荐理由

论文核心研究 LLM 推理过程中的自我验证机制，提出优化策略以减少冗余检查，直接提升推理效率与效果。

研究机构

南洋理工大学

论文信息

作者 Quanyu Long, Kai Jie Jiang, Jianda Chen, Xu Guo, Leilei Gan et al.

发布日期 2026-02-03

arXiv ID 2602.03485