Self-Verification Reasoning Efficiency Experience-Driven Token Reduction
摘要

大型推理模型(LRMs)通过生成长推理轨迹并包含反思步骤来实现卓越性能。然而,大规模实证分析显示,大量反思步骤实为重复确认中间结果的自我验证,这些检查多为证实性而非纠正性,极少发现错误或改变推理结果。针对这种激活频率与实际效用不匹配的问题,本文提出一种新颖的经验驱动测试时框架。该方法通过检测重查行为,检索离线经验池中的历史验证结果,评估重查的必要性;若判定为不必要,则发送抑制信号引导模型继续推进。实验表明,该方法在多个模型和数据集上减少了高达 20.3% 的 token 消耗,同时保持甚至提升了准确率。

AI 推荐理由

论文核心研究 LLM 推理过程中的自我验证机制,提出优化策略以减少冗余检查,直接提升推理效率与效果。

研究机构
南洋理工大学
论文信息
作者 Quanyu Long, Kai Jie Jiang, Jianda Chen, Xu Guo, Leilei Gan et al.
发布日期 2026-02-03
arXiv ID 2602.03485
相关性评分 9/10 (高度相关)