摘要
大型语言模型常通过生成“推理轨迹”来解决复杂问题。本文提出一种协议,系统性地探测推理轨迹:生成轨迹后按固定比例截断,并将其重新注入模型以测量答案分布。在多个基准测试上的实验表明,随着推理令牌比例增加,准确性和决策承诺度显著提升,这主要源于相关内容的贡献而非长度效应。强模型能从错误部分轨迹中成功回溯,而弱模型则易受锚定影响。该研究为推理模型的安全部署提供了诊断工具。
AI 推荐理由
论文核心研究 LLM 推理轨迹的演化机制、准确性及决策承诺,直接针对推理能力。
研究机构
Data Analytics Lab, Vrije Universiteit Brussel, Pleinlaan 5, 1050 Brussel, Belgium
imec-SMIT, Vrije Universiteit Brussel, Pleinlaan 9, 1050 Brussels, Belgium
School of Engineering and Applied Sciences, Harvard University, Cambridge, Massachusetts 02138, USA
论文信息