Reasoning Traces Model Probing Decision Commitment LLM Reliability
摘要

大型语言模型常通过生成“推理轨迹”来解决复杂问题。本文提出一种协议,系统性地探测推理轨迹:生成轨迹后按固定比例截断,并将其重新注入模型以测量答案分布。在多个基准测试上的实验表明,随着推理令牌比例增加,准确性和决策承诺度显著提升,这主要源于相关内容的贡献而非长度效应。强模型能从错误部分轨迹中成功回溯,而弱模型则易受锚定影响。该研究为推理模型的安全部署提供了诊断工具。

AI 推荐理由

论文核心研究 LLM 推理轨迹的演化机制、准确性及决策承诺,直接针对推理能力。

研究机构
Data Analytics Lab, Vrije Universiteit Brussel, Pleinlaan 5, 1050 Brussel, Belgium imec-SMIT, Vrije Universiteit Brussel, Pleinlaan 9, 1050 Brussels, Belgium School of Engineering and Applied Sciences, Harvard University, Cambridge, Massachusetts 02138, USA
论文信息
作者 Marthe Ballon, Brecht Verbeken, Vincent Ginis, Andres Algaba
发布日期 2026-01-30
arXiv ID 2601.23163
相关性评分 9/10 (高度相关)