探测大型语言模型中推理轨迹的演变路径

Reasoning Traces Model Probing Decision Commitment LLM Reliability

摘要

大型语言模型常通过生成“推理轨迹”来解决复杂问题。本文提出一种协议，系统性地探测推理轨迹：生成轨迹后按固定比例截断，并将其重新注入模型以测量答案分布。在多个基准测试上的实验表明，随着推理令牌比例增加，准确性和决策承诺度显著提升，这主要源于相关内容的贡献而非长度效应。强模型能从错误部分轨迹中成功回溯，而弱模型则易受锚定影响。该研究为推理模型的安全部署提供了诊断工具。

AI 推荐理由

论文核心研究 LLM 推理轨迹的演化机制、准确性及决策承诺，直接针对推理能力。

研究机构

Data Analytics Lab, Vrije Universiteit Brussel, Pleinlaan 5, 1050 Brussel, Belgium imec-SMIT, Vrije Universiteit Brussel, Pleinlaan 9, 1050 Brussels, Belgium School of Engineering and Applied Sciences, Harvard University, Cambridge, Massachusetts 02138, USA

论文信息

作者 Marthe Ballon, Brecht Verbeken, Vincent Ginis, Andres Algaba

发布日期 2026-01-30

arXiv ID 2601.23163