绕过理由：语言模型中隐式推理的因果审计

Chain-of-Thought Causal Auditing Interpretability Activation Patching

摘要

思维链（CoT）提示常被用作推理辅助及透明性机制，但行为提升未必意味着模型内部计算因果依赖于生成的推理文本。本文引入基于激活修补的逐层因果审计方法，提出 CoT 中介指数（CMI）以隔离 CoT 的特有因果影响。研究发现，CoT 的影响通常局限于狭窄的“推理窗口”，且存在理由看似合理但 CMI 接近零的“绕过”现象。结果表明，CoT 的忠实度因模型和任务而异，不能仅凭行为推断，需进行因果审计。

AI 推荐理由

论文核心研究思维链（CoT）的因果忠实度与内部推理机制，直接关联推理能力。

研究机构

Birla Institute of Technology and Science, Pilani, K. K. Birla Goa Campus

论文信息

作者 Anish Sathyanarayanan, Aditya Nagarsekar, Aarush Rathore

发布日期 2026-02-03

arXiv ID 2602.03994