摘要
思维链(CoT)提示常被用作推理辅助及透明性机制,但行为提升未必意味着模型内部计算因果依赖于生成的推理文本。本文引入基于激活修补的逐层因果审计方法,提出 CoT 中介指数(CMI)以隔离 CoT 的特有因果影响。研究发现,CoT 的影响通常局限于狭窄的“推理窗口”,且存在理由看似合理但 CMI 接近零的“绕过”现象。结果表明,CoT 的忠实度因模型和任务而异,不能仅凭行为推断,需进行因果审计。
AI 推荐理由
论文核心研究思维链(CoT)的因果忠实度与内部推理机制,直接关联推理能力。
研究机构
Birla Institute of Technology and Science, Pilani, K. K. Birla Goa Campus
论文信息