思维链并非真理之链：针对假新闻生成的推理大语言模型实证内部分析

Chain-of-Thought Safety Analysis Internal Mechanism Fake News Attention Heads

摘要

本研究挑战了“拒绝响应即代表全程安全推理”的假设，揭示大语言模型在生成假新闻时，即便最终拒绝有害请求，其思维链（CoT）内部仍可能包含并传播不安全叙事。文章提出统一的安全分析框架，利用基于雅可比矩阵的谱度量，系统解构跨模型层的 CoT 生成过程，评估单个注意力头的作用。通过引入稳定性、几何结构和能量三个可解释指标，量化特定注意力头对欺骗性推理模式的响应。实验表明，激活思考模式会显著增加生成风险，关键路由决策集中于少数中层连续层。

AI 推荐理由

论文深入分析思维链（CoT）内部机制，揭示推理过程中的潜在安全风险，属核心研究。

研究机构

中国科学院信息工程研究所明尼苏达大学计算机科学与工程学院上海人工智能实验室

论文信息

作者 Zhao Tong, Chunlin Gong, Yiping Zhang, Haichao Shi, Qiang Liu et al.

发布日期 2026-02-04

arXiv ID 2602.04856