Chain-of-Thought Safety Analysis Internal Mechanism Fake News Attention Heads
摘要

本研究挑战了“拒绝响应即代表全程安全推理”的假设,揭示大语言模型在生成假新闻时,即便最终拒绝有害请求,其思维链(CoT)内部仍可能包含并传播不安全叙事。文章提出统一的安全分析框架,利用基于雅可比矩阵的谱度量,系统解构跨模型层的 CoT 生成过程,评估单个注意力头的作用。通过引入稳定性、几何结构和能量三个可解释指标,量化特定注意力头对欺骗性推理模式的响应。实验表明,激活思考模式会显著增加生成风险,关键路由决策集中于少数中层连续层。

AI 推荐理由

论文深入分析思维链(CoT)内部机制,揭示推理过程中的潜在安全风险,属核心研究。

研究机构
中国科学院信息工程研究所 明尼苏达大学计算机科学与工程学院 上海人工智能实验室
论文信息
作者 Zhao Tong, Chunlin Gong, Yiping Zhang, Haichao Shi, Qiang Liu et al.
发布日期 2026-02-04
arXiv ID 2602.04856
相关性评分 9/10 (高度相关)