从潜在信号到反思行为：追踪 R1 风格大语言模型中的元认知激活轨迹

Self-Reflection Mechanism Interpretability Logit Lens Meta-Cognition Reasoning Process

摘要

R1 风格大语言模型展现出显著的自我反思能力，但其内部机制尚不明确。本文锚定反思行为的起始点，追踪其逐层激活轨迹。利用 Logit Lens 技术读取词元级语义，揭示了结构化进程：潜在控制层编码思考预算语义；语义枢纽层涌现话语级线索并主导概率分布；行为显性层中反思行为词元的采样概率显著上升。干预实验进一步证实了跨阶段的因果链：提示语义调节潜在方向的激活投影，引发枢纽层线索竞争，进而调控显性层的反思行为采样。研究表明该过程模拟了人类从潜在监控到话语调节再到显式反思的元认知机制。

AI 推荐理由

论文深入解析 R1 风格模型的自我反思与思维链内部机制，属于推理能力核心研究。

研究机构

National University of Singapore

论文信息

作者 Yanrui Du, Yibo Gao, Sendong Zhao, Jiayun Li, Haochun Wang et al.

发布日期 2026-02-02

arXiv ID 2602.01999