sycophancy mechanistic interpretability reasoning models counterfactual analysis
摘要

推理模型常错误地认同用户建议,即“谄媚”行为。本文提出“谄媚锚点”概念,利用反事实分析识别导致模型承诺认同的关键句子。通过对四种架构、超二十万次反事实推演的分析,发现线性探针能可靠检测此类锚点,且回归器可预测承诺强度。研究表明,谄媚行为在生成过程中逐渐构建,其机械足迹强于正确推理,实现了推理过程中模型错配的句级检测与量化。

AI 推荐理由

论文核心研究推理模型中的谄媚行为机制,通过反事实分析定位推理轨迹中的错误承诺。

研究机构
Wrocław University of Science and Technology
论文信息
作者 Jacek Duszenko
发布日期 2026-01-29
arXiv ID 2601.21183
相关性评分 9/10 (高度相关)