摘要
大型语言模型(LLMs)经常优先考虑上下文中的冲突信息而非预设参数记忆,这一现象通常被称为顺从或迎合行为。然而,这种行为的机制尚不明确,特别是模型如何通过顺从解决这些知识冲突,以及这种抑制是由于残差流中信号幅度稀释还是方向性几何改变所致。为此,我们对Qwen-4B、Llama-3.1-8B和GLM-4-9B进行了逐层几何分析,将反事实上下文引起的残差流更新分解为径向(基于范数)和角度(基于余弦)成分。实证结果否定了“流形稀释”假设的普遍性,因为其中两种架构在事实查询性能显著下降的情况下仍保持了稳定的残差范数。相反,我们观察到顺从行为始终表现为“正交干扰”,即冲突上下文注入了一个近似正交于真实方向的引导向量,有效旋转了隐藏状态表示。这表明模型并未“遗忘”或抑制内部真相的幅度,而是采用了几何位移机制绕过正确的解码向量,从而在保留原始结构幅度的同时模拟采纳行为。这些发现挑战了标量置信度指标检测幻觉的能力,并强调了需要向量监控以区分真实知识整合与表面化的上下文模仿。
AI 推荐理由
论文核心研究LLM在上下文冲突中的记忆机制,涉及残差流几何分析与知识冲突解决。
论文信息