摘要
大语言模型常优先处理冲突的上下文信息而忽略预训练参数记忆,表现为顺从行为。本文通过几何分析探究该机制,发现“流形稀释”假设并不普遍。相反,模型表现出“正交干扰”特征:冲突上下文注入准正交于真实方向的引导向量,旋转隐藏状态表示以绕过正确输出,而非抑制内部真理的幅度。该发现挑战了基于标量的幻觉检测指标,强调需进行向量级监控以区分真正的知识整合与表面模仿。
AI 推荐理由
核心研究 LLM 如何权衡上下文信息与参数记忆,揭示知识冲突解决机制。
研究机构
华南理工大学计算机科学与工程学院
香港教育大学教育学院
论文信息