参数记忆 上下文冲突 几何分析 顺从性 残差流
摘要

大语言模型常优先处理冲突的上下文信息而忽略预训练参数记忆,表现为顺从行为。本文通过几何分析探究该机制,发现“流形稀释”假设并不普遍。相反,模型表现出“正交干扰”特征:冲突上下文注入准正交于真实方向的引导向量,旋转隐藏状态表示以绕过正确输出,而非抑制内部真理的幅度。该发现挑战了基于标量的幻觉检测指标,强调需进行向量级监控以区分真正的知识整合与表面模仿。

AI 推荐理由

核心研究 LLM 如何权衡上下文信息与参数记忆,揭示知识冲突解决机制。

研究机构
华南理工大学计算机科学与工程学院 香港教育大学教育学院
论文信息
作者 Long Zhang, Fangwei Lin
发布日期 2026-02-04
arXiv ID 2602.04918
相关性评分 9/10 (高度相关)