摘要
推理时的上下文信息(如示例、检索知识或交互历史)可以在不更新参数的情况下显著提升大语言模型(LLMs)的性能,但其理论作用在除上下文学习(ICL)等特定场景外仍不明确。本文提出了一种统一的理论框架,用于分析基于Transformer的LLMs中任意上下文信息的影响。通过输出误差动态来刻画上下文影响,在单层Transformer中证明了条件上下文误差向量可分解为基线误差向量和上下文校正向量之和。这得出了误差减少所需的几何条件:上下文校正必须与负基线误差对齐并满足范数约束。进一步表明,上下文校正的范数受上下文-查询的相关性和互补性决定。这些结果可扩展到多上下文和多层Transformer。实验覆盖了ICL、检索增强生成和记忆演化,验证了理论,并提出了一种原理性的上下文选择策略,提升了0.6%的性能。
AI 推荐理由
论文探讨了上下文信息对LLM的影响,涉及记忆演化和检索增强生成,与Agent Memory相关但非唯一主题。
论文信息