Transformer 检索机制 记忆 优化动态 注意力机制
摘要

匹配与复制是大型语言模型在推理时使用的核心检索原语,即从上下文中检索匹配的标记并复制其后续内容。然而,在自然数据上理解这种行为如何产生具有挑战性,因为检索和记忆是交织在一起的。为了解耦这两个因素,我们引入了Gaussian Match-and-Copy(GMC),一个通过纯粹的二阶相关信号隔离长距离检索的极简基准。数值研究表明,该任务保留了Transformer在实践中发展匹配与复制电路的关键定性特征,并根据其检索能力区分不同架构。我们还分析了简化注意力设置中的优化动态。尽管在回归目标下存在多种可能的解决方案,包括不实现检索的方案,但我们识别出一种隐式偏差模式,其中梯度下降驱动参数发散,而方向与最大边距分离器对齐,从而实现硬匹配选择。我们在满足显式技术条件的情况下,证明了GD轨迹在达到消失的经验损失时的最大边距对齐。

AI 推荐理由

论文探讨了Transformer中match-and-copy机制,与记忆检索相关,但非唯一主题。

论文信息
作者 Antoine Gonon, Alexandre Cordonnier, Nicolas Boumal
发布日期 2026-02-07
arXiv ID 2602.07562
相关性评分 7/10 (相关)