摘要
一些Transformer注意力头似乎充当成员检测器,用于判断某个标记是否在上下文中出现过。本文在四个语言模型(GPT-2小、中、大;Pythia-160M)中识别出这些头,并展示了它们形成了一种成员检测策略的光谱。其中两个头表现出高精度的成员过滤功能,错误率极低。第三个头符合经典布隆过滤器的容量曲线,而第四个头在控制混淆因素后被重新归类为通用前缀注意力头。研究发现,这些真正的成员检测头构成一个多分辨率系统,集中在早期层中,具有距离敏感特性,并且能够广泛泛化到任何重复的标记类型。消融实验表明,这些头参与重复和新标记的处理,说明成员测试与其他计算任务共存。
AI 推荐理由
论文探讨了Transformer中注意力头的成员检测机制,与记忆相关,但非唯一主题。
论文信息