RAG 注意力机制 防御方法 知识投毒
摘要

检索增强生成(RAG)是一种有效保持基于LLM响应更新并减少幻觉的方法。然而,最近研究表明RAG对语料库知识投毒攻击非常脆弱:攻击者通过注入误导性文档来操控LLM的输出。我们认为标准的因果注意力机制在攻击场景下允许有害的跨文档交互。为此,我们提出了一种新的防御方法:稀疏文档注意力RAG(SDAG),这是一种块稀疏注意力机制,禁止检索文档之间的交叉注意力。SDAG仅需对注意力掩码进行最小的推理时间修改,且无需微调或额外架构改动。我们对多种攻击策略下的基于LLM的问答任务进行了实证评估,结果表明SDAG在攻击成功率方面显著优于标准因果注意力机制。此外,我们将SDAG与最先进的RAG防御方法结合,进一步展示了其性能优势。

AI 推荐理由

论文涉及RAG中的注意力机制与文档交互,间接关联到Agent Memory的管理与防护。

论文信息
作者 Sagie Dekel, Moshe Tennenholtz, Oren Kurland
发布日期 2026-02-04
arXiv ID 2602.04711
相关性评分 6/10 (相关)