Prompt Injection Chain-of-Thought Agent Safety Reinforcement Learning
摘要

间接提示注入攻击通过在代理检索的第三方数据中嵌入恶意指令来劫持基于大语言模型的代理。现有防御在静态基准上表现良好,但在自适应评估中失效。本文指出其失败原因在于仅识别特定攻击模式而非评估指令意图相关性,且训练数据缺乏多样性。为此,我们提出 RETA 方法,该方法在工具输出步骤利用思维链推理,验证动作是否与用户任务一致。结合红队演练生成多样化对抗数据,并通过多目标强化学习优化,RETA 在六种黑盒自适应攻击中将平均攻击成功率降至 3% 左右,同时保持了较高的效用。

AI 推荐理由

论文核心提出基于思维链推理的防御机制,通过推理验证动作与任务一致性来抵御攻击。

研究机构
University of Waterloo Waterloo, Canada Zhejiang University Hangzhou, China KTH Royal Institute of Technology Stockholm, Sweden
论文信息
作者 Lipeng He, Yihan Wang, Jiawen Zhang, N. Asokan
发布日期 2026-06-13
arXiv ID 2606.15441
相关性评分 8/10 (高度相关)