通过启用推理的任务对齐防御自适应提示注入攻击

Prompt Injection Chain-of-Thought Agent Safety Reinforcement Learning

摘要

间接提示注入攻击通过在代理检索的第三方数据中嵌入恶意指令来劫持基于大语言模型的代理。现有防御在静态基准上表现良好，但在自适应评估中失效。本文指出其失败原因在于仅识别特定攻击模式而非评估指令意图相关性，且训练数据缺乏多样性。为此，我们提出 RETA 方法，该方法在工具输出步骤利用思维链推理，验证动作是否与用户任务一致。结合红队演练生成多样化对抗数据，并通过多目标强化学习优化，RETA 在六种黑盒自适应攻击中将平均攻击成功率降至 3% 左右，同时保持了较高的效用。

AI 推荐理由

论文核心提出基于思维链推理的防御机制，通过推理验证动作与任务一致性来抵御攻击。

研究机构

University of Waterloo Waterloo, Canada Zhejiang University Hangzhou, China KTH Royal Institute of Technology Stockholm, Sweden

论文信息

作者 Lipeng He, Yihan Wang, Jiawen Zhang, N. Asokan

发布日期 2026-06-13

arXiv ID 2606.15441