MUZZLE：针对网络代理的自适应对抗性红队测试以抵御间接提示注入攻击

摘要

基于大型语言模型（LLM）的网络代理正被越来越多地部署用于通过直接与网站交互并代表用户执行操作来自动化复杂的在线任务。尽管这些代理提供了强大的功能，但其设计使它们容易受到嵌入在不可信网页内容中的间接提示注入攻击，从而使攻击者劫持代理行为并违反用户意图。尽管对这一威胁的认识正在增加，但现有的评估依赖于固定的攻击模板、手动选择的注入点或范围狭窄的场景，限制了其捕捉实际中真实且自适应攻击的能力。我们提出了MUZZLE，一个自动化的代理框架，用于评估网络代理在面对间接提示注入攻击时的安全性。MUZZLE利用代理的轨迹自动识别高显著性的注入点，并生成针对保密性、完整性及可用性违规的上下文感知恶意指令。与以往方法不同，MUZZLE根据观察到的代理执行轨迹调整攻击策略，并通过失败执行的反馈迭代优化攻击。我们在多样化的网络应用、用户任务和代理配置上评估了MUZZLE，证明其能够在最小人工干预的情况下自动且自适应地评估网络代理的安全性。我们的结果表明，MUZZLE能够有效发现4个网络应用上的37种新攻击，涉及10个违反保密性、可用性或隐私属性的对抗目标。MUZZLE还识别出新的攻击策略，包括2种跨应用的提示注入攻击和一种定制化钓鱼场景。

AI 推荐理由

论文涉及Agent在面对间接提示注入攻击时的安全性，与记忆机制相关但非核心。

论文信息

作者 Georgios Syros, Evan Rose, Brian Grinstead, Christoph Kerschbaumer, William Robertson et al.

发布日期 2026-02-09

arXiv ID 2602.09222