Agent-Fence：跨深度研究代理的安全漏洞映射

摘要

大型语言模型越来越多地被部署为具有规划、维护持久状态和调用外部工具能力的*深度代理*，这使得安全失败从不安全文本转移到了不安全的*轨迹*。我们引入了**AgentFence**，一种以架构为中心的安全评估方法，定义了涵盖规划、记忆、检索、工具使用和委托的14种信任边界攻击类别，并通过*可追溯对话中断*检测失败（如未经授权或不安全的工具使用、错误主体行为、状态/目标完整性违规以及与攻击相关的偏差）。在保持基础模型不变的前提下，我们在持续多轮交互中评估了八种代理架构类型，观察到平均安全中断率（MSBR）存在显著的架构差异，范围从LangGraph的$0.29 ext{±} 0.04$到AutoGPT的$0.51 ext{±} 0.07$。最高风险类别是操作类：钱包拒绝（$0.62 ext{±} 0.08$）、授权混淆（$0.54 ext{±} 0.10$）、检索污染（$0.47 ext{±} 0.09$）和规划操纵（$0.44 ext{±} 0.11$），而以提示为中心的类别在标准设置下均低于$0.20$。中断主要由边界违规引起（SIV 31%，WPA 27%，UTI+UTA 24%，ATD 18%），授权混淆与目标和工具劫持高度相关（ρ≈0.63 和 ρ≈0.58）。AgentFence 将代理安全性重新聚焦于实际操作层面：即代理是否能随着时间保持在其目标和权限范围内。

AI 推荐理由

论文涉及Agent Memory相关的安全漏洞，但并非核心研究主题。

论文信息

作者 Sai Puppala, Ismail Hossain, Md Jahangir Alam, Yoonpyo Lee, Jay Yoo et al.

发布日期 2026-02-07

arXiv ID 2602.07652