Agent Security Memory Safety Trajectory Analysis Attack Classes
摘要

大型语言模型越来越多地被部署为具有规划、维护持久状态和调用外部工具能力的*深度代理*,这使得安全失败从不安全文本转移到了不安全的*轨迹*。我们引入了**AgentFence**,一种以架构为中心的安全评估方法,定义了涵盖规划、记忆、检索、工具使用和委托的14种信任边界攻击类别,并通过*可追溯对话中断*检测失败(如未经授权或不安全的工具使用、错误主体行为、状态/目标完整性违规以及与攻击相关的偏差)。在保持基础模型不变的前提下,我们在持续多轮交互中评估了八种代理架构类型,观察到平均安全中断率(MSBR)存在显著的架构差异,范围从LangGraph的$0.29 ext{±} 0.04$到AutoGPT的$0.51 ext{±} 0.07$。最高风险类别是操作类:钱包拒绝($0.62 ext{±} 0.08$)、授权混淆($0.54 ext{±} 0.10$)、检索污染($0.47 ext{±} 0.09$)和规划操纵($0.44 ext{±} 0.11$),而以提示为中心的类别在标准设置下均低于$0.20$。中断主要由边界违规引起(SIV 31%,WPA 27%,UTI+UTA 24%,ATD 18%),授权混淆与目标和工具劫持高度相关(ρ≈0.63 和 ρ≈0.58)。AgentFence 将代理安全性重新聚焦于实际操作层面:即代理是否能随着时间保持在其目标和权限范围内。

AI 推荐理由

论文涉及Agent Memory相关的安全漏洞,但并非核心研究主题。

论文信息
作者 Sai Puppala, Ismail Hossain, Md Jahangir Alam, Yoonpyo Lee, Jay Yoo et al.
发布日期 2026-02-07
arXiv ID 2602.07652
相关性评分 6/10 (相关)