LLM Agents Security Benchmark Long-Horizon Attacks Memory Poisoning
摘要

随着LLM代理越来越多地部署在长期、复杂的环境中以解决具有挑战性的问题,它们也暴露于利用多轮用户-代理-环境交互实现单轮设置中无法达成目标的长期攻击。为衡量代理对这些风险的脆弱性,我们提出了AgentLAB,这是首个专门用于评估LLM代理对自适应长期攻击易感性的基准。目前,AgentLAB支持五种新型攻击类型,包括意图劫持、工具链、任务注入、目标漂移和记忆污染,涵盖28个现实的代理环境和644个安全测试用例。通过AgentLAB,我们评估了代表性LLM代理,发现它们仍然极易受到长期攻击;此外,为单轮交互设计的防御措施无法可靠缓解长期威胁。我们预计AgentLAB将作为跟踪实际场景中保护LLM代理进展的重要基准。

AI 推荐理由

论文涉及Agent Memory相关的攻击类型,如记忆污染,但核心是评估LLM Agent的安全性。

论文信息
作者 Tanqiu Jiang, Yuhui Wang, Jiacheng Liang, Ting Wang
发布日期 2026-02-18
arXiv ID 2602.16901
相关性评分 7/10 (相关)