AgentLAB：针对长期攻击的LLM代理基准测试

LLM Agents Security Benchmark Long-Horizon Attacks Memory Poisoning

摘要

随着LLM代理越来越多地部署在长期、复杂的环境中以解决具有挑战性的问题，它们也暴露于利用多轮用户-代理-环境交互实现单轮设置中无法达成目标的长期攻击。为衡量代理对这些风险的脆弱性，我们提出了AgentLAB，这是首个专门用于评估LLM代理对自适应长期攻击易感性的基准。目前，AgentLAB支持五种新型攻击类型，包括意图劫持、工具链、任务注入、目标漂移和记忆污染，涵盖28个现实的代理环境和644个安全测试用例。通过AgentLAB，我们评估了代表性LLM代理，发现它们仍然极易受到长期攻击；此外，为单轮交互设计的防御措施无法可靠缓解长期威胁。我们预计AgentLAB将作为跟踪实际场景中保护LLM代理进展的重要基准。

AI 推荐理由

论文涉及Agent Memory相关的攻击类型，如记忆污染，但核心是评估LLM Agent的安全性。

论文信息

作者 Tanqiu Jiang, Yuhui Wang, Jiacheng Liang, Ting Wang

发布日期 2026-02-18

arXiv ID 2602.16901