摘要
随着LLM代理越来越多地部署在长期、复杂的环境中以解决具有挑战性的问题,它们也暴露于利用多轮用户-代理-环境交互实现单轮设置中无法达成目标的长期攻击。为衡量代理对这些风险的脆弱性,我们提出了AgentLAB,这是首个专门用于评估LLM代理对自适应长期攻击易感性的基准。目前,AgentLAB支持五种新型攻击类型,包括意图劫持、工具链、任务注入、目标漂移和记忆污染,涵盖28个现实的代理环境和644个安全测试用例。通过AgentLAB,我们评估了代表性LLM代理,发现它们仍然极易受到长期攻击;此外,为单轮交互设计的防御措施无法可靠缓解长期威胁。我们预计AgentLAB将作为跟踪实际场景中保护LLM代理进展的重要基准。
AI 推荐理由
论文涉及Agent Memory相关的攻击类型,如记忆污染,但核心是评估LLM Agent的安全性。
论文信息