AgentSys：通过显式分层内存管理实现安全且动态的LLM代理

LLM Agent Memory Management Security Prompt Injection Hierarchical Architecture

摘要

间接提示注入威胁LLM代理，通过在外部内容中嵌入恶意指令，导致未经授权的操作和数据泄露。LLM代理通过上下文窗口维护工作内存，存储交互历史以辅助决策。传统代理无差别地累积所有工具输出和推理轨迹，造成两个关键漏洞：（1）注入的指令在整个工作流中持续存在，为攻击者提供多次操控行为的机会；（2）冗长、非必要的内容损害了决策能力。现有防御方法将臃肿的内存视为既定事实，专注于保持系统韧性，而非减少不必要的积累以防止攻击。本文提出了AgentSys框架，通过显式内存管理来防御间接提示注入。受操作系统进程内存隔离的启发，AgentSys采用分层结构组织代理：主代理生成用于工具调用的工作者代理，每个工作者代理在独立上下文中运行，并可生成子工作者处理子任务。外部数据和子任务轨迹不会进入主代理的内存；只有经过模式验证的返回值可以通过确定性的JSON解析跨边界传输。实验表明，仅隔离机制即可将攻击成功率降至2.19%，再加上验证器/清理器进一步提升防御效果，其开销随操作数量而非上下文长度增长。在AgentDojo和ASB上，AgentSys分别实现了0.78%和4.25%的攻击成功率，同时略微提升了良性任务的效用。它对自适应攻击者和多种基础模型均表现出鲁棒性，证明显式内存管理能够实现安全、动态的LLM代理架构。

AI 推荐理由

论文核心聚焦于LLM Agent的显式分层内存管理，直接针对内存安全问题提出解决方案。

论文信息

作者 Ruoyao Wen, Hao Li, Chaowei Xiao, Ning Zhang

发布日期 2026-02-07

arXiv ID 2602.07398