LLM Agent Memory Management Security Prompt Injection Hierarchical Architecture
摘要

间接提示注入威胁LLM代理,通过在外部内容中嵌入恶意指令,导致未经授权的操作和数据泄露。LLM代理通过上下文窗口维护工作内存,存储交互历史以辅助决策。传统代理无差别地累积所有工具输出和推理轨迹,造成两个关键漏洞:(1)注入的指令在整个工作流中持续存在,为攻击者提供多次操控行为的机会;(2)冗长、非必要的内容损害了决策能力。现有防御方法将臃肿的内存视为既定事实,专注于保持系统韧性,而非减少不必要的积累以防止攻击。本文提出了AgentSys框架,通过显式内存管理来防御间接提示注入。受操作系统进程内存隔离的启发,AgentSys采用分层结构组织代理:主代理生成用于工具调用的工作者代理,每个工作者代理在独立上下文中运行,并可生成子工作者处理子任务。外部数据和子任务轨迹不会进入主代理的内存;只有经过模式验证的返回值可以通过确定性的JSON解析跨边界传输。实验表明,仅隔离机制即可将攻击成功率降至2.19%,再加上验证器/清理器进一步提升防御效果,其开销随操作数量而非上下文长度增长。在AgentDojo和ASB上,AgentSys分别实现了0.78%和4.25%的攻击成功率,同时略微提升了良性任务的效用。它对自适应攻击者和多种基础模型均表现出鲁棒性,证明显式内存管理能够实现安全、动态的LLM代理架构。

AI 推荐理由

论文核心聚焦于LLM Agent的显式分层内存管理,直接针对内存安全问题提出解决方案。

论文信息
作者 Ruoyao Wen, Hao Li, Chaowei Xiao, Ning Zhang
发布日期 2026-02-07
arXiv ID 2602.07398
相关性评分 10/10 (高度相关)