僵尸代理：通过自我强化注入实现自我演进LLM代理的持久控制

Agent Memory Security Attack LLM Long-term Memory Persistent Injection

摘要

自我演进的LLM代理通过跨会话更新其内部状态，通常通过写入和重用长期记忆来实现。这种设计虽然提升了长时任务的性能，但也带来了安全隐患：在良性会话中观察到的不可信外部内容可能被存储为记忆，并在后续作为指令使用。本文研究了这一风险，并形式化了一种称为“僵尸代理”的持久性攻击，攻击者通过隐蔽植入有效载荷，使其跨会话存活，从而将代理转化为攻击者的傀儡。我们提出了一种仅需通过攻击者控制的网络内容进行间接暴露的黑盒攻击框架。该攻击分为两个阶段：感染阶段中，代理在完成良性任务时读取受污染的源并将其有效载荷写入长期记忆；触发阶段中，有效载荷被检索或携带并导致未经授权的工具行为。我们为常见的记忆实现（如滑动窗口和检索增强型记忆）设计了特定的持久策略，以抵抗截断和相关性过滤。我们在代表性代理设置和任务上评估了该攻击，测量了随时间推移的持久性以及在保持良性任务质量的同时诱导未经授权行为的能力。结果表明，记忆演化可以将一次性间接注入转化为持久性妥协，这表明仅依赖于每会话提示过滤的防御措施对于自我演进代理是不够的。

AI 推荐理由

论文核心研究LLM Agent的长期记忆机制及其安全风险，直接涉及Memory的设计与攻击。

论文信息

作者 Xianglin Yang, Yufei He, Shuo Ji, Bryan Hooi, Jin Song Dong

发布日期 2026-02-17

arXiv ID 2602.15654