Agent Memory Security Honeypot LLM Defense
摘要

基于大型语言模型(LLM)的智能体使用外部和内部记忆系统来处理复杂的目标导向任务,但这也使其面临严重的记忆提取攻击威胁,目前有效的防御手段仍显不足。本文提出MemPot,这是首个通过向记忆中注入优化后的诱饵(honeypots)来防御记忆提取攻击的理论验证框架。通过两阶段优化过程,MemPot生成能够最大化攻击者检索概率且对良性用户不显眼的陷阱文档。我们将检测过程建模为Wald的序贯概率比检验(SPRT),并从理论上证明MemPot相比最优静态检测器具有更低的平均采样轮数。实验表明,MemPot显著优于现有最先进的基线方法,在检测AUROC指标上提升了50%,在低误报率约束下真阳性率提高了80%。此外,我们的实验还确认了MemPot不会增加在线推理延迟,并保持了智能体在标准任务上的实用性,验证了其在安全性、无害性和效率方面的优越性。

AI 推荐理由

论文核心围绕防御记忆提取攻击,直接涉及Agent Memory机制与安全。

论文信息
作者 Yuhao Wang, Shengfang Zhai, Guanghao Jin, Yinpeng Dong, Linyi Yang et al.
发布日期 2026-02-07
arXiv ID 2602.07517
相关性评分 9/10 (高度相关)