AgentLeak：用于多智能体大语言模型系统隐私泄露的全栈基准测试

隐私泄露多智能体系统共享内存内部通信安全审计

摘要

多智能体大型语言模型（LLM）系统带来了当前基准无法衡量的隐私风险。当代理协调任务时，敏感数据通过代理间消息、共享内存和工具参数传递，而输出审计从未检查这些路径。本文提出AgentLeak，据我们所知，这是首个覆盖内部通道的全栈隐私泄露基准测试，涵盖医疗、金融、法律和企业等领域的1000个场景，并配有32类攻击分类和三级检测流程。通过对GPT-4o、Claude 3.5 Sonnet等五种模型进行测试发现，多代理配置虽然减少了单通道输出泄露，但引入了未被监控的内部通道，使系统整体暴露率上升至68.9%。研究表明，代理间通信是主要漏洞，强调了在内部通信中加强隐私保护的重要性。

AI 推荐理由

论文重点研究多智能体系统中的隐私泄露问题，涉及共享内存和内部通信渠道，与Agent Memory密切相关。

论文信息

作者 Faouzi El Yagoubi, Ranwa Al Mallah, Godwin Badu-Marfo

发布日期 2026-02-12

arXiv ID 2602.11510