Agent Hijacking Template Injection LLM Security Attack Framework
摘要

代理劫持被OWASP列为对大型语言模型(LLM)生态系统的关键威胁,攻击者可通过向检索内容中注入恶意指令来操控执行。现有攻击多依赖人工设计的语义驱动提示操纵,成功率低且难以迁移到闭源商业模型。本文提出Phantom框架,基于结构化模板注入,针对LLM代理的基本架构机制。其关键洞察是代理依赖特定聊天模板标记来区分系统、用户、助手和工具指令。通过在检索上下文中注入优化的结构化模板,诱导角色混淆,使代理将注入内容误认为合法用户指令或先前工具输出。为提高对黑盒代理的攻击迁移性,Phantom引入了新的攻击模板搜索框架,包括多级模板增强、模板自编码器(TAE)以及贝叶斯优化。实验表明,该框架在攻击成功率(ASR)和查询效率上显著优于现有基线,并发现多个实际商业产品中的漏洞。

AI 推荐理由

论文涉及通过结构化模板注入影响Agent行为,与Memory机制相关但非核心。

论文信息
作者 Xinhao Deng, Jiaqing Wu, Miao Chen, Yue Xiao, Ke Xu et al.
发布日期 2026-02-18
arXiv ID 2602.16958
相关性评分 6/10 (相关)