摘要
随着模型上下文协议(MCP)标准化自主代理的工具调用,其错误处理循环引入了未被审视的关键攻击面。本文提出 VATS 框架,通过七维变异系统性演化对抗载荷,利用工具错误消息的隐式权威触发修正推理以绕过安全启发式。在四种前沿模型上的评估显示,错误路径注入使间接提示注入成功率提升三倍,最高达 100% 合规率。研究指出将指令嵌入错误上下文的结构性定位是最有效的利用向量,虽生产环境防护可缓解风险,但模型层固有脆弱性仍构成系统性威胁。
AI 推荐理由
论文聚焦工具调用中的错误处理机制与安全漏洞,核心涉及 Agent 技能执行的安全性。
研究机构
Department of Computer Science, University of California, Davis, CA, USA
论文信息