VATS：通过系统变异利用错误路径注入中的隐式权威

Agent Security Tool Use Vulnerability Prompt Injection Error Handling

摘要

随着模型上下文协议（MCP）标准化自主代理的工具调用，其错误处理循环引入了未被审视的关键攻击面。本文提出 VATS 框架，通过七维变异系统性演化对抗载荷，利用工具错误消息的隐式权威触发修正推理以绕过安全启发式。在四种前沿模型上的评估显示，错误路径注入使间接提示注入成功率提升三倍，最高达 100% 合规率。研究指出将指令嵌入错误上下文的结构性定位是最有效的利用向量，虽生产环境防护可缓解风险，但模型层固有脆弱性仍构成系统性威胁。

AI 推荐理由

论文聚焦工具调用中的错误处理机制与安全漏洞，核心涉及 Agent 技能执行的安全性。

研究机构

Department of Computer Science, University of California, Davis, CA, USA

论文信息

作者 Harshil Patel, Kunal Pai

发布日期 2026-06-06

arXiv ID 2606.07992