摘要
本文揭示了基于大语言模型(LLM)的智能体护栏存在新型漏洞:攻击者可注入精心构造的数据,诱使护栏陷入漫长的推理循环,从而实施系统性拒绝服务(DoS)攻击。研究设计了束搜索优化框架及机制感知结构变异框架来生成攻击载荷。评估显示,该攻击在不同架构和主流模型间具有强泛化性,可导致令牌消耗增加 13-63 倍,端到端延迟放大高达 148 倍,甚至瘫痪共享基础设施。研究强调了开发成本可控且推理鲁棒的护栏的紧迫性。
AI 推荐理由
论文核心攻击向量是利用并恶意延长 Guardrail 的推理过程,虽属安全研究,但深度依赖推理机制。
研究机构
Hong Kong University of Science and Technology, Hong Kong SAR
Zhejiang University of Technology, Hangzhou, China
论文信息