摘要
大推理模型(LRMs)引入了显式多步推理轨迹,但也带来了利用高计算成本的提示诱导推理时拒绝服务(PI-DoS)攻击。本文形式化了 LRMs 的推理成本并定义了 PI-DoS,提出有效攻击需具备高放大比、隐蔽性及可优化性。在此基础上,我们提出了 ReasoningBomb,一种基于强化学习的攻击框架,旨在生成简短自然提示,诱导受害模型陷入极长甚至非终止的推理过程。实验表明,该方法在多个开源及商业模型上显著优于基线,实现了极高的输入输出放大比,并能有效绕过多种检测机制。
AI 推荐理由
论文核心研究大推理模型的推理过程机制,通过攻击诱导病态长推理链,直接针对推理能力。
研究机构
约翰霍普金斯大学
威斯康星大学麦迪逊分校
南京理工大学
加州大学戴维斯分校
麻省理工学院
论文信息