ReasoningBomb：通过诱导大推理模型产生病态长推理进行的隐蔽拒绝服务攻击

LLM Security Reasoning Attack Denial-of-Service Reinforcement Learning

摘要

大推理模型（LRMs）引入了显式多步推理轨迹，但也带来了利用高计算成本的提示诱导推理时拒绝服务（PI-DoS）攻击。本文形式化了 LRMs 的推理成本并定义了 PI-DoS，提出有效攻击需具备高放大比、隐蔽性及可优化性。在此基础上，我们提出了 ReasoningBomb，一种基于强化学习的攻击框架，旨在生成简短自然提示，诱导受害模型陷入极长甚至非终止的推理过程。实验表明，该方法在多个开源及商业模型上显著优于基线，实现了极高的输入输出放大比，并能有效绕过多种检测机制。

AI 推荐理由

论文核心研究大推理模型的推理过程机制，通过攻击诱导病态长推理链，直接针对推理能力。

研究机构

约翰霍普金斯大学威斯康星大学麦迪逊分校南京理工大学加州大学戴维斯分校麻省理工学院

论文信息

作者 Xiaogeng Liu, Xinyan Wang, Yechao Zhang, Sanjay Kariyappa, Chong Xiang et al.

发布日期 2026-01-29

arXiv ID 2602.00154