LLM Security Reasoning Attack Denial-of-Service Reinforcement Learning
摘要

大推理模型(LRMs)引入了显式多步推理轨迹,但也带来了利用高计算成本的提示诱导推理时拒绝服务(PI-DoS)攻击。本文形式化了 LRMs 的推理成本并定义了 PI-DoS,提出有效攻击需具备高放大比、隐蔽性及可优化性。在此基础上,我们提出了 ReasoningBomb,一种基于强化学习的攻击框架,旨在生成简短自然提示,诱导受害模型陷入极长甚至非终止的推理过程。实验表明,该方法在多个开源及商业模型上显著优于基线,实现了极高的输入输出放大比,并能有效绕过多种检测机制。

AI 推荐理由

论文核心研究大推理模型的推理过程机制,通过攻击诱导病态长推理链,直接针对推理能力。

研究机构
约翰霍普金斯大学 威斯康星大学麦迪逊分校 南京理工大学 加州大学戴维斯分校 麻省理工学院
论文信息
作者 Xiaogeng Liu, Xinyan Wang, Yechao Zhang, Sanjay Kariyappa, Chong Xiang et al.
发布日期 2026-01-29
arXiv ID 2602.00154
相关性评分 9/10 (高度相关)