Safe Reasoning Preference Optimization Jailbreak Defense Large Reasoning Models
摘要

大型推理模型(LRMs)凭借思维链推理取得了巨大成功,但也面临类似基础语言模型的安全问题。现有算法虽旨在引导模型通过安全推理拒绝有害提示,但在面对多样复杂的越狱攻击时往往难以泛化。本文指出失败根源在于安全推理过程的泛化能力不足。为此,我们提出了风险感知偏好优化(RAPO)框架,使 LRM 能够在思考内容中自适应地识别并以适当粒度应对安全风险。实验表明,RAPO 成功实现了多种 LRM 在不同攻击提示下的安全推理泛化,同时保留了通用效用,为 LRM 安全提供了鲁棒的对齐技术。

AI 推荐理由

论文核心研究大型推理模型的安全推理机制,提出风险感知优化框架以增强推理过程的泛化安全性。

研究机构
上海人工智能实验室 北京大学
论文信息
作者 Zeming Wei, Qiaosheng Zhang, Xia Hu, Xingcheng Xu
发布日期 2026-02-04
arXiv ID 2602.04224
相关性评分 9/10 (高度相关)