RAPO：面向可泛化安全推理的风险感知偏好优化

Safe Reasoning Preference Optimization Jailbreak Defense Large Reasoning Models

摘要

大型推理模型（LRMs）凭借思维链推理取得了巨大成功，但也面临类似基础语言模型的安全问题。现有算法虽旨在引导模型通过安全推理拒绝有害提示，但在面对多样复杂的越狱攻击时往往难以泛化。本文指出失败根源在于安全推理过程的泛化能力不足。为此，我们提出了风险感知偏好优化（RAPO）框架，使 LRM 能够在思考内容中自适应地识别并以适当粒度应对安全风险。实验表明，RAPO 成功实现了多种 LRM 在不同攻击提示下的安全推理泛化，同时保留了通用效用，为 LRM 安全提供了鲁棒的对齐技术。

AI 推荐理由

论文核心研究大型推理模型的安全推理机制，提出风险感知优化框架以增强推理过程的泛化安全性。

研究机构

上海人工智能实验室北京大学

论文信息

作者 Zeming Wei, Qiaosheng Zhang, Xia Hu, Xingcheng Xu

发布日期 2026-02-04

arXiv ID 2602.04224