Safety Alignment Large Reasoning Models Distribution Shift Reasoning Capability
摘要

安全对齐会导致“安全税”,干扰大推理模型(LRM)的通用推理能力。现有方法使用的数据集通常源自外部模型或人工标注,与目标模型存在分布差距,导致推理能力显著下降。本文提出分布基础细化(DGR)方法,将现有安全推理数据集转换并细化以匹配目标模型的内部数据分布。实验表明,DGR 在保持安全性能的同时有效缓解了安全税,平均推理准确率显著提升。研究发现,推理退化程度与分布偏移相关,且少量样本即可激活潜在的安全拒绝行为,强调了分布一致性对保留推理能力的重要性。

AI 推荐理由

论文核心研究大推理模型在安全对齐中的推理能力退化问题及缓解机制。

研究机构
深圳大学网络空间安全学院 香港城市大学计算机科学与工程系
论文信息
作者 Yingsha Xie, Tiansheng Huang, Enneng Yang, Rui Min, Wenjie Lu et al.
发布日期 2026-02-02
arXiv ID 2602.02136
相关性评分 9/10 (高度相关)