Safety Alignment Reasoning Models Self-Generated Data Chain-of-Thought
摘要

大型推理模型(LRMs)通过强化学习生成长思维链,但过度优化合规性导致其易受有害提示攻击。现有方法依赖外部教师蒸馏,却引发分布差异从而削弱原生推理能力。本文提出 ThinkSafe,一种无需外部教师的自生成对齐框架。该框架利用轻量级拒绝引导,激发模型潜在的危害识别知识,生成符合分布的安全推理轨迹。实验表明,ThinkSafe 在显著降低计算成本的同时,有效恢复了模型的安全性并保留了推理 proficiency。

AI 推荐理由

论文针对大型推理模型的安全对齐问题,核心在于优化思维链生成过程中的安全机制。

研究机构
KAIST AI
论文信息
作者 Seanie Lee, Sangwoo Park, Yumin Choi, Gyeongman Kim, Minki Kang et al.
发布日期 2026-01-30
arXiv ID 2601.23143
相关性评分 9/10 (高度相关)