THINKSAFE：推理模型的自生成安全对齐

Safety Alignment Reasoning Models Self-Generated Data Chain-of-Thought

摘要

大型推理模型（LRMs）通过强化学习生成长思维链，但过度优化合规性导致其易受有害提示攻击。现有方法依赖外部教师蒸馏，却引发分布差异从而削弱原生推理能力。本文提出 ThinkSafe，一种无需外部教师的自生成对齐框架。该框架利用轻量级拒绝引导，激发模型潜在的危害识别知识，生成符合分布的安全推理轨迹。实验表明，ThinkSafe 在显著降低计算成本的同时，有效恢复了模型的安全性并保留了推理 proficiency。

AI 推荐理由

论文针对大型推理模型的安全对齐问题，核心在于优化思维链生成过程中的安全机制。

研究机构

KAIST AI

论文信息

作者 Seanie Lee, Sangwoo Park, Yumin Choi, Gyeongman Kim, Minki Kang et al.

发布日期 2026-01-30

arXiv ID 2601.23143