超越安全数据：基于定期安全反思的预训练阶段对齐

safety alignment pretraining self-reflection LLM safety

摘要

为实现大语言模型更深度的安全对齐，现有研究多聚焦于预训练阶段的数据过滤或重写。本文主张预训练对齐应超越数据本身的安全性，防止模型将良性知识组合成不安全行为。为此，我们提出“安全反思预训练”方法，通过在预训练语料中定期插入简短的安全反思，将自我监控直接融入语言建模，奠定 foundational 能力并经后续训练强化。实验表明，该方法显著提升了安全分类准确率，降低了推理及微调阶段的攻击成功率，并在合成环境 MedSafetyWorld 中验证了其优于传统数据处理的泛化防御能力。

AI 推荐理由

论文提出通过预训练阶段插入安全反思机制，实现模型自我监控能力的内化与行为塑造，属于自我改进范畴。

研究机构

Institute for Interdisciplinary Information Sciences, Tsinghua University

论文信息

作者 Jinhan Li, Kexian Tang, Yihan Xu, Zhuorui Ye, Kaifeng Lyu

发布日期 2026-06-17

arXiv ID 2606.19168