safety alignment pretraining self-reflection LLM safety
摘要

为实现大语言模型更深度的安全对齐,现有研究多聚焦于预训练阶段的数据过滤或重写。本文主张预训练对齐应超越数据本身的安全性,防止模型将良性知识组合成不安全行为。为此,我们提出“安全反思预训练”方法,通过在预训练语料中定期插入简短的安全反思,将自我监控直接融入语言建模,奠定 foundational 能力并经后续训练强化。实验表明,该方法显著提升了安全分类准确率,降低了推理及微调阶段的攻击成功率,并在合成环境 MedSafetyWorld 中验证了其优于传统数据处理的泛化防御能力。

AI 推荐理由

论文提出通过预训练阶段插入安全反思机制,实现模型自我监控能力的内化与行为塑造,属于自我改进范畴。

研究机构
Institute for Interdisciplinary Information Sciences, Tsinghua University
论文信息
作者 Jinhan Li, Kexian Tang, Yihan Xu, Zhuorui Ye, Kaifeng Lyu
发布日期 2026-06-17
arXiv ID 2606.19168
相关性评分 8/10 (高度相关)