SHARD：通过自重构蒸馏实现安全且有益的对齐

self-improvement safety alignment distillation LLM

摘要

大型语言模型在处理敏感提示时往往表现不佳，可能直接拒绝、提供通用安全模板，或未能满足用户合法的信息需求。本文提出 SHARD，一种自重构蒸馏方法，旨在提升模型的安全性与帮助性。该方法首先利用哲学指南重写敏感提示以揭示其良性意图，随后将原始回答重构为更安全且更有帮助的版本，最后基于这些自重构响应对模型进行微调。实验表明，SHARD 在多个模型家族中显著提升了帮助性，同时保持了安全性，效果媲美从更大教师模型蒸馏的方法。

AI 推荐理由

论文提出自重构蒸馏方法，使模型通过自我反思改进安全与帮助性，属自我进化范畴。

研究机构

UNC Chapel Hill

论文信息

作者 Viswonathan Manoranjan, Amogh Gupta, Anvesh Rao Vijjini, Thomas Hofweber, Snigdha Chaturvedi

发布日期 2026-06-14

arXiv ID 2606.15517