self-improvement safety alignment distillation LLM
摘要

大型语言模型在处理敏感提示时往往表现不佳,可能直接拒绝、提供通用安全模板,或未能满足用户合法的信息需求。本文提出 SHARD,一种自重构蒸馏方法,旨在提升模型的安全性与帮助性。该方法首先利用哲学指南重写敏感提示以揭示其良性意图,随后将原始回答重构为更安全且更有帮助的版本,最后基于这些自重构响应对模型进行微调。实验表明,SHARD 在多个模型家族中显著提升了帮助性,同时保持了安全性,效果媲美从更大教师模型蒸馏的方法。

AI 推荐理由

论文提出自重构蒸馏方法,使模型通过自我反思改进安全与帮助性,属自我进化范畴。

研究机构
UNC Chapel Hill
论文信息
作者 Viswonathan Manoranjan, Amogh Gupta, Anvesh Rao Vijjini, Thomas Hofweber, Snigdha Chaturvedi
发布日期 2026-06-14
arXiv ID 2606.15517
相关性评分 8/10 (高度相关)