Safety Alignment Role-Playing Agent Adversarial Learning Self-Evolution
摘要

基于大语言模型的角色扮演在保真度上显著提升,但严格遵循人设约束常增加越狱攻击风险。现有训练时解决方案成本高且难以适应动态变化。本文提出一种无需训练的双循环对抗自我进化框架:攻击循环合成渐进式更强的越狱提示,防御循环将失败案例提炼为包含全局规则、人设约束及安全示例的分层知识库。推理时,系统检索并组合结构化知识以引导生成,确保响应既忠实于人设又满足安全约束。实验表明该方法在多个私有模型上显著优于基线。

AI 推荐理由

论文提出双循环对抗自我进化框架,核心机制在于通过攻防迭代实现安全策略的自适应进化。

研究机构
Baidu Inc. The University of Queensland Peking University
论文信息
作者 Mingyang Liao, Yichen Wan, shuchen wu, Chenxi Miao, Xin Shen et al.
发布日期 2026-01-29
arXiv ID 2602.13234
相关性评分 9/10 (高度相关)