保持角色，确保安全：面向安全角色扮演智能体的双循环对抗自我进化

Safety Alignment Role-Playing Agent Adversarial Learning Self-Evolution

摘要

基于大语言模型的角色扮演在保真度上显著提升，但严格遵循人设约束常增加越狱攻击风险。现有训练时解决方案成本高且难以适应动态变化。本文提出一种无需训练的双循环对抗自我进化框架：攻击循环合成渐进式更强的越狱提示，防御循环将失败案例提炼为包含全局规则、人设约束及安全示例的分层知识库。推理时，系统检索并组合结构化知识以引导生成，确保响应既忠实于人设又满足安全约束。实验表明该方法在多个私有模型上显著优于基线。

AI 推荐理由

论文提出双循环对抗自我进化框架，核心机制在于通过攻防迭代实现安全策略的自适应进化。

研究机构

Baidu Inc. The University of Queensland Peking University

论文信息

作者 Mingyang Liao, Yichen Wan, shuchen wu, Chenxi Miao, Xin Shen et al.

发布日期 2026-01-29

arXiv ID 2602.13234