摘要
基于大语言模型的角色扮演在保真度上显著提升,但严格遵循人设约束常增加越狱攻击风险。现有训练时解决方案成本高且难以适应动态变化。本文提出一种无需训练的双循环对抗自我进化框架:攻击循环合成渐进式更强的越狱提示,防御循环将失败案例提炼为包含全局规则、人设约束及安全示例的分层知识库。推理时,系统检索并组合结构化知识以引导生成,确保响应既忠实于人设又满足安全约束。实验表明该方法在多个私有模型上显著优于基线。
AI 推荐理由
论文提出双循环对抗自我进化框架,核心机制在于通过攻防迭代实现安全策略的自适应进化。
研究机构
Baidu Inc.
The University of Queensland
Peking University
论文信息