摘要
针对现有大语言模型(LLM)安全防御因依赖静态数据而滞后于攻击演化的问题,本文提出 MAGIC 框架。该框架将安全对齐建模为多轮多智能体强化学习的非对称对抗博弈:攻击者智能体学习将查询重写为欺骗性提示,防御者智能体同步优化策略以识别并拒绝此类输入。这一动态过程触发协同进化,使攻击者不断发现长尾漏洞,驱动防御者泛化至未见攻击模式。实验表明,该方法在不损害模型有用性的前提下,显著提升了防御成功率。
AI 推荐理由
论文核心提出攻击者与防御者智能体通过对抗博弈实现协同进化,动态提升安全性。
研究机构
上海人工智能实验室
上海交通大学
浙江大学
论文信息