MAGIC：一种用于鲁棒 LLM 安全性的协同进化攻击者 - 防御者对抗博弈

LLM Safety Adversarial Game Co-evolution Reinforcement Learning

摘要

针对现有大语言模型（LLM）安全防御因依赖静态数据而滞后于攻击演化的问题，本文提出 MAGIC 框架。该框架将安全对齐建模为多轮多智能体强化学习的非对称对抗博弈：攻击者智能体学习将查询重写为欺骗性提示，防御者智能体同步优化策略以识别并拒绝此类输入。这一动态过程触发协同进化，使攻击者不断发现长尾漏洞，驱动防御者泛化至未见攻击模式。实验表明，该方法在不损害模型有用性的前提下，显著提升了防御成功率。

AI 推荐理由

论文核心提出攻击者与防御者智能体通过对抗博弈实现协同进化，动态提升安全性。

研究机构

上海人工智能实验室上海交通大学浙江大学

论文信息

作者 Xiaoyu Wen, Zhida He, Han Qi, Ziyu Wan, Zhongtian Ma et al.

发布日期 2026-02-02

arXiv ID 2602.01539