LLM Safety Adversarial Game Co-evolution Reinforcement Learning
摘要

针对现有大语言模型(LLM)安全防御因依赖静态数据而滞后于攻击演化的问题,本文提出 MAGIC 框架。该框架将安全对齐建模为多轮多智能体强化学习的非对称对抗博弈:攻击者智能体学习将查询重写为欺骗性提示,防御者智能体同步优化策略以识别并拒绝此类输入。这一动态过程触发协同进化,使攻击者不断发现长尾漏洞,驱动防御者泛化至未见攻击模式。实验表明,该方法在不损害模型有用性的前提下,显著提升了防御成功率。

AI 推荐理由

论文核心提出攻击者与防御者智能体通过对抗博弈实现协同进化,动态提升安全性。

研究机构
上海人工智能实验室 上海交通大学 浙江大学
论文信息
作者 Xiaoyu Wen, Zhida He, Han Qi, Ziyu Wan, Zhongtian Ma et al.
发布日期 2026-02-02
arXiv ID 2602.01539
相关性评分 9/10 (高度相关)