摘要
针对大语言模型越狱攻击中手工提示静态性与迭代优化低效性的权衡问题,本文提出 JailbreakOPT 框架。该方法将原子越狱提示组织为攻击工具库,通过统一的 episode 内优化抽象生成强效独立攻击提示。此外,框架将工具选择建模为上下文多臂老虎机问题,利用上下文 Thompson 采样基于历史结果指导探索与利用。实验表明,该方法在多个目标模型上显著提高了攻击成功率并减少了成功所需的攻击次数。
AI 推荐理由
论文核心在于构建攻击工具库及优化工具选择策略,属于技能学习与工具使用范畴。
研究机构
University of California, Davis
The Renmin University of China
Independent Researcher
Nankai University
Cornell University
The Chinese University of Hong Kong
Shenzhen
论文信息