Jailbreak Tool Use Prompt Optimization Safety
摘要

针对大语言模型越狱攻击中手工提示静态性与迭代优化低效性的权衡问题,本文提出 JailbreakOPT 框架。该方法将原子越狱提示组织为攻击工具库,通过统一的 episode 内优化抽象生成强效独立攻击提示。此外,框架将工具选择建模为上下文多臂老虎机问题,利用上下文 Thompson 采样基于历史结果指导探索与利用。实验表明,该方法在多个目标模型上显著提高了攻击成功率并减少了成功所需的攻击次数。

AI 推荐理由

论文核心在于构建攻击工具库及优化工具选择策略,属于技能学习与工具使用范畴。

研究机构
University of California, Davis The Renmin University of China Independent Researcher Nankai University Cornell University The Chinese University of Hong Kong Shenzhen
论文信息
作者 Ge Shi, Jun Yin, Donglin Xie, Fangyi Liu, Yucan Li et al.
发布日期 2026-06-09
arXiv ID 2606.11425
相关性评分 8/10 (高度相关)