摘要
大型语言模型(LLMs)已成为许多领域的重要组成部分,因此其安全性成为关键问题。先前的越狱研究探索了多种方法,包括提示优化、自动化红队测试、混淆和基于强化学习的方法。然而,大多数现有技术未能有效利用早期交互中揭示的漏洞,导致攻击效率低下且不稳定。由于越狱涉及连续交互,每一步响应都会影响后续动作,强化学习为这一问题提供了自然的框架。受此启发,我们提出了一种基于历史信息的强化学习越狱框架,通过分析并重新加权先前步骤中的漏洞信号来指导未来决策。实验表明,仅引入历史信息即可提高越狱成功率。在此基础上,我们引入了一种基于注意力的重新加权机制,突出交互历史中的关键漏洞,从而在更少查询次数下实现更高效的探索。在AdvBench和HarmBench上的大量实验表明,我们的方法在越狱性能上达到最先进水平,并显著提升了查询效率。这些结果强调了历史漏洞信号在强化学习驱动的越狱策略中的重要性,并为推进大语言模型安全防护的对抗性研究提供了理论依据。
AI 推荐理由
论文提出基于历史信息的强化学习框架,涉及记忆机制以提升攻击效率。
论文信息