摘要
本文指出当前针对工具使用型大语言模型智能体的越狱防御存在缺陷,即假设对话是连续可见的,而忽略了现实部署中状态通过工件(如文件、日志)持久化且来源未被追踪的问题。作者提出了“上下文断裂分解”(CFD)攻击家族,利用早期交互生成的良性中间工件,在后续不同阶段或实例中触发有害行为。实验表明,该攻击在多个基准测试中将成功率提升了高达 28.3%,并提出了基于来源 lineage 标记的缓解方案。
AI 推荐理由
论文核心研究工具使用 Agent 的安全漏洞,聚焦多步工具调用与工件交互中的越狱攻击。
研究机构
1
2
论文信息