摘要
工具使用型语言模型代理引入了超越不安全文本的安全失效,如泄露受保护对象或触发有害代码。现有评估常将各阶段混为一谈,难以区分模型是仅同意攻击还是造成了实际危害。本文提出 SafeClawBench,一个包含 600 个对抗性任务的分阶段基准测试,涵盖六类攻击。该基准分别报告语义攻击接受度、审计可见的危害证据及沙箱观测到的工具状态危害。实验表明,这些端点捕捉了不同的失效模式,且部分通过语义检查的任务仍产生了沙箱危害,为评估 Agent 安全提供了可复现框架。
AI 推荐理由
论文聚焦工具使用 Agent 的安全评估,核心涉及工具调用行为与风险,属技能应用范畴。
研究机构
北京大学
北京交通大学
上海大学
清华大学
论文信息