Agent Security Tool Use Benchmark Safety Evaluation
摘要

工具使用型语言模型代理引入了超越不安全文本的安全失效,如泄露受保护对象或触发有害代码。现有评估常将各阶段混为一谈,难以区分模型是仅同意攻击还是造成了实际危害。本文提出 SafeClawBench,一个包含 600 个对抗性任务的分阶段基准测试,涵盖六类攻击。该基准分别报告语义攻击接受度、审计可见的危害证据及沙箱观测到的工具状态危害。实验表明,这些端点捕捉了不同的失效模式,且部分通过语义检查的任务仍产生了沙箱危害,为评估 Agent 安全提供了可复现框架。

AI 推荐理由

论文聚焦工具使用 Agent 的安全评估,核心涉及工具调用行为与风险,属技能应用范畴。

研究机构
北京大学 北京交通大学 上海大学 清华大学
论文信息
作者 Yuchuan Tian, Mengyu Zheng, Haocheng Mei, Ye Yuan, Chao Xu et al.
发布日期 2026-06-16
arXiv ID 2606.18356
相关性评分 8/10 (高度相关)