SafeClawBench：分离工具使用型 LLM Agent 中的语义、审计证据与沙箱危害

Agent Security Tool Use Benchmark Safety Evaluation

摘要

工具使用型语言模型代理引入了超越不安全文本的安全失效，如泄露受保护对象或触发有害代码。现有评估常将各阶段混为一谈，难以区分模型是仅同意攻击还是造成了实际危害。本文提出 SafeClawBench，一个包含 600 个对抗性任务的分阶段基准测试，涵盖六类攻击。该基准分别报告语义攻击接受度、审计可见的危害证据及沙箱观测到的工具状态危害。实验表明，这些端点捕捉了不同的失效模式，且部分通过语义检查的任务仍产生了沙箱危害，为评估 Agent 安全提供了可复现框架。

AI 推荐理由

论文聚焦工具使用 Agent 的安全评估，核心涉及工具调用行为与风险，属技能应用范畴。

研究机构

北京大学北京交通大学上海大学清华大学

论文信息

作者 Yuchuan Tian, Mengyu Zheng, Haocheng Mei, Ye Yuan, Chao Xu et al.

发布日期 2026-06-16

arXiv ID 2606.18356