Agent Safety Privacy Preservation Tool Use Benchmark
摘要

针对文档密集型工作流中 Agent 需利用敏感信息完成任务但不得泄露隐私的矛盾,本文提出 TRAP 基准。该基准包含含私有信息的文档、需调用工具的任务查询及试图诱导泄露的攻击查询。评估显示现有模型均存在隐私泄露,且指令遵循能力与泄露率正相关。研究证明基于提示的软约束防御无法兼顾高任务成功率与零泄露。为此,作者提出结构化私有字段隔离方法,通过在输入前替换哈希键,有效防止泄露并保持任务准确性。

AI 推荐理由

论文核心评估 Agent 在涉及隐私数据时的工具调用与任务完成能力,属技能应用关键部分。

研究机构
Dept. of Electrical Engineering, POSTECH Grad. School of Artificial Intelligence, POSTECH School of Computing, KAIST
论文信息
作者 Moon Ye-Bin, Nam Hyeon-Woo, Baek Seong-Eun, Yejin Yeo, Tae-Hyun Oh
发布日期 2026-06-17
arXiv ID 2606.18996
相关性评分 8/10 (高度相关)