TRAP：任务完成与抵抗主动隐私提取的基准测试

Agent Safety Privacy Preservation Tool Use Benchmark

摘要

针对文档密集型工作流中 Agent 需利用敏感信息完成任务但不得泄露隐私的矛盾，本文提出 TRAP 基准。该基准包含含私有信息的文档、需调用工具的任务查询及试图诱导泄露的攻击查询。评估显示现有模型均存在隐私泄露，且指令遵循能力与泄露率正相关。研究证明基于提示的软约束防御无法兼顾高任务成功率与零泄露。为此，作者提出结构化私有字段隔离方法，通过在输入前替换哈希键，有效防止泄露并保持任务准确性。

AI 推荐理由

论文核心评估 Agent 在涉及隐私数据时的工具调用与任务完成能力，属技能应用关键部分。

研究机构

Dept. of Electrical Engineering, POSTECH Grad. School of Artificial Intelligence, POSTECH School of Computing, KAIST

论文信息

作者 Moon Ye-Bin, Nam Hyeon-Woo, Baek Seong-Eun, Yejin Yeo, Tae-Hyun Oh

发布日期 2026-06-17

arXiv ID 2606.18996