摘要
针对工具型大语言模型智能体面临的未授权外部动作及运行时敏感明文泄露问题,本文提出 SecureClaw 双边界架构。该架构在读边界实施明文隔离,将敏感值替换为不透明句柄;在写边界(效果汇)实施授权机制,采用“预览 - 提交”协议确保仅受信任执行者可提交合规请求。实验表明,该方法在保持任务可用性的同时,显著降低了攻击成功率与信息泄露风险。
AI 推荐理由
论文聚焦工具使用 Agent 的安全架构,核心在于规范 API 调用与外部动作执行边界。
研究机构
TU Berlin
论文信息