我们能多大程度信任 LLM 搜索代理？衡量对网络内容操纵的背书脆弱性

Agent Safety Web Search Adversarial Attack Tool Use

摘要

基于大语言模型的搜索代理将开放网络内容综合为用户可操作的建议，存在将攻击者发布的页面转化为被背书主张的风险。本文提出 SearchGEO，一个用于衡量此类代理背书腐败的控制评估框架，结合了网络证据操纵流水线、五种攻击模式分类及多项输出级指标。通过对 13 个后端模型各 308 个案例的评估，发现不同后端的脆弱性模式各异，攻击成功率差异显著。辅助技能探测实验进一步揭示了模型在过度拒绝与过度信任间的分化，论证了应将对抗搜索内容下的推荐可靠性作为后端安全评估的首要维度。

AI 推荐理由

论文核心评估 Agent 的搜索与工具使用技能在对抗环境下的鲁棒性与可信度。

研究机构

Center of Excellence for Generative AI, KAUST Jilin University The Swiss AI Lab, IDSIA-USI/SUPSI NNAISENSE

论文信息

作者 Yimeng Chen, Zhe Ren, Firas Laakom, Yu Li, Dandan Guo et al.

发布日期 2026-06-15

arXiv ID 2606.16821