Agent Benchmark Fraud Detection Evidence-grounded Reasoning Web Agent
摘要

针对日益跨渠道的短信欺诈问题,本文提出 FraudSMSWalker 基准,旨在评估 URL 掩码环境下代理大语言模型(LLM Agents)的欺诈检测能力。该基准包含 699 个双语案例,屏蔽了域名信誉等捷径线索,强制模型依据短信上下文与清洗后的网页内容进行对齐分析。实验评估了九个 Web 代理,结果显示当前模型虽能识别可疑线索,但在保持良性样本召回率方面表现不佳,且常生成缺乏充分证据支持的误报。该研究为衡量 Web 代理在无捷径依赖下的证据 grounding 推理能力提供了重要标准。

AI 推荐理由

论文核心评估 Agent 在屏蔽捷径下,基于多模态证据进行欺诈判定的逻辑推理与 grounded 能力。

研究机构
中国
论文信息
作者 Y. H. Zhou, Z. M. Ma, Y. J. Zhou, Y. T. Li, H. X. Xiang et al.
发布日期 2026-06-15
arXiv ID 2606.16659
相关性评分 8/10 (高度相关)