Benchmark Shopping Agent Long-Horizon Tasks Hidden Intent
摘要

针对现有基准无法模拟用户意图隐性表达的问题,本文提出 EComAgentBench。该基准包含 662 个基于真实亚马逊数据的任务,将需求分散于查询、档案及澄清对话中,要求智能体在百次工具调用内 uncover 隐藏意图并验证候选商品。通过自动化构建与细粒度评分机制,评估显示最强模型准确率仅 57.1%,且对隐藏源需求的满足度显著下降,为长程购物助手研究提供了可复现基础。

AI 推荐理由

论文聚焦长程任务中隐藏意图的挖掘与多步工具调用规划,是规划能力的核心挑战。

研究机构
Shopee
论文信息
作者 Zeyao Du, Tong Li, Haibo Zhang
发布日期 2026-06-16
arXiv ID 2606.17698
相关性评分 8/10 (高度相关)