EComAgentBench：基于分布式隐藏意图的长程购物智能体基准测试

Benchmark Shopping Agent Long-Horizon Tasks Hidden Intent

摘要

针对现有基准无法模拟用户意图隐性表达的问题，本文提出 EComAgentBench。该基准包含 662 个基于真实亚马逊数据的任务，将需求分散于查询、档案及澄清对话中，要求智能体在百次工具调用内 uncover 隐藏意图并验证候选商品。通过自动化构建与细粒度评分机制，评估显示最强模型准确率仅 57.1%，且对隐藏源需求的满足度显著下降，为长程购物助手研究提供了可复现基础。

AI 推荐理由

论文聚焦长程任务中隐藏意图的挖掘与多步工具调用规划，是规划能力的核心挑战。

研究机构

Shopee

论文信息

作者 Zeyao Du, Tong Li, Haibo Zhang

发布日期 2026-06-16

arXiv ID 2606.17698