Benchmark Implicit Reasoning User Satisfaction Map Agents
摘要

大语言模型智能体日益融入地图服务,但用户非正式表达常导致隐含决策因素缺失,影响满意度。现有评估缺乏对隐含因素恢复能力的量化标准。本文提出“恢复 - 识别 - 过滤”框架,利用行为链证据重构用户需求并提取可评估的隐式因素,构建了基于真实数据的 MapSatisfyBench 基准。实验表明,当前智能体虽能完成显式任务,但在推导隐含因素及主动获取证据方面仍显不足,推动了评估范式向满意度感知的空间决策转变。

AI 推荐理由

论文核心在于评估 Agent 从隐含信息中推理用户未言明需求的能力,属于常识与情境推理范畴。

研究机构
AMAP, Alibaba Group, Beijing, China College of Urban and Environmental Sciences, Peking University, Beijing, China
论文信息
作者 Lubin Bai, Mengyu Cao, Sixue Wang, Zhongwei Wan, Yue Pan et al.
发布日期 2026-06-16
arXiv ID 2606.17453
相关性评分 8/10 (高度相关)