摘要
大语言模型智能体日益融入地图服务,但用户非正式表达常导致隐含决策因素缺失,影响满意度。现有评估缺乏对隐含因素恢复能力的量化标准。本文提出“恢复 - 识别 - 过滤”框架,利用行为链证据重构用户需求并提取可评估的隐式因素,构建了基于真实数据的 MapSatisfyBench 基准。实验表明,当前智能体虽能完成显式任务,但在推导隐含因素及主动获取证据方面仍显不足,推动了评估范式向满意度感知的空间决策转变。
AI 推荐理由
论文核心在于评估 Agent 从隐含信息中推理用户未言明需求的能力,属于常识与情境推理范畴。
研究机构
AMAP, Alibaba Group, Beijing, China
College of Urban and Environmental Sciences, Peking University, Beijing, China
论文信息