摘要
AI代理需要进行规划以实现复杂的任务,这些任务涉及感知、子目标分解和执行的协调。此类计划由根据时序执行顺序(TEO)结构化的有序步骤组成,确保每个步骤仅在其前提条件满足后执行。现有研究对基础模型在时序执行理解方面的探索局限于自动推导的注释、将TEO近似为线性链或仅文本输入。为弥补这一不足,我们引入了MATEO(多模态时序执行顺序),一个旨在评估和提升大型视觉语言模型(LVLMs)时序推理能力的基准,以支持现实世界中的规划任务。我们获取了一个高质量的专业多模态食谱语料库,通过标准化编辑流程将指令分解为离散步骤,并配以相应的图像。我们设计并使用可扩展的众包流程收集TEO注释作为图结构。利用MATEO,我们在不同模型规模、语言上下文、多模态输入结构和微调策略下评估了六种最先进的LVLM。
AI 推荐理由
论文涉及时间推理与规划,与Agent Memory有一定关联,但非核心主题。
论文信息