Embodied AI Vision-Language Model Temporal Reasoning Robotics
摘要

大型视觉 - 语言模型在机器人领域应用时,常面临人类简单但模型易错的问题,如第一/三人称视角混淆及时间推理中忽略视频末尾信息。为此,我们提出 Thinker,一种面向具身智能的大型视觉 - 语言基础模型。我们从两方面应对挑战:首先,构建包含自我视角视频、视觉定位、空间理解及思维链数据的大规模机器人感知与推理数据集;其次,提出一种简单有效的方法,通过联合输入关键帧与完整视频序列,显著提升模型的视频理解能力。该模型在两个主流任务规划基准数据集上取得了最先进结果。

AI 推荐理由

论文核心解决具身智能中的时空推理难题,构建思维链数据并提升视频理解推理能力。

研究机构
UBTECH Robotics, Shenzhen, China
论文信息
作者 Baiyu Pan, Daqin Luo, Junpeng Yang, Jiyuan Wang, Yixuan Zhang et al.
发布日期 2026-01-29
arXiv ID 2601.21199
相关性评分 9/10 (高度相关)