Thinker：面向具身智能的视觉 - 语言基础模型

Embodied AI Vision-Language Model Temporal Reasoning Robotics

摘要

大型视觉 - 语言模型在机器人领域应用时，常面临人类简单但模型易错的问题，如第一/三人称视角混淆及时间推理中忽略视频末尾信息。为此，我们提出 Thinker，一种面向具身智能的大型视觉 - 语言基础模型。我们从两方面应对挑战：首先，构建包含自我视角视频、视觉定位、空间理解及思维链数据的大规模机器人感知与推理数据集；其次，提出一种简单有效的方法，通过联合输入关键帧与完整视频序列，显著提升模型的视频理解能力。该模型在两个主流任务规划基准数据集上取得了最先进结果。

AI 推荐理由

论文核心解决具身智能中的时空推理难题，构建思维链数据并提升视频理解推理能力。

研究机构

UBTECH Robotics, Shenzhen, China

论文信息

作者 Baiyu Pan, Daqin Luo, Junpeng Yang, Jiyuan Wang, Yixuan Zhang et al.

发布日期 2026-01-29

arXiv ID 2601.21199