AppleVLM：基于先进感知与规划增强视觉语言模型的端到端自动驾驶

Autonomous Driving Vision-Language Models Planning End-to-End Learning

摘要

端到端自动驾驶正成为整合感知、决策与控制的主流范式。针对现有视觉语言模型（VLM）在车道感知、语言偏差及极端场景处理上的不足，本文提出 AppleVLM。该模型引入新型视觉编码器融合时空信息，并首创专用规划模态编码鸟瞰图空间信息以消除语言偏差。此外，通过分层思维链微调解码器，整合多模态特征输出稳健驾驶路径。实验表明其在仿真与真实场景中均达到最先进水平。

AI 推荐理由

论文提出规划增强型 VLM，核心贡献在于引入专用规划模态与分层思维链以优化驾驶决策。

研究机构

清华大学北京智源人工智能研究院

论文信息

作者 Yuxuan Han, Kunyuan Wu, Qianyi Shao, Renxiang Xiao, Zilu Wang et al.

发布日期 2026-02-04

arXiv ID 2602.04256