Autonomous Driving Vision-Language Models Planning End-to-End Learning
摘要

端到端自动驾驶正成为整合感知、决策与控制的主流范式。针对现有视觉语言模型(VLM)在车道感知、语言偏差及极端场景处理上的不足,本文提出 AppleVLM。该模型引入新型视觉编码器融合时空信息,并首创专用规划模态编码鸟瞰图空间信息以消除语言偏差。此外,通过分层思维链微调解码器,整合多模态特征输出稳健驾驶路径。实验表明其在仿真与真实场景中均达到最先进水平。

AI 推荐理由

论文提出规划增强型 VLM,核心贡献在于引入专用规划模态与分层思维链以优化驾驶决策。

研究机构
清华大学 北京智源人工智能研究院
论文信息
作者 Yuxuan Han, Kunyuan Wu, Qianyi Shao, Renxiang Xiao, Zilu Wang et al.
发布日期 2026-02-04
arXiv ID 2602.04256
相关性评分 9/10 (高度相关)