Autonomous Driving Trajectory Planning Multi-turn RL MLLM
摘要

轨迹规划是自动驾驶的核心任务,需在多样场景中预测安全舒适的路径。尽管结合多模态大语言模型与强化学习在处理长尾场景上颇具前景,但现有方法局限于单轮推理,难以应对需迭代优化的复杂任务。为此,本文提出 MTDrive,一种使多模态大语言模型能基于环境反馈迭代优化轨迹的多轮框架。该框架引入多轮组相对策略优化(mtGRPO),通过计算跨轮次相对优势缓解奖励稀疏问题,并构建了闭环仿真交互数据集以支持训练。实验表明其性能优于现有方法,且系统级优化显著提升了训练吞吐量。

AI 推荐理由

论文核心解决自动驾驶轨迹规划问题,提出多轮迭代优化框架,显著提升复杂场景下的规划能力。

研究机构
比亚迪汽车,北京,中国 NVIDIA,上海,中国
论文信息
作者 Xidong Li, Mingyu Guo, Chenchao Xu, Bailin Li, Wenjing Zhu et al.
发布日期 2026-01-30
arXiv ID 2601.22930
相关性评分 9/10 (高度相关)