MTDrive：用于自动驾驶的多轮交互式强化学习

Autonomous Driving Trajectory Planning Multi-turn RL MLLM

摘要

轨迹规划是自动驾驶的核心任务，需在多样场景中预测安全舒适的路径。尽管结合多模态大语言模型与强化学习在处理长尾场景上颇具前景，但现有方法局限于单轮推理，难以应对需迭代优化的复杂任务。为此，本文提出 MTDrive，一种使多模态大语言模型能基于环境反馈迭代优化轨迹的多轮框架。该框架引入多轮组相对策略优化（mtGRPO），通过计算跨轮次相对优势缓解奖励稀疏问题，并构建了闭环仿真交互数据集以支持训练。实验表明其性能优于现有方法，且系统级优化显著提升了训练吞吐量。

AI 推荐理由

论文核心解决自动驾驶轨迹规划问题，提出多轮迭代优化框架，显著提升复杂场景下的规划能力。

研究机构

比亚迪汽车，北京，中国 NVIDIA，上海，中国

论文信息

作者 Xidong Li, Mingyu Guo, Chenchao Xu, Bailin Li, Wenjing Zhu et al.

发布日期 2026-01-30

arXiv ID 2601.22930