摘要
轨迹规划是自动驾驶的核心任务,需在多样场景中预测安全舒适的路径。尽管结合多模态大语言模型与强化学习在处理长尾场景上颇具前景,但现有方法局限于单轮推理,难以应对需迭代优化的复杂任务。为此,本文提出 MTDrive,一种使多模态大语言模型能基于环境反馈迭代优化轨迹的多轮框架。该框架引入多轮组相对策略优化(mtGRPO),通过计算跨轮次相对优势缓解奖励稀疏问题,并构建了闭环仿真交互数据集以支持训练。实验表明其性能优于现有方法,且系统级优化显著提升了训练吞吐量。
AI 推荐理由
论文核心解决自动驾驶轨迹规划问题,提出多轮迭代优化框架,显著提升复杂场景下的规划能力。
研究机构
比亚迪汽车,北京,中国
NVIDIA,上海,中国
论文信息