面向长时域船舶轨迹与目的地预测的推理大语言模型研究

Maritime Forecasting RLVR Trajectory Prediction Reasoning LLM

摘要

针对长时域海事轨迹预测中路线可行性与目的地准确性不足的问题，本文提出基于可验证奖励强化学习（RLVR）的海事大语言模型后训练框架。该方法将轨迹转化为语义文本，通过强制物理有效性、早期加权监督及分层匹配评估，对齐模型与预测目标。实验表明，RLVR 训练的模型在目的地指标上显著优于零样本模型及深度学习基线，且 4B 参数模型表现最佳，证实了奖励兼容优化与任务适配的重要性。

AI 推荐理由

论文核心利用推理型 LLM 解决长程预测，强调逻辑一致性与物理有效性验证。

研究机构

Institute of High Performance Computing (IHPC), A*STAR, Singapore 138632, Singapore School of Artificial Intelligence, Jinan University, Guangzhou, China 510632, China

论文信息

作者 Hongwei Wang, Miao Zhou, Fengde Wang, Yuting Wang, Jiewen Yu et al.

发布日期 2026-06-07

arXiv ID 2606.08633