Maritime Forecasting RLVR Trajectory Prediction Reasoning LLM
摘要

针对长时域海事轨迹预测中路线可行性与目的地准确性不足的问题,本文提出基于可验证奖励强化学习(RLVR)的海事大语言模型后训练框架。该方法将轨迹转化为语义文本,通过强制物理有效性、早期加权监督及分层匹配评估,对齐模型与预测目标。实验表明,RLVR 训练的模型在目的地指标上显著优于零样本模型及深度学习基线,且 4B 参数模型表现最佳,证实了奖励兼容优化与任务适配的重要性。

AI 推荐理由

论文核心利用推理型 LLM 解决长程预测,强调逻辑一致性与物理有效性验证。

研究机构
Institute of High Performance Computing (IHPC), A*STAR, Singapore 138632, Singapore School of Artificial Intelligence, Jinan University, Guangzhou, China 510632, China
论文信息
作者 Hongwei Wang, Miao Zhou, Fengde Wang, Yuting Wang, Jiewen Yu et al.
发布日期 2026-06-07
arXiv ID 2606.08633
相关性评分 8/10 (高度相关)