Plane Geometry Multimodal Reasoning LLM Reinforcement Learning
摘要

平面几何问题求解(PGPS)是一项多模态推理任务。现有工作通常端到端微调多模态大模型,但这可能损害基座模型的固有推理能力。本文提出训练一个多模态解释器将几何图转化为简洁的条件声明语言(CDL),再利用现成大语言模型进行推理。通过引入基于 CDL 匹配的奖励机制优化强化学习,并构建新数据集 Formalgeo7k-Rec-CoT。实验表明,该方法仅需少量数据微调,性能即优于主流开源及闭源多模态模型。

AI 推荐理由

论文核心解决平面几何推理任务,通过视觉转文本释放 LLM 推理潜力。

研究机构
北京大学
论文信息
作者 Jingyun Wang, Dian Li, Xiaohan Wang, Gang Liu, Jiahong Yan et al.
发布日期 2026-01-29
arXiv ID 2601.21164
相关性评分 9/10 (高度相关)