摘要

针对大语言模型在基于证明的数学问题中缺乏自动验证机制的挑战,本文提出 Proof-RM。我们设计了一套可扩展的数据构建流程,利用大模型生成高质量的“问题 - 证明 - 检查”三元组数据,并通过分层人工审核确保标签对齐。在此基础上,训练了一个结合

AI 推荐理由

论文核心在于构建奖励模型以评估数学证明过程,直接服务于提升 LLM 的数学推理与验证能力。

研究机构
清华大学
论文信息
作者 Haotong Yang, Zitong Wang, Shijia Kang, Siqi Yang, Wenkai Yu et al.
发布日期 2026-02-02
arXiv ID 2602.02377
相关性评分 9/10 (高度相关)