Proof-RM：一种可扩展且通用的数学证明奖励模型

摘要

针对大语言模型在基于证明的数学问题中缺乏自动验证机制的挑战，本文提出 Proof-RM。我们设计了一套可扩展的数据构建流程，利用大模型生成高质量的“问题 - 证明 - 检查”三元组数据，并通过分层人工审核确保标签对齐。在此基础上，训练了一个结合

AI 推荐理由

论文核心在于构建奖励模型以评估数学证明过程，直接服务于提升 LLM 的数学推理与验证能力。

研究机构

清华大学

论文信息

作者 Haotong Yang, Zitong Wang, Shijia Kang, Siqi Yang, Wenkai Yu et al.

发布日期 2026-02-02

arXiv ID 2602.02377