摘要
针对大语言模型在基于证明的数学问题中缺乏自动验证机制的挑战,本文提出 Proof-RM。我们设计了一套可扩展的数据构建流程,利用大模型生成高质量的“问题 - 证明 - 检查”三元组数据,并通过分层人工审核确保标签对齐。在此基础上,训练了一个结合
AI 推荐理由
论文核心在于构建奖励模型以评估数学证明过程,直接服务于提升 LLM 的数学推理与验证能力。
研究机构
清华大学
论文信息