通过资格推理与分节感知强化学习实现引理的可靠使用

数学推理强化学习引理验证鲁棒性

摘要

针对大语言模型在数学基准测试中常因未验证假设而误用引理的问题，本文将其形式化为结构化预测任务。提出了 RULES 框架，要求模型输出前提检查与结论效用检查两部分，并结合分节感知损失掩码的强化学习进行训练，以精准定位并惩罚错误来源。实验表明，该方法在域内增益、抗扰动鲁棒性及端到端任务表现上均优于基线模型，证实了双段输出与分节感知机制对提升推理可靠性的必要性。

AI 推荐理由

论文核心解决数学推理中引理误用问题，提出结构化验证机制，显著提升逻辑严谨性。

研究机构

亚利桑那州立大学 Advanced Micro Devices, Inc.

论文信息

作者 Zhikun Xu, Xiaodong Yu, Ben Zhou, Jiang Liu, Jialian Wu et al.

发布日期 2026-02-01

arXiv ID 2602.00998