数学推理 强化学习 引理验证 鲁棒性
摘要

针对大语言模型在数学基准测试中常因未验证假设而误用引理的问题,本文将其形式化为结构化预测任务。提出了 RULES 框架,要求模型输出前提检查与结论效用检查两部分,并结合分节感知损失掩码的强化学习进行训练,以精准定位并惩罚错误来源。实验表明,该方法在域内增益、抗扰动鲁棒性及端到端任务表现上均优于基线模型,证实了双段输出与分节感知机制对提升推理可靠性的必要性。

AI 推荐理由

论文核心解决数学推理中引理误用问题,提出结构化验证机制,显著提升逻辑严谨性。

研究机构
亚利桑那州立大学 Advanced Micro Devices, Inc.
论文信息
作者 Zhikun Xu, Xiaodong Yu, Ben Zhou, Jiang Liu, Jialian Wu et al.
发布日期 2026-02-01
arXiv ID 2602.00998
相关性评分 9/10 (高度相关)