并非所有负样本都平等：LLM 从似是而非的推理中学得更好

负样本学习数学推理逆向强化学习思维链

摘要

利用负样本学习是提升大语言模型推理能力的重要途径，但现有方法往往忽视样本质量，将所有错误回答等同视之。为此，本文提出“似是而非的负样本”（PNS）方法，通过逆向强化学习合成具有正确格式和结构连贯性但最终答案错误的高质量负样本。该方法结合格式合规、准确性反转、奖励模型评估及思维链评价构建复合奖励函数，生成难以与正确解答区分的响应。在七个数学推理基准测试中，PNS 作为即插即用数据源显著优于其他合成方法，平均提升 2.03%。

AI 推荐理由

论文核心在于通过高质量负样本提升 LLM 的数学推理能力，直接针对推理机制优化。

研究机构

东北师范大学清华大学

论文信息

作者 Zixiang Di, Jinyi Han, Shuo Zhang, Ying Liao, Zhi Li et al.

发布日期 2026-02-03

arXiv ID 2602.03516