摘要
利用负样本学习是提升大语言模型推理能力的重要途径,但现有方法往往忽视样本质量,将所有错误回答等同视之。为此,本文提出“似是而非的负样本”(PNS)方法,通过逆向强化学习合成具有正确格式和结构连贯性但最终答案错误的高质量负样本。该方法结合格式合规、准确性反转、奖励模型评估及思维链评价构建复合奖励函数,生成难以与正确解答区分的响应。在七个数学推理基准测试中,PNS 作为即插即用数据源显著优于其他合成方法,平均提升 2.03%。
AI 推荐理由
论文核心在于通过高质量负样本提升 LLM 的数学推理能力,直接针对推理机制优化。
研究机构
东北师范大学
清华大学
论文信息