摘要
可验证奖励的强化学习(RLVR)在增强大语言模型推理能力方面潜力巨大,但因信息有限常导致盲目探索失败。为此,本文提出自适应能力分解方法(A²D),无需教师模型即可为 RLVR 提供额外信息。该方法首先训练分解器将复杂问题拆解为简单子问题,随后利用子问题指导推理器进行 RLVR 训练。实验表明,A²D 性能优于基线,可作为即插即用模块适配不同算法,并有效提升了模型的探索与利用能力。
AI 推荐理由
论文核心旨在通过自适应能力分解提升大模型的推理能力,直接针对推理机制优化。
研究机构
中国人民大学
ByteDance Seed
论文信息