自适应能力分解：解锁大型推理模型的有效强化学习

Reinforcement Learning Reasoning Enhancement Problem Decomposition LLM Training

摘要

可验证奖励的强化学习（RLVR）在增强大语言模型推理能力方面潜力巨大，但因信息有限常导致盲目探索失败。为此，本文提出自适应能力分解方法（A²D），无需教师模型即可为 RLVR 提供额外信息。该方法首先训练分解器将复杂问题拆解为简单子问题，随后利用子问题指导推理器进行 RLVR 训练。实验表明，A²D 性能优于基线，可作为即插即用模块适配不同算法，并有效提升了模型的探索与利用能力。

AI 推荐理由

论文核心旨在通过自适应能力分解提升大模型的推理能力，直接针对推理机制优化。

研究机构

中国人民大学 ByteDance Seed

论文信息

作者 Zhipeng Chen, Xiaobo Qin, Wayne Xin Zhao, Youbin Wu, Ji-Rong Wen

发布日期 2026-01-31

arXiv ID 2602.00759