摘要
针对高质量可验证推理数据集稀缺且标注成本高昂的问题,本文提出“代理式命题生成”框架。该方法将问题合成建模为目标驱动的序列决策过程,利用智能体动态选择并组合模块化推理技能。通过内部反思与工具使用的迭代工作流,结合多粒度策略优化(MGPO),生成了涵盖数学、编程和科学领域的高精度训练轨迹。实验表明,基于该合成数据训练的求解器在跨域泛化性上显著优于基线,仅需少量数据即可在 AIME25 上达到 91.6% 的准确率,媲美前沿专有模型。
AI 推荐理由
论文核心旨在通过合成数据增强 LLM 的复杂推理能力,并在数学等基准上取得 SOTA。
研究机构
AI DATA, Alibaba Group Holding Limited
EPIC Lab, Shanghai Jiao Tong University
Shanghai University of Finance and Economics
Wuhan University
论文信息