Reasoning Enhancement Data Synthesis Agentic Workflow Mathematics
摘要

针对高质量可验证推理数据集稀缺且标注成本高昂的问题,本文提出“代理式命题生成”框架。该方法将问题合成建模为目标驱动的序列决策过程,利用智能体动态选择并组合模块化推理技能。通过内部反思与工具使用的迭代工作流,结合多粒度策略优化(MGPO),生成了涵盖数学、编程和科学领域的高精度训练轨迹。实验表明,基于该合成数据训练的求解器在跨域泛化性上显著优于基线,仅需少量数据即可在 AIME25 上达到 91.6% 的准确率,媲美前沿专有模型。

AI 推荐理由

论文核心旨在通过合成数据增强 LLM 的复杂推理能力,并在数学等基准上取得 SOTA。

研究机构
AI DATA, Alibaba Group Holding Limited EPIC Lab, Shanghai Jiao Tong University Shanghai University of Finance and Economics Wuhan University
论文信息
作者 Zhengbo Jiao, Shaobo Wang, Zifan Zhang, Xuan Ren, Wei Wang et al.
发布日期 2026-02-03
arXiv ID 2602.03279
相关性评分 9/10 (高度相关)