Workflow-R1：面向多轮工作流构建的组子序列策略优化

Workflow Optimization Reinforcement Learning Sequential Decision Making Agentic Reasoning

摘要

现有工作流优化方法常将合成视为静态代码生成问题，限制了动态求解的灵活性。本文提出 Workflow-R1 框架，将工作流构建重构为基于自然语言的多轮序列决策过程。为解决优化粒度不匹配问题，引入组子序列策略优化（GSsPO）算法。该算法针对智能体“思考 - 行动”交织动态，通过将优化单元校准为原子循环，确保复杂多轮推理中的稳健学习。实验表明，该方法在多个问答基准上优于基线，确立了自动化工作流优化的新范式。

AI 推荐理由

论文核心提出多轮工作流构建框架，聚焦任务规划与序列决策优化。

研究机构

中国

论文信息

作者 Mingze Kong, Zikun Qu, Zhongquan Zhou, Pengyu Liang, Xiang Li et al.

发布日期 2026-02-01

arXiv ID 2602.01202