摘要
现有工作流优化方法常将合成视为静态代码生成问题,限制了动态求解的灵活性。本文提出 Workflow-R1 框架,将工作流构建重构为基于自然语言的多轮序列决策过程。为解决优化粒度不匹配问题,引入组子序列策略优化(GSsPO)算法。该算法针对智能体“思考 - 行动”交织动态,通过将优化单元校准为原子循环,确保复杂多轮推理中的稳健学习。实验表明,该方法在多个问答基准上优于基线,确立了自动化工作流优化的新范式。
AI 推荐理由
论文核心提出多轮工作流构建框架,聚焦任务规划与序列决策优化。
研究机构
中国
论文信息