Reinforcement Learning Workflow Orchestration Agentic Systems Task Planning
摘要

针对现有工作流编排存在人工成本高、依赖特定算子及奖励信号稀疏等挑战,本文提出 FlowSteer,一种端到端强化学习框架。该框架以轻量级策略模型为代理,在可执行画布环境中通过多轮交互自动编排工作流。策略模型分析执行状态并选择编辑动作,画布执行算子并返回反馈以迭代优化。此外,FlowSteer 支持即插即用的算子库和可替换的 LLM 后端。为有效训练此交互范式,本文提出画布工作流相对策略优化(CWRPO),引入带条件释放的多样性约束奖励以稳定学习并抑制捷径行为。实验表明,FlowSteer 在十二个数据集上显著优于基线方法。

AI 推荐理由

论文核心研究基于强化学习的工作流编排,涉及任务分解、多步计划生成及目标导向行为优化。

研究机构
香港中文大学(深圳) 南京理工大学 新加坡国立大学
论文信息
作者 Mingda Zhang, Haoran Luo, Tiesunlong Shen, Qika Lin, Xiaoying Tang et al.
发布日期 2026-02-02
arXiv ID 2602.01664
相关性评分 9/10 (高度相关)