FlowSteer：通过端到端强化学习实现交互式代理工作流编排

Reinforcement Learning Workflow Orchestration Agentic Systems Task Planning

摘要

针对现有工作流编排存在人工成本高、依赖特定算子及奖励信号稀疏等挑战，本文提出 FlowSteer，一种端到端强化学习框架。该框架以轻量级策略模型为代理，在可执行画布环境中通过多轮交互自动编排工作流。策略模型分析执行状态并选择编辑动作，画布执行算子并返回反馈以迭代优化。此外，FlowSteer 支持即插即用的算子库和可替换的 LLM 后端。为有效训练此交互范式，本文提出画布工作流相对策略优化（CWRPO），引入带条件释放的多样性约束奖励以稳定学习并抑制捷径行为。实验表明，FlowSteer 在十二个数据集上显著优于基线方法。

AI 推荐理由

论文核心研究基于强化学习的工作流编排，涉及任务分解、多步计划生成及目标导向行为优化。

研究机构

香港中文大学（深圳）南京理工大学新加坡国立大学

论文信息

作者 Mingda Zhang, Haoran Luo, Tiesunlong Shen, Qika Lin, Xiaoying Tang et al.

发布日期 2026-02-02

arXiv ID 2602.01664