摘要
针对现有工作流编排存在人工成本高、依赖特定算子及奖励信号稀疏等挑战,本文提出 FlowSteer,一种端到端强化学习框架。该框架以轻量级策略模型为代理,在可执行画布环境中通过多轮交互自动编排工作流。策略模型分析执行状态并选择编辑动作,画布执行算子并返回反馈以迭代优化。此外,FlowSteer 支持即插即用的算子库和可替换的 LLM 后端。为有效训练此交互范式,本文提出画布工作流相对策略优化(CWRPO),引入带条件释放的多样性约束奖励以稳定学习并抑制捷径行为。实验表明,FlowSteer 在十二个数据集上显著优于基线方法。
AI 推荐理由
论文核心研究基于强化学习的工作流编排,涉及任务分解、多步计划生成及目标导向行为优化。
研究机构
香港中文大学(深圳)
南京理工大学
新加坡国立大学
论文信息