摘要
随着大语言模型演变为执行长程工作流的自主代理,每步调用高能力模型在经济上不可持续。针对代理路由的序列依赖性及严格预算限制,本文提出预算感知代理路由方法。该方法通过边界引导训练,利用两种边界策略构建难度分类并锚定稀疏奖励学习。结合边界引导的策略优化,在合成数据预热后,有效平衡成本与成功率。实验表明,该方法在显著降低成本的同时匹配强基线性能,确立了从静态模型选择到动态预算感知序列决策的新范式。
AI 推荐理由
论文核心研究代理在长程任务中的动态路径规划与预算约束下的序列决策机制。
研究机构
未注明单位
论文信息