摘要
本文提出 ORAgentBench,一个基于执行的基准测试,用于评估自主智能体在端到端运筹学任务中的表现。该基准包含 107 个人工审查的任务,涵盖多样运营场景,要求智能体编写并运行代码,通过隐藏验证器评估方案可行性与质量。实验表明,当前最先进智能体仅能通过约 35% 的任务,主要失败原因在于战略弱点,如遗漏规则、公式脆弱及解构建不足。研究指出,提升 OR 智能体需超越生成看似合理的代码,转向可靠的高质量决策。
AI 推荐理由
论文评估 Agent 端到端解决复杂 OR 任务的能力,核心在于多步规划与策略执行。
研究机构
1
4
论文信息