Agent Benchmark Operations Research Autonomous Agents Code Generation
摘要

本文提出 ORAgentBench,一个基于执行的基准测试,用于评估自主智能体在端到端运筹学任务中的表现。该基准包含 107 个人工审查的任务,涵盖多样运营场景,要求智能体编写并运行代码,通过隐藏验证器评估方案可行性与质量。实验表明,当前最先进智能体仅能通过约 35% 的任务,主要失败原因在于战略弱点,如遗漏规则、公式脆弱及解构建不足。研究指出,提升 OR 智能体需超越生成看似合理的代码,转向可靠的高质量决策。

AI 推荐理由

论文评估 Agent 端到端解决复杂 OR 任务的能力,核心在于多步规划与策略执行。

研究机构
1 4
论文信息
作者 Jiajun Li, Mingshu Cai, Yixuan Li, Yu Ding, Ran Hou et al.
发布日期 2026-06-18
arXiv ID 2606.19787
相关性评分 8/10 (高度相关)