ORAgentBench：大语言模型智能体能否端到端解决具有挑战性的运筹学任务？

Agent Benchmark Operations Research Autonomous Agents Code Generation

摘要

本文提出 ORAgentBench，一个基于执行的基准测试，用于评估自主智能体在端到端运筹学任务中的表现。该基准包含 107 个人工审查的任务，涵盖多样运营场景，要求智能体编写并运行代码，通过隐藏验证器评估方案可行性与质量。实验表明，当前最先进智能体仅能通过约 35% 的任务，主要失败原因在于战略弱点，如遗漏规则、公式脆弱及解构建不足。研究指出，提升 OR 智能体需超越生成看似合理的代码，转向可靠的高质量决策。

AI 推荐理由

论文评估 Agent 端到端解决复杂 OR 任务的能力，核心在于多步规划与策略执行。

研究机构

1 4

论文信息

作者 Jiajun Li, Mingshu Cai, Yixuan Li, Yu Ding, Ran Hou et al.

发布日期 2026-06-18

arXiv ID 2606.19787