LabOSBench：面向科学仪器控制的计算机使用智能体基准测试

Benchmark Scientific Instruments GUI Agents Long-horizon Planning

摘要

现有计算机使用基准主要关注虚拟化系统中的软件操作，而科学仪器场景需协调复杂界面并进行反馈驱动的参数调整。鉴于直接在物理仪器上评估存在成本高、风险大及复现难等问题，本文提出 LabOSBench，一个基于 Web 科学仪器模拟器的多模态 GUI 智能体基准。该基准包含 8 种模拟器共 96 个子任务，涵盖从样品加载到结果检查的全流程。实验表明，现有智能体虽能完成结构化子任务，但在反馈驱动操作和长程工作流执行方面仍面临显著挑战。

AI 推荐理由

论文聚焦长程工作流执行与反馈驱动操作，核心挑战在于任务规划与多步协同。

研究机构

1 2 3

论文信息

作者 Anqi Zou, Han Deng, Chengyu Zhang, Junquan Hu, Yu Wang et al.

发布日期 2026-06-15

arXiv ID 2606.16802