Benchmark Scientific Instruments GUI Agents Long-horizon Planning
摘要

现有计算机使用基准主要关注虚拟化系统中的软件操作,而科学仪器场景需协调复杂界面并进行反馈驱动的参数调整。鉴于直接在物理仪器上评估存在成本高、风险大及复现难等问题,本文提出 LabOSBench,一个基于 Web 科学仪器模拟器的多模态 GUI 智能体基准。该基准包含 8 种模拟器共 96 个子任务,涵盖从样品加载到结果检查的全流程。实验表明,现有智能体虽能完成结构化子任务,但在反馈驱动操作和长程工作流执行方面仍面临显著挑战。

AI 推荐理由

论文聚焦长程工作流执行与反馈驱动操作,核心挑战在于任务规划与多步协同。

研究机构
1 2 3
论文信息
作者 Anqi Zou, Han Deng, Chengyu Zhang, Junquan Hu, Yu Wang et al.
发布日期 2026-06-15
arXiv ID 2606.16802
相关性评分 8/10 (高度相关)