摘要
现有计算机使用基准主要关注虚拟化系统中的软件操作,而科学仪器场景需协调复杂界面并进行反馈驱动的参数调整。鉴于直接在物理仪器上评估存在成本高、风险大及复现难等问题,本文提出 LabOSBench,一个基于 Web 科学仪器模拟器的多模态 GUI 智能体基准。该基准包含 8 种模拟器共 96 个子任务,涵盖从样品加载到结果检查的全流程。实验表明,现有智能体虽能完成结构化子任务,但在反馈驱动操作和长程工作流执行方面仍面临显著挑战。
AI 推荐理由
论文聚焦长程工作流执行与反馈驱动操作,核心挑战在于任务规划与多步协同。
研究机构
1
2
3
论文信息