摘要
尽管视觉语言模型(VLMs)显著推动了计算机使用代理(CUAs)的发展,但当前框架在长周期工作流程中的鲁棒性和新领域中的泛化能力仍存在不足。这些限制源于对历史视觉上下文管理缺乏精细控制以及缺乏视觉感知的教程检索。为弥补这些缺陷,本文提出了OS-Symphony,一个综合框架,包含一个协调两个关键创新的调度器:(1)利用里程碑驱动的长期记忆的反思-记忆代理,实现轨迹级别的自我修正,有效缓解长周期任务中的视觉上下文丢失问题;(2)多功能工具代理,采用多模态搜索器通过SeeAct范式在基于浏览器的沙箱中导航,合成实时、视觉对齐的教程,从而解决未见过场景中的保真度问题。实验结果表明,OS-Symphony在不同模型规模下均取得显著性能提升,在三个在线基准测试中取得了新的最先进结果,特别是在OSWorld上达到了65.84%。
AI 推荐理由
论文核心提出Reflection-Memory Agent和视觉感知教程检索,直接涉及Agent Memory机制与系统设计。
论文信息