摘要
现有 GUI 代理模型依赖坐标定位,难以泛化至不同分辨率;无坐标策略则受限于数据稀缺。本文提出 ToolTok,将操作建模为渐进式工具使用序列。该方法设计与人类习惯对齐的工具,并用可学习令牌表示,引入语义锚定机制以在有限监督下高效学习。通过构建从易到难的课程学习,使预训练大模型逐步掌握工具语义。实验表明,ToolTok 在同等规模下性能优越,仅需不到 1% 的训练数据,且在未见场景中表现出强泛化能力。
AI 推荐理由
论文核心提出工具令牌化范式,专注于 GUI 代理的工具使用、选择及语义学习机制。
研究机构
清华大学计算机科学与技术系
新加坡国立大学计算机学院
北京航空航天大学软件学院
论文信息