GUI Agent Tool Learning Tokenization Data Efficiency
摘要

现有 GUI 代理模型依赖坐标定位,难以泛化至不同分辨率;无坐标策略则受限于数据稀缺。本文提出 ToolTok,将操作建模为渐进式工具使用序列。该方法设计与人类习惯对齐的工具,并用可学习令牌表示,引入语义锚定机制以在有限监督下高效学习。通过构建从易到难的课程学习,使预训练大模型逐步掌握工具语义。实验表明,ToolTok 在同等规模下性能优越,仅需不到 1% 的训练数据,且在未见场景中表现出强泛化能力。

AI 推荐理由

论文核心提出工具令牌化范式,专注于 GUI 代理的工具使用、选择及语义学习机制。

研究机构
清华大学计算机科学与技术系 新加坡国立大学计算机学院 北京航空航天大学软件学院
论文信息
作者 Xiaoce Wang, Guibin Zhang, Junzhe Li, Jinzhe Tu, Chun Li et al.
发布日期 2026-01-30
arXiv ID 2602.02548
相关性评分 9/10 (高度相关)