ToolTok：面向高效且可泛化 GUI 代理的工具令牌化方法

GUI Agent Tool Learning Tokenization Data Efficiency

摘要

现有 GUI 代理模型依赖坐标定位，难以泛化至不同分辨率；无坐标策略则受限于数据稀缺。本文提出 ToolTok，将操作建模为渐进式工具使用序列。该方法设计与人类习惯对齐的工具，并用可学习令牌表示，引入语义锚定机制以在有限监督下高效学习。通过构建从易到难的课程学习，使预训练大模型逐步掌握工具语义。实验表明，ToolTok 在同等规模下性能优越，仅需不到 1% 的训练数据，且在未见场景中表现出强泛化能力。

AI 推荐理由

论文核心提出工具令牌化范式，专注于 GUI 代理的工具使用、选择及语义学习机制。

研究机构

清华大学计算机科学与技术系新加坡国立大学计算机学院北京航空航天大学软件学院

论文信息

作者 Xiaoce Wang, Guibin Zhang, Junzhe Li, Jinzhe Tu, Chun Li et al.

发布日期 2026-01-30

arXiv ID 2602.02548