SimpleTool：面向实时 LLM 函数调用的并行解码

Function Calling Parallel Decoding Real-time Agent Latency Optimization

摘要

基于大语言模型的函数调用使智能体能与外部工具交互，但自回归解码导致的延迟限制了其在具身智能等实时场景的应用。本文指出函数调用具有结构化冗余和参数弱因果依赖特性，据此提出 SimpleTool 方法。该方法引入特殊令牌压缩低熵内容并作为模式选择器，实现函数名与参数的独立并行生成。实验表明，该方法在保持或提升准确率的同时，实现了 3-6 倍的端到端加速，显著降低了延迟，满足了高频实时控制需求。

AI 推荐理由

论文核心解决 LLM 函数调用（工具使用）的延迟瓶颈，提出并行解码架构以优化技能执行效率。

研究机构

上海交通大学上海创新研究院复旦大学

论文信息

作者 Xiaoxin Shi, Jiaxin Wan, Linkang Dong, Wei Jiang, Yue Liu et al.

发布日期 2026-02-04

arXiv ID 2603.00030