摘要
基于大语言模型的函数调用使智能体能与外部工具交互,但自回归解码导致的延迟限制了其在具身智能等实时场景的应用。本文指出函数调用具有结构化冗余和参数弱因果依赖特性,据此提出 SimpleTool 方法。该方法引入特殊令牌压缩低熵内容并作为模式选择器,实现函数名与参数的独立并行生成。实验表明,该方法在保持或提升准确率的同时,实现了 3-6 倍的端到端加速,显著降低了延迟,满足了高频实时控制需求。
AI 推荐理由
论文核心解决 LLM 函数调用(工具使用)的延迟瓶颈,提出并行解码架构以优化技能执行效率。
研究机构
上海交通大学
上海创新研究院
复旦大学
论文信息