Agent Memory dLLMs 智能体评估 扩散模型 工具调用
摘要

为实现实时智能体交互,研究者对基于扩散的大型语言模型(dLLMs)产生了兴趣,以替代自回归主干结构,从而突破序列延迟瓶颈。然而,这种效率提升是否能转化为有效的智能体行为?本文对dLLMs(如LLaDA、Dream)在两种不同的智能体范式中进行了全面评估:具身智能体(需要长期规划)和工具调用智能体(需要精确格式)。与效率宣传相反,我们的结果表明,当前的dLLMs无法作为可靠的智能体主干,经常导致系统性失败。在具身环境中,dLLMs在时间反馈下无法分支;在工具调用环境中,它们在扩散噪声下无法保持符号精度(如严格的JSON模式)。为评估dLLMs在智能体工作流中的潜力,我们引入了DiffuAgent,一个集成dLLMs作为即插即用认知核心的多智能体评估框架。分析显示,dLLMs在非因果角色(如记忆摘要和工具选择)中有效,但要在智能体任务中发挥作用,需要将因果、精确和逻辑基础的推理机制整合到去噪过程中。

AI 推荐理由

论文提及dLLMs在非因果角色中的有效性,如记忆摘要,但未深入探讨Agent Memory机制。

论文信息
作者 Qingyu Lu, Liang Ding, Kanjian Zhang, Jinxia Zhang, Dacheng Tao
发布日期 2026-01-19
arXiv ID 2601.12979
相关性评分 5/10 (一般相关)