摘要
由大型语言模型驱动的多智能体系统(MAS)实现了先进的协作推理,但受限于离散文本通信的低效性,导致运行时开销大且信息量化损失严重。尽管潜在状态转移提供了一种高带宽替代方案,现有方法要么假设发送方和接收方架构同质化,要么依赖特定配对的学习翻译器,限制了在具有不连续流形的不同模型家族中的可扩展性和模块化。本文提出了一种名为Vision Wormhole的新框架,通过重用视觉语言模型(VLMs)的视觉接口,实现模型无关、无需文本的通信。通过引入通用视觉编解码器,将异构推理轨迹映射到共享的连续潜在空间,并直接注入接收者的视觉路径中,从而将视觉编码器视为智能体间心灵感应的通用端口。该框架采用中心辐射式拓扑结构,将成对对齐复杂度从O(N^2)降低至O(N),并利用无标签的教师-学生蒸馏目标,使高速视觉通道与文本路径的稳健推理模式保持一致。在多个异构模型家族(如Qwen-VL、Gemma)上的广泛实验表明,Vision Wormhole在受控比较中减少了端到端的墙钟时间,同时保持了与标准文本MAS相当的推理保真度。
AI 推荐理由
论文提出了一种基于视觉编码的异构多智能体通信框架,涉及隐空间信息传递,与Agent Memory相关。
论文信息