混合代理 动态路由 模型选择 推理效率
摘要

混合代理(MoA)通过分层协作提升大语言模型性能,但其密集拓扑结构导致成本和延迟增加。现有方法依赖LLM判断器筛选响应,但仍需所有模型完成推理后再进行判断,无法有效降低成本。此外,这些方法缺乏模型选择标准,在大规模模型池中面临高成本和上下文限制问题。为此,本文提出RouteMoA,一种高效的混合代理框架,采用动态路由机制。该框架使用轻量级评分器通过查询预测粗粒度性能,筛选出高潜力候选模型,无需推理。随后,通过基于已有模型输出的轻量级自评和互评对评分进行修正,无需额外推理。最后,通过平衡性能、成本和延迟的模型排名机制选择模型。实验表明,RouteMoA在不同任务和模型池规模下均优于传统MoA,大幅降低了成本和延迟。

AI 推荐理由

论文涉及模型选择与推理效率,间接关联Agent Memory机制,但非核心主题。

论文信息
作者 Jize Wang, Han Wu, Zhiyuan You, Yiming Song, Yijun Wang et al.
发布日期 2026-01-26
arXiv ID 2601.18130
相关性评分 6/10 (相关)