多智能体系统 显存管理 LLM 服务 系统优化
摘要

基于大语言模型的多智能体模拟应用广泛,但因显存压力难以扩展。每个智能体需维护独立的模型、前缀缓存等状态,随数量增加迅速耗尽资源。本文识别出稀疏激活与可估计调用顺序两大特性,提出“调用距离”抽象以预测请求次序。据此构建 ScaleSim 系统,支持主动预取与优先级淘汰,通过模块化接口适配多样记忆需求,在基准测试中较 SGLang 提速达 1.74 倍。

AI 推荐理由

论文核心提出基于调用距离的记忆管理机制,解决多智能体模拟中的显存瓶颈。

研究机构
University of California, San Diego
论文信息
作者 Zaifeng Pan, Yipeng Shen, Zhengding Hu, Zhuang Wang, Aninda Manocha et al.
发布日期 2026-01-29
arXiv ID 2601.21473
相关性评分 9/10 (高度相关)