ScaleSim：基于调用距离记忆管理的大规模多智能体模拟服务系统

多智能体系统显存管理 LLM 服务系统优化

摘要

基于大语言模型的多智能体模拟应用广泛，但因显存压力难以扩展。每个智能体需维护独立的模型、前缀缓存等状态，随数量增加迅速耗尽资源。本文识别出稀疏激活与可估计调用顺序两大特性，提出“调用距离”抽象以预测请求次序。据此构建 ScaleSim 系统，支持主动预取与优先级淘汰，通过模块化接口适配多样记忆需求，在基准测试中较 SGLang 提速达 1.74 倍。

AI 推荐理由

论文核心提出基于调用距离的记忆管理机制，解决多智能体模拟中的显存瓶颈。

研究机构

University of California, San Diego

论文信息

作者 Zaifeng Pan, Yipeng Shen, Zhengding Hu, Zhuang Wang, Aninda Manocha et al.

发布日期 2026-01-29

arXiv ID 2601.21473