摘要
基于大语言模型的多智能体模拟应用广泛,但因显存压力难以扩展。每个智能体需维护独立的模型、前缀缓存等状态,随数量增加迅速耗尽资源。本文识别出稀疏激活与可估计调用顺序两大特性,提出“调用距离”抽象以预测请求次序。据此构建 ScaleSim 系统,支持主动预取与优先级淘汰,通过模块化接口适配多样记忆需求,在基准测试中较 SGLang 提速达 1.74 倍。
AI 推荐理由
论文核心提出基于调用距离的记忆管理机制,解决多智能体模拟中的显存瓶颈。
研究机构
University of California, San Diego
论文信息