摘要
随着大型语言模型(LLM)代理在单个上下文窗口之外运行,记忆变得越来越重要。然而,现有系统大多依赖于离线、查询无关的记忆构建方式,这可能效率低下并丢弃关键信息。尽管运行时记忆利用是一种自然替代方案,但以往的工作通常带来较大的开销,并且对性能-成本权衡的控制有限。本文提出了一种名为BudgetMem的运行时智能体记忆框架,用于实现显式的、查询感知的性能-成本控制。BudgetMem将记忆处理结构化为一组具有三个预算层级(低/中/高)的记忆模块,并通过一个轻量级路由器在这些模块之间进行预算层级路由,以平衡任务性能和记忆构建成本。该路由器通过强化学习训练得到一个紧凑的神经策略。使用BudgetMem作为统一的测试平台,我们研究了三种互补的实现预算层级的策略:实现复杂度、推理行为和容量(模块模型大小)。在LoCoMo、LongMemEval和HotpotQA数据集上,BudgetMem在优先考虑性能(即高预算设置)时优于强基线,并在更严格的预算下提供了更好的准确率-成本边界。此外,我们的分析揭示了不同分层策略的优势和劣势,明确了在不同预算制度下哪种轴向能提供最佳的权衡。
AI 推荐理由
论文标题和内容直接聚焦于Agent Memory的运行时管理与性能-成本控制,属于核心研究。
论文信息