Memory Bank by lightsmile

LLM/Agent Memory 论文追踪报告 - 2026-02-20 10:36

0
论文总数
0
已分析
0
高相关
0
Memory核心
每日新增论文趋势 (近30天)
Mnemis: Dual-Route Retrieval on Hierarchical Graphs for Long-Term LLM Memory
Zihao Tang, Xin Yu, Ziyu Xiao, Zengxuan Wen, Zelin Li et al.
10/10 2026-02-17 cs.CL PDF
AI记忆,特别是模型如何组织和检索历史信息,对大型语言模型(LLMs)变得越来越重要。然而,现有方法(如RAG和Graph-RAG)主要依赖相似性检索机制,难以应对需要全局推理或全面覆盖相关信息的场景。本文提出Mnemis,一种新型的记忆框架,结合了System-1相似性搜索与互补的System-2机制——全局选择。Mnemis将记忆组织为一个基础图用于相似性检索,并构建一个分层图以实现自上而下的语义层次遍历。通过结合两种检索路径的优势,Mnemis能够检索出在语义和结构上均相关的信息项。在长期记忆基准测试中,Mnemis取得了最先进的性能,在LoCoMo上得分为93.9,在LongMemEval-S上得分为91.6(使用GPT-4.1-mini)。
LLM Memory Hierarchical Graph Dual-Route Retrieval Global Selection
论文直接聚焦于LLM的长期记忆机制,提出新的框架并进行实验验证,属于核心Memory研究。
Choosing How to Remember: Adaptive Memory Structures for LLM Agents
Mingfei Lu, Mengjia Wu, Feng Liu, Jiawei Xu, Weikai Li et al.
10/10 2026-02-15 cs.AI PDF
记忆对于基于大语言模型(LLM)的代理在长期交互中保持行为一致性至关重要。然而,现有的代理记忆系统存在两个关键缺陷:它们依赖单一的记忆结构,并未将记忆结构的选择建模为上下文自适应的决策,这限制了其处理异构交互模式的能力并导致性能不佳。本文提出了一种统一的框架FluxMem,使LLM代理能够实现自适应记忆组织。该框架为代理配备了多种互补的记忆结构,并根据交互级特征显式学习在这些结构之间进行选择,使用来自下游响应质量和记忆利用情况的离线监督。为了支持稳健的长期记忆演化,我们进一步引入了一个三级记忆层次结构以及基于Beta混合模型的概率门控机制,用于分布感知的记忆融合,以替代脆弱的相似性阈值。在两个长期基准测试PERSONAMEM和LoCoMo上的实验表明,我们的方法平均分别提升了9.18%和6.14%。
LLM Agent 自适应记忆结构 记忆融合 长期交互
论文标题和内容直接聚焦于LLM Agent的自适应记忆结构,提出新的框架和方法。
HyMem: Hybrid Memory Architecture with Dynamic Retrieval Scheduling
Xiaochen Zhao, Kaikai Wang, Xiaowen Zhang, Chen Yao, Aili Wang
10/10 2026-02-15 cs.AI PDF
大型语言模型(LLM)代理在短文本场景中表现出色,但在长对话中常因低效的记忆管理而表现不佳。现有方法面临效率与效果之间的根本性权衡:记忆压缩可能导致复杂推理所需的关键细节丢失,而保留原始文本则会为简单查询引入不必要的计算开销。问题的核心在于单一化的记忆表示和静态检索机制无法模拟人类灵活且主动的记忆调度能力,从而难以适应多样化的场景。受认知经济原则启发,本文提出HyMem,一种通过多粒度记忆表示实现动态按需调度的混合记忆架构。HyMem采用双粒度存储方案与动态两级检索系统:轻量级模块构建摘要级上下文以提高响应生成效率,而基于LLM的深度模块仅在复杂查询时被选择性激活,并辅以反思机制用于迭代推理优化。实验表明,HyMem在LOCOMO和LongMemEval基准测试中均取得优异性能,优于全上下文方法,同时将计算成本降低了92.6%,在长期记忆管理中实现了效率与性能的最先进平衡。
LLM Agent Memory Architecture Dynamic Retrieval Cognitive Economy
论文核心聚焦于LLM Agent的混合记忆架构与动态检索调度,直接针对Agent Memory机制进行创新。
Hippocampus: An Efficient and Scalable Memory Module for Agentic AI
Yi Li, Lianjie Cao, Faraz Ahmed, Puneet Sharma, Bingzhe Li
10/10 2026-02-14 cs.AI PDF
智能体AI需要持久记忆来存储超出LLM上下文窗口的用户特定历史。现有记忆系统使用密集向量数据库或知识图谱遍历(或混合),导致检索延迟高且存储扩展性差。本文提出Hippocampus,一种基于紧凑二进制签名进行语义搜索、利用无损token-ID流进行精确内容重建的智能体记忆管理系统。其核心是动态小波矩阵(DWM),用于压缩并联合索引两种流,从而在压缩域内实现超快速搜索,避免了代价高昂的密集向量或图计算。该设计随内存规模线性扩展,适用于长期智能体部署。实验表明,Hippocampus将端到端检索延迟降低至原来的1/31,并减少每个查询的token占用量达14倍,同时在LoCoMo和LongMemEval基准测试中保持准确性。
Agent Memory Memory Compression Semantic Search Efficient Retrieval LLM Agent
论文标题和内容均明确聚焦于Agent Memory系统的设计与优化,是核心研究。
MemAdapter: Fast Alignment across Agent Memory Paradigms via Generative Subgraph Retrieval
Xin Zhang, Kailai Yang, Chenyue Li, Hao Li, Qiyu Wei et al.
Xin Zhang (The University of ManchesterUnited Kingdom) | Kailai Yang (The University of ManchesterUnited Kingdom) | Chenyue Li (Stanford UniversityUnited States)
10/10 2026-02-09 cs.AI PDF
记忆机制是基于LLM的智能体系统中的核心组件,能够支持长时序上下文下的推理和知识发现。现有的智能体记忆系统通常在孤立的范式(如显式、参数化或潜在记忆)中设计,并采用紧密耦合的检索方法,这限制了跨范式的泛化与融合能力。本文首次尝试在单一记忆系统中统一异构的记忆范式,提出MemAdapter这一记忆检索框架,实现不同记忆范式之间的快速对齐。该框架采用两阶段训练策略:首先从统一的记忆空间中训练一个生成子图检索器,其次通过对比学习训练一个轻量级对齐模块,以适应未见过的记忆范式。实验表明,该方法在三个公开基准测试中显著优于五种强大的记忆系统,并且能够在单块GPU上以不到5%的训练计算量完成跨范式对齐,同时实现了零样本跨范式融合,展示了其作为智能体记忆系统的即插即用解决方案的潜力。
Agent Memory Memory Alignment Generative Retrieval Cross-Paradigm Fusion
论文核心聚焦于Agent Memory的跨范式对齐与统一,提出MemAdapter框架,属于Agent Memory机制的核心研究。
Learning to Continually Learn via Meta-learning Agentic Memory Designs
Yiming Xiong, Shengran Hu, Jeff Clune
10/10 2026-02-08 cs.AI PDF
基础模型的状态无关性限制了代理系统持续学习的能力,这是长期推理和适应的核心能力。为解决这一问题,代理系统通常引入记忆模块以保留和重用过去经验,从而实现在测试时的持续学习。然而,现有记忆设计多为人工制定且固定,难以适应现实任务的多样性和非平稳性。本文提出ALMA(用于代理系统的自动化元学习记忆设计),通过元学习替代手工设计的记忆模块,减少人工干预,使代理系统能够在多个领域中成为持续学习者。该方法采用一个元代理,在开放环境中搜索以可执行代码表示的记忆设计,理论上允许发现任意记忆结构及其检索和更新机制。在四个顺序决策领域的广泛实验表明,所学记忆设计在所有基准测试中比最先进的手工设计记忆模块更有效、更高效地从经验中学习。当安全开发和部署时,ALMA代表了迈向自我改进AI系统的重要一步,这些系统能够学习成为自适应、持续学习的代理。
持续学习 元学习 代理系统 记忆设计 自动化学习
论文核心聚焦于Agent Memory设计,提出自动化学习记忆机制以实现持续学习。
AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management
Ruoyao Wen, Hao Li, Chaowei Xiao, Ning Zhang
10/10 2026-02-07 cs.CR PDF
间接提示注入威胁LLM代理,通过在外部内容中嵌入恶意指令,导致未经授权的操作和数据泄露。LLM代理通过上下文窗口维护工作内存,存储交互历史以辅助决策。传统代理无差别地累积所有工具输出和推理轨迹,造成两个关键漏洞:(1)注入的指令在整个工作流中持续存在,为攻击者提供多次操控行为的机会;(2)冗长、非必要的内容损害了决策能力。现有防御方法将臃肿的内存视为既定事实,专注于保持系统韧性,而非减少不必要的积累以防止攻击。本文提出了AgentSys框架,通过显式内存管理来防御间接提示注入。受操作系统进程内存隔离的启发,AgentSys采用分层结构组织代理:主代理生成用于工具调用的工作者代理,每个工作者代理在独立上下文中运行,并可生成子工作者处理子任务。外部数据和子任务轨迹不会进入主代理的内存;只有经过模式验证的返回值可以通过确定性的JSON解析跨边界传输。实验表明,仅隔离机制即可将攻击成功率降至2.19%,再加上验证器/清理器进一步提升防御效果,其开销随操作数量而非上下文长度增长。在AgentDojo和ASB上,AgentSys分别实现了0.78%和4.25%的攻击成功率,同时略微提升了良性任务的效用。它对自适应攻击者和多种基础模型均表现出鲁棒性,证明显式内存管理能够实现安全、动态的LLM代理架构。
LLM Agent Memory Management Security Prompt Injection Hierarchical Architecture
论文核心聚焦于LLM Agent的显式分层内存管理,直接针对内存安全问题提出解决方案。
Code
Graph-based Agent Memory: Taxonomy, Techniques, and Applications
Chang Yang, Chuang Zhou, Yilin Xiao, Su Dong, Luyao Zhuang et al.
10/10 2026-02-05 cs.AI PDF
记忆是基于大语言模型(LLM)的智能体在处理长期复杂任务(如多轮对话、游戏对战、科学发现)中的核心模块,能够实现知识积累、迭代推理和自我进化。在多种范式中,图结构因其建模关系依赖、组织层次信息和支持高效检索的内在能力而成为智能体记忆的强大工具。本文从图的角度对智能体记忆进行了全面综述。首先,我们介绍了智能体记忆的分类,包括短期与长期记忆、知识与经验记忆、非结构化与结构化记忆,并从实现角度探讨了基于图的记忆。其次,根据智能体记忆的生命周期,系统分析了基于图的智能体记忆的关键技术,涵盖数据内容提取、高效存储、相关内容检索以及记忆内容更新。第三,我们总结了支持自进化智能体记忆开发与评估的开源库和基准测试,并探讨了多样化的应用场景。最后,我们识别了关键挑战和未来研究方向。本综述旨在为更高效、可靠的基于图的智能体记忆系统的发展提供可行见解。所有相关资源,包括研究论文、开源数据和项目,均收集在https://github.com/DEEP-PolyU/Awesome-GraphMemory。
Agent Memory Graph-based Memory Survey LLM Agents Knowledge Accumulation
论文标题和内容明确聚焦于Agent Memory,特别是基于图的内存机制、技术及应用。
Code
Memora: A Harmonic Memory Representation Balancing Abstraction and Specificity
Menglin Xia, Xuchao Zhang, Shantanu Dixit, Paramaguru Harimurugan, Rujia Wang et al.
10/10 2026-02-03 cs.AI PDF
智能体记忆系统需要在信息持续增长的同时支持高效、上下文感知的检索以服务于下游任务。抽象对于扩展智能体记忆至关重要,但往往牺牲了具体性,导致有效推理所需的细节被掩盖。本文提出Memora,一种结构上平衡抽象与具体性的谐波记忆表示。Memora通过其主要抽象来索引具体的记忆值,并将相关更新整合为统一的记忆条目,同时通过提示锚点扩展对记忆不同方面的检索访问并连接相关记忆。基于这一结构,我们采用了一种主动利用这些记忆连接的检索策略,以检索超出直接语义相似性的相关信息。理论上,我们证明标准的检索增强生成(RAG)和知识图谱(KG)记忆系统是本框架的特例。实证表明,Memora在LoCoMo和LongMemEval基准测试中建立了新的最先进水平,展示了随着记忆规模扩大时更好的检索相关性和推理效果。
Agent Memory Memory Representation Retrieval-Augmented Generation Knowledge Graph Harmonic Memory
论文直接聚焦于Agent Memory机制,提出Memora结构,平衡抽象与具体性,属于核心Memory研究。
LatentMem: Customizing Latent Memory for Multi-Agent Systems
Muxin Fu, Guibin Zhang, Xiangyuan Xue, Yafu Li, Zefeng He et al.
10/10 2026-02-03 cs.CL PDF
基于大语言模型的多智能体系统展现出显著的集体智能,其中多智能体记忆是持续适应的关键机制。然而,现有设计存在两个根本瓶颈:一是缺乏角色感知的定制导致记忆同质化;二是过于细粒度的记忆条目引发信息过载。为此,我们提出了LatentMem,一种可学习的多智能体记忆框架,能够在标记效率高的情况下定制特定智能体的记忆。该框架包含一个存储原始交互轨迹的轻量级经验库,以及一个根据检索经验和智能体特定上下文合成紧凑潜在记忆的记忆合成器。此外,我们引入了潜在记忆策略优化(LMPO),通过潜在记忆将任务级别的优化信号传递给合成器,鼓励其生成紧凑且高效的记忆表示。在多个基准和主流多智能体框架上的广泛实验表明,LatentMem相比基础设置性能提升了高达19.36%,并始终优于现有记忆架构,且无需对底层框架进行任何修改。
multi-agent systems memory customization latent memory LLM agent
论文标题和内容均明确聚焦于多智能体系统的记忆机制,提出了一种可学习的记忆框架。
MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents
Haozhen Zhang, Quanyu Long, Jianzhu Bao, Tao Feng, Weizhi Zhang et al.
10/10 2026-02-02 cs.CL PDF
当前大多数大语言模型(LLM)智能体的记忆系统依赖少量静态、人工设计的操作来提取记忆,这些固定流程将人类先验硬编码为存储与更新规则,在多样交互模式下表现僵化,且难以处理长历史。为此,本文提出MemSkill,将记忆操作重构为可学习、可演化的记忆技能——即从交互轨迹中提取、整合与剪枝信息的结构化可复用例程。受智能体技能设计理念启发,MemSkill采用一个控制器学习选择相关技能,并由基于LLM的执行器生成技能引导的记忆。此外,系统引入一个设计师模块,周期性审查技能失效的困难案例,并通过提出改进或新技能来演化技能集。该闭环机制同时优化技能选择策略与技能本身。在LoCoMo、LongMemEval、HotpotQA和ALFWorld上的实验表明,MemSkill显著优于强基线并具有良好泛化能力。
LLM Agent Memory Skills Self-Evolving Memory Memory Management
论文核心聚焦于LLM Agent记忆机制的可学习与自演化架构。
Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory
Ruiqi Wu, Xuanhua He, Meng Cheng, Tianyu Yang, Yong Zhang et al.
10/10 2026-02-02 cs.CV PDF
本文提出Infinite-World,一种能在复杂现实环境中维持超过1000帧连贯视觉记忆的鲁棒交互式世界模型。针对现有模型在真实视频中因姿态估计噪声和视角重访稀疏而难以训练的问题,作者引入分层无姿态记忆压缩器(HPMC),递归地将历史隐变量压缩为固定容量表示,并与生成主干联合优化,使模型能以有界计算成本锚定远期过去状态,无需显式几何先验。此外,提出不确定性感知动作标注模块,将连续运动离散化为三态逻辑,提升原始视频数据利用率并避免噪声轨迹污染动作空间。结合回访密集微调策略,在30分钟紧凑数据集上高效激活模型长程闭环能力。实验表明,该方法在视觉质量、动作可控性与空间一致性方面表现优越。
Agent Memory World Model
论文核心提出分层无姿态记忆压缩器,直接研究Agent长期视觉记忆机制。
Live-Evo: Online Evolution of Agentic Memory from Continuous Feedback
Yaolun Zhang, Yiran Wu, Yijiong Yu, Qingyun Wu, Huazheng Wang
10/10 2026-02-02 cs.AI PDF
大语言模型(LLM)智能体日益配备记忆机制,以存储经验并提供可复用的指导,从而提升任务求解性能。现有自演化系统多基于静态训练/测试划分,难以应对真实分布偏移和持续反馈场景。本文提出Live-Evo——一种在线自演化记忆系统,通过“经验库”与“元指导库”解耦“发生了什么”与“如何使用”,为每个任务动态生成适应性指导。系统根据反馈在线调整经验权重:有效经验被强化并频繁检索,误导或过时经验则被降权并逐渐遗忘,模拟人类记忆的强化与衰减机制。在为期10周的Prophet Arena在线基准上,Live-Evo将Brier评分提升20.8%,市场回报提高12.9%,并在深度研究任务中持续优于强基线。
在线学习 记忆演化
论文核心聚焦于Agent Memory的在线演化机制,提出明确的双库架构与记忆更新策略。
Code
Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation
Zhanghao Hu, Qinglin Zhu, Hanqi Yan, Yulan He, Lin Gui
10/10 2026-02-02 cs.CL PDF
智能体记忆系统常采用标准的检索增强生成(RAG)流程,但其底层假设在此场景下并不适用。RAG面向大型异构语料库,而智能体记忆是有限、连贯且高度相关的对话流,常含重复片段。固定top-k相似性检索易返回冗余上下文,事后剪枝可能删除推理所需的时序前提。本文主张检索应超越相似匹配,转而操作潜在语义成分,遵循“解耦—聚合”范式:将记忆解耦为语义单元,组织成层次结构,并以此驱动检索。所提xMemory通过稀疏性—语义目标引导记忆的拆分与合并,构建忠实且可检索的高层节点结构。推理时采用自上而下策略,为多事实查询选择紧凑多样的主题与语义,仅在降低阅读器不确定性时才展开至具体事件或原始消息。在LoCoMo和PerLTQA上的实验表明,该方法在三大最新LLM上均显著提升回答质量与token效率。
Agent Memory Retrieval-Augmented Generation
论文聚焦Agent Memory机制,提出超越RAG的新架构。
ProcMEM: Learning Reusable Procedural Memory from Experience via Non-Parametric PPO for LLM Agents
Qirui Mi, Zhijian Ma, Mengyue Yang, Haoxuan Li, Yisen Wang et al.
10/10 2026-02-02 cs.AI PDF
大语言模型驱动的智能体在序列决策任务中表现优异,但常依赖即时推理,在重复场景中反复重新推导解决方案,导致计算冗余与执行不稳定。为解决此问题,本文提出ProcMEM框架,使智能体能在无需参数更新的情况下,从交互经验中自主学习程序性记忆。通过构建技能马尔可夫决策过程(Skill-MDP),ProcMEM将被动的情节叙述转化为具备激活、执行与终止条件的可执行技能。为确保可靠复用且不降低能力,引入非参数化PPO方法,利用语义梯度生成高质量候选技能,并通过PPO门控机制进行鲁棒验证。结合基于评分的记忆维护策略,ProcMEM维持紧凑而高质量的程序性记忆库。实验表明,该方法在域内、跨任务及跨智能体场景下均实现高复用率、显著性能提升与极致记忆压缩。
程序性记忆 大语言模型智能体
论文核心聚焦于LLM Agent的程序性记忆机制构建与复用。
CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling
Runsong Zhao, Shilei Liu, Jiwei Tang, Langming Liu, Haibin Chen et al.
10/10 2026-02-02 cs.LG PDF
标准Transformer的二次复杂度及不断增长的键值(KV)缓存严重阻碍了长上下文处理。为此,本文提出协作记忆Transformer(CoMeT),一种新型架构,使大语言模型能以恒定内存占用和线性时间复杂度处理任意长度序列。CoMeT作为即插即用模块,仅需少量微调即可集成至预训练模型。其采用双记忆系统:基于FIFO队列的临时记忆存储近期事件,带门控更新规则的全局记忆捕获长程依赖,并共同构成下一数据块的动态软提示。为支持超长上下文高效微调,作者还提出层间流水并行策略。实验表明,经32k上下文微调的CoMeT模型可在百万token序列中精准检索任意位置的密钥,在SCROLLS摘要任务上媲美全注意力基线,并在真实Agent与用户行为问答任务中验证了实用性。
长上下文建模 记忆架构
论文核心提出协作记忆机制,直接解决Agent长期上下文记忆问题。
EverMemBench: Benchmarking Long-Term Interactive Memory in Large Language ModelsEverMemBench: Benchmarking Long-Term Interactive Memory in Large Language Models
Chuanrui Hu, Tong Li, Xingze Gao, Hongda Chen, Dannong Xu et al.
Chuanrui Hu (EverMind, Shanda Group) | Tong Li (EverMind, Shanda Group) | Xingze Gao (EverMind, Shanda Group)
10/10 2026-02-01 cs.CL PDF
基于大语言模型的智能助手亟需长期对话记忆能力,但现有评测基准局限于双人单话题对话,难以反映真实场景的复杂性。本文提出EverMemBench,一个包含多方、多群组对话的评测基准,涵盖超百万token的对话内容,具备时序演化的信息、跨话题交织及角色特定人格特征。该基准通过1000余个问答对,从细粒度回忆、记忆意识和用户画像理解三个维度评估记忆系统。实验揭示了当前方法的关键局限:多跳推理在多方场景中失效;时序推理尚未解决,需超越时间戳匹配的版本语义;记忆意识受限于检索机制,现有基于相似性的方法难以弥合查询与隐含相关记忆间的语义鸿沟。EverMemBench为下一代记忆架构提供了具有挑战性的测试平台。
长期记忆 评测基准
论文聚焦LLM长期交互记忆的评测,核心研究Agent Memory机制。
PersistBench: When Should Long-Term Memories Be Forgotten by LLMs?
Sidharth Pulipaka, Oliver Chen, Manas Sharma, Taaha S Bajwa, Vyas Raina et al.
10/10 2026-02-01 cs.AI PDF
对话助手正越来越多地将长期记忆与大语言模型(LLM)结合,以提升个性化体验(如记住用户为素食者)。然而,这种记忆持久性也可能带来被忽视的安全风险。为此,本文提出PersistBench基准,用于评估两类长期记忆特有风险:跨域泄露(LLM不当注入长期记忆上下文)和记忆诱导的谄媚行为(存储的记忆隐秘强化用户偏见)。作者在18个前沿及开源LLM上进行评测,发现模型在跨域样本上的中位失败率达53%,在谄媚样本上高达97%。该基准旨在推动更鲁棒、更安全的长期记忆机制在对话系统中的发展。
长期记忆 安全风险
论文聚焦LLM长期记忆的安全风险,直接研究记忆机制的核心问题。
PolarMem: A Training-Free Polarized Latent Graph Memory for Verifiable Multimodal Agents
Zhisheng Chen, Tingyu Wu, Zijie Zhou, Zhengwei Xie, Ziyan Weng et al.
10/10 2026-01-31 cs.AI PDF
随着多模态智能体从被动观察者演变为长期决策者,其记忆系统不仅需提供信息可用性,还需支持逻辑可验证性。当前架构的根本局限在于概率性视觉-语言模型与稠密联想记忆中存在的认知不对称:它们将语义相似性与事实存在性混淆,且无法结构化地编码否定约束。为此,本文提出PolarMem——一种无需训练的极化潜在图记忆系统,通过非参数分布划分将模糊感知似然转化为离散逻辑约束,并采用具有正交抑制连接的极化图拓扑,显式将已验证的否定作为基本认知状态进行存储。推理阶段采用逻辑主导的检索范式,抑制违反否定约束的幻觉模式。在八个冻结视觉-语言模型和六个基准上的广泛实验表明,PolarMem可作为稳健的认知系统,为可验证多模态智能体奠定基础。
Agent Memory Multimodal Agents
论文提出新型记忆系统PolarMem,核心聚焦可验证的Agent记忆机制。
Code
Mem-T: Densifying Rewards for Long-Horizon Memory Agents
Yanwei Yue, Guibin Zhang, Boci Peng, Xuanbo Fan, Jiaxin Guo et al.
10/10 2026-01-30 cs.LG PDF
记忆智能体通过内生方式管理记忆的处理、存储与检索,展现出高度的自主性与适应性。然而,现有训练范式受限于稀疏且延迟的奖励信号,难以实现端到端的记忆管理策略优化。为此,本文提出Mem-T——一种可与轻量级分层记忆数据库交互的自主记忆智能体,支持对流式输入进行动态更新与多轮检索。为有效训练其长视野记忆管理能力,进一步提出MoT-GRPO框架,该树引导强化学习方法通过记忆操作树反向传播与事后信用分配,将稀疏终端反馈转化为稠密的逐步监督信号,联合优化记忆构建与检索。实验表明,Mem-T在性能上超越A-Mem和Mem0达14.92%,同时在准确率-效率帕累托前沿上表现优异,相较GAM减少约24.45%的推理token消耗而不损失性能。
记忆智能体 强化学习
论文聚焦于自主记忆智能体的记忆管理机制与训练方法,核心研究Agent Memory。
Darwinian Memory: A Training-Free Self-Regulating Memory System for GUI Agent Evolution
Hongze Mi, Yibo Feng, WenJie Lu, Song Cao, Jinyuan Li et al.
10/10 2026-01-30 cs.AI PDF
多模态大语言模型(MLLM)智能体在图形用户界面(GUI)自动化中面临长周期、跨应用任务的挑战,主要受限于上下文窗口。现有记忆系统难以适应动态GUI环境,存在高层意图与底层执行间的粒度不匹配及上下文污染问题。为此,本文提出达尔文式记忆系统(DMS),将记忆构建为遵循“适者生存”法则的动态生态系统。DMS将复杂轨迹分解为独立可复用单元,并通过效用驱动的自然选择机制追踪记忆单元的生存价值,主动剪枝次优路径并抑制高风险计划。在真实多应用基准上的实验表明,DMS无需训练成本或架构改动即可显著提升通用MLLM性能,平均成功率提高18.0%,执行稳定性提升33.9%,同时降低任务延迟。
Agent Memory GUI Automation
论文提出新型自进化记忆系统DMS,核心聚焦Agent Memory机制。
E-mem: Multi-agent based Episodic Context Reconstruction for LLM Agent Memory
Kaixiang Wang, Yidan Lin, Jiong Lou, Zhaojiacheng Zhou, Bunyod Suvonov et al.
10/10 2026-01-29 cs.AI PDF
随着大语言模型(LLM)智能体向系统2推理演进,其需在长时间跨度内维持严谨的逻辑完整性。然而,现有记忆预处理范式常因破坏性去上下文化而损害深层推理所需的上下文完整性。为此,本文提出E-mem框架,将范式从记忆预处理转向情节上下文重构。受生物记忆印迹(engrams)启发,E-mem采用异构分层架构:多个辅助智能体维护未压缩的记忆上下文,主控智能体负责全局规划。该机制使辅助智能体能在激活片段内进行局部推理,提取上下文感知证据后再聚合。在LoCoMo基准上的评估表明,E-mem的F1得分超过54%,较当前最优方法GAM提升7.75%,同时降低70%以上的token开销。
LLM Agent Memory Episodic Memory Multi-agent System Context Preservation
论文标题与内容均聚焦于LLM Agent记忆机制,提出新型记忆架构E-mem。
ShardMemo: Masked MoE Routing for Sharded Agentic LLM Memory
Yang Zhao, Chengxiao Dai, Yue Xiu, Mengying Kou, Yuliang Zheng et al.
10/10 2026-01-29 cs.AI PDF
智能体大语言模型(LLM)系统依赖外部记忆以支持长时程状态维护与多智能体并发执行,但随着记忆规模和并行访问量增长,集中式索引与启发式分区成为性能瓶颈。本文提出ShardMemo——一种预算受限的分层记忆服务,包含A层(每智能体工作状态)、B层(带本地近似最近邻索引的分片证据)和C层(版本化技能库)。B层采用“作用域优先路由”策略,通过结构化资格约束在路由或ANN搜索前屏蔽无效分片,并将分片探测建模为对合格分片的掩码混合专家(MoE)路由,支持Top-B或自适应Top-P采样。路由器基于证据到分片的监督信号训练。实验表明,ShardMemo在LoCoMo上显著优于最强基线,在固定预算下提升F1分数并降低检索开销与延迟。
Agent Memory Memory Sharding
论文标题与内容均聚焦于LLM Agent的分层外部记忆系统设计,核心解决记忆扩展与路由问题。
MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning
Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen et al.
10/10 2026-01-29 cs.AI PDF
长程智能体推理需将不断增长的交互历史有效压缩至有限上下文窗口中。现有记忆系统多将历史序列化为文本,其token级开销均匀且随长度线性增长,常将稀缺预算浪费于低价值细节。为此,本文提出MemOCR——一种多模态记忆智能体,通过视觉布局实现自适应信息密度分配,在严格上下文预算下提升长程推理能力。MemOCR维护结构化富文本记忆(如标题、高亮),并将其渲染为图像供智能体查阅,视觉上突出关键证据,同时大幅压缩辅助细节。为确保在不同记忆预算下的鲁棒性,采用强化学习在预算感知目标下训练模型,使其适应多样压缩水平。在长上下文多跳与单跳问答基准上,MemOCR优于强文本基线,并在极端预算下实现更高效的上下文利用。
视觉记忆 上下文压缩
论文提出MemOCR,核心聚焦于Agent Memory的视觉化压缩与布局感知机制。
AMA: Adaptive Memory via Multi-Agent Collaboration
Weiquan Huang, Zixuan Wang, Hehai Lin, Sudong Wang, Bo Xu et al.
10/10 2026-01-28 cs.AI PDF
大语言模型(LLM)智能体的快速发展对支持长期交互与复杂推理的鲁棒记忆系统提出了迫切需求。现有方法通常采用僵化的检索粒度、冗余的信息累积策略和粗粒度的更新机制,导致存储内容与任务推理需求不匹配,并随时间积累逻辑不一致。为此,本文提出基于多智能体协作的自适应记忆框架(AMA),通过协调多个智能体实现多粒度记忆管理。AMA采用分层记忆结构,动态匹配检索粒度与任务复杂度:Constructor与Retriever协同构建多粒度记忆并自适应路由查询;Judge验证检索内容的相关性与一致性,必要时触发迭代检索或调用Refresher;Refresher则通过定向更新或删除过时条目维护记忆一致性。在长上下文基准上的实验表明,AMA显著优于当前最优方法,且相比全上下文方法减少约80%的token消耗。
LLM Agent Memory System
论文核心聚焦于LLM Agent记忆机制的设计与优化,标题明确包含memory。
MemCtrl: Using MLLMs as Active Memory Controllers on Embodied Agents
Vishnu Sashank Dorbala, Dinesh Manocha
10/10 2026-01-28 cs.AI PDF
基础模型依赖上下文学习进行个性化决策,但受限于上下文窗口大小,需借助如RAG等记忆压缩与检索系统。然而,现有系统常将记忆视为离线大容量存储,不适用于资源受限的在线具身智能体。本文提出MemCtrl,一种利用多模态大语言模型(MLLMs)在线剪枝记忆的新框架。该框架引入可训练的记忆头μ,作为门控机制,在探索过程中动态决定保留、更新或丢弃哪些观察或反思。实验通过离线专家和在线强化学习两种方式训练μ,在EmbodiedBench多个子集上显著提升任务完成能力,平均提升约16%,部分指令子集提升超20%。定性分析表明,μ增强的MLLM在处理长且复杂指令时表现更优。
Agent Memory 多模态大语言模型
论文核心提出MemCtrl框架,直接研究Agent在线记忆控制机制。
BMAM: Brain-inspired Multi-Agent Memory Framework
Yang Li, Jiaxiang Liu, Yusong Wang, Yujie Wu, Mingkun Xu
10/10 2026-01-28 cs.CL PDF
基于语言模型的智能体在长期交互中面临时序信息保持与跨会话行为一致性的挑战,作者称之为“灵魂侵蚀”。本文提出BMAM(脑启发的多智能体记忆框架),一种通用记忆架构,将智能体记忆建模为多个功能特化的子系统,而非单一非结构化存储。受认知记忆系统启发,BMAM将记忆分解为情景记忆、语义记忆、显著性感知记忆和控制导向记忆,各子系统在互补的时间尺度上运作。为支持长时程推理,BMAM沿显式时间线组织情景记忆,并通过融合多种互补信号进行检索。在LoCoMo基准上的实验表明,BMAM在标准长时程评估设置下达到78.45%的准确率,消融分析证实受海马体启发的情景记忆子系统对时序推理至关重要。
情景记忆 多智能体系统
论文核心提出脑启发的多智能体记忆架构BMAM,明确聚焦Agent Memory机制。
MemWeaver: Weaving Hybrid Memories for Traceable Long-Horizon Agentic Reasoning
Juexiang Ye, Xue Li, Xinyu Yang, Chengkai Huang, Lanshun Nie et al.
10/10 2026-01-26 cs.CL PDF
基于大型语言模型的代理在长期交互中需要支持时间一致性、多跳推理和跨会话证据重用的记忆系统。现有方法主要依赖非结构化检索或粗略抽象,常导致时间冲突、脆弱推理和有限的可追溯性。本文提出MemWeaver,一种统一的记忆框架,将长期代理经验整合为三个相互关联的组件:一个基于时间的图记忆用于结构化关系推理,一个经验记忆用于从重复观察中抽象出重复的交互模式,以及一个保留原始文本证据的段落记忆。MemWeaver采用双通道检索策略,联合检索结构化知识和支持证据,构建紧凑而信息密集的推理上下文。在LoCoMo基准上的实验表明,MemWeaver显著提高了多跳和时间推理的准确性,同时相比长上下文基线减少了超过95%的输入上下文长度。
Agent Memory Long-Horizon Reasoning Hybrid Memory System Multi-Hop Retrieval
论文标题和内容明确聚焦于Agent Memory机制,提出MemWeaver框架以解决长期交互中的记忆问题。
FadeMem: Biologically-Inspired Forgetting for Efficient Agent Memory
Lei Wei, Xu Dong, Xiao Peng, Niantao Xie, Bin Wang
10/10 2026-01-26 cs.AI PDF
作为自主代理部署的大语言模型面临关键的记忆限制,缺乏选择性遗忘机制,导致上下文边界处出现灾难性遗忘或内部信息过载。尽管人类记忆通过自适应衰减过程自然平衡保留与遗忘,当前AI系统采用二元保留策略,要么完全保留信息,要么彻底丢失。本文提出FadeMem,一种受生物学启发的代理记忆架构,引入主动遗忘机制以模拟人类认知效率。FadeMem在双层记忆层次结构中实现差异化的衰减率,保留由语义相关性、访问频率和时间模式调节的自适应指数衰减函数控制。通过LLM引导的冲突解决和智能记忆融合,系统整合相关信息并允许无关细节逐渐消失。在Multi-Session Chat、LoCoMo和LTI-Bench上的实验表明,FadeMem在多跳推理和检索方面表现优异,存储量减少45%,验证了生物学启发式遗忘在代理记忆系统中的有效性。
Agent Memory Biologically-Inspired Forgetting Memory Hierarchy Semantic Relevance Exponential Decay
论文直接聚焦于Agent Memory机制,提出FadeMem架构并验证其有效性,是核心研究。
Grounding Agent Memory in Contextual Intent
Ruozhen Yang, Yucheng Jiang, Yueqi Jiang, Priyanka Kargupta, Yunyi Zhang et al.
10/10 2026-01-15 cs.CL PDF
在长周期、目标导向的交互中部署大语言模型仍具挑战,因相同实体和事实在不同潜在目标与约束下反复出现,导致记忆系统检索到上下文不匹配的证据。本文提出STITCH(上下文历史中的结构化意图追踪),一种智能体记忆系统,通过结构化检索线索——上下文意图(包括当前潜在目标、动作类型和关键实体类型)对轨迹每一步进行索引,并依据当前步骤意图匹配历史记忆。推理时,STITCH按意图兼容性筛选并优先排序记忆片段,抑制语义相似但上下文不兼容的历史信息。在新构建的CAME-Bench及LongMemEval基准上,STITCH取得SOTA性能,较最强基线提升35.6%,且随轨迹长度增加优势更显著。
Agent Memory 上下文意图 记忆检索 长周期推理
论文核心提出新型Agent Memory系统STITCH,聚焦记忆检索与上下文意图对齐。
Continuum Memory Architectures for Long-Horizon LLM Agents
Joe Logan
10/10 2026-01-14 cs.AI PDF
检索增强生成(RAG)已成为为大语言模型(LLM)智能体提供上下文知识的默认策略,但其将记忆视为无状态的查找表:信息无限期保留、检索为只读且缺乏时间连续性。本文提出“连续记忆架构”(CMA),一类通过持久存储、选择性保留、关联路由、时间链式连接及向高阶抽象整合来维护并更新交互间内部状态的系统。作者未披露具体实现,而是阐明CMA的架构要求,并在知识更新、时间关联、关联回忆与上下文消歧等任务中验证其相较于RAG在累积、变异与消歧记忆方面的结构性优势,证明CMA是长周期智能体的必要架构原语,同时指出延迟、漂移与可解释性等开放挑战。
Agent Memory Long-Horizon Agents
论文提出连续记忆架构CMA,核心聚焦LLM Agent记忆机制设计。
$A^3$-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation
Jian Zhang, Yu He, Zhiyuan Wang, Zhangqi Wang, Kai He et al.
10/10 2026-01-14 cs.AI PDF
科学推理不仅依赖逻辑推断,还需激活先验知识与经验结构。记忆可高效复用知识,提升推理的一致性与稳定性。然而,现有基准主要评估最终答案或逐步连贯性,忽视了人类推理中基于锚点(anchor)与吸引子(attractor)激活并整合至多步推理的记忆驱动机制。为此,本文提出A³-Bench基准,通过双尺度记忆驱动激活评估科学推理能力。首先,采用SAPM流程(主题、锚点与吸引子、问题、记忆发展)标注2,198个跨领域科学推理问题;其次,构建基于锚点与吸引子的双尺度记忆评估框架,并引入AAUI(锚点-吸引子利用率指数)度量记忆激活率;最后,通过多种基础模型与范式的实验验证该基准,并分析记忆激活对推理性能的影响,为记忆驱动的科学推理提供新见解。
Agent Memory Scientific Reasoning
论文聚焦记忆驱动的科学推理机制,明确构建基于锚点与吸引子的记忆激活评估框架。
Code
The AI Hippocampus: How Far are We From Human Memory?
Zixia Jia, Jiaqi Li, Yipeng Kang, Yuxuan Wang, Tong Wu et al.
10/10 2026-01-14 cs.AI PDF
记忆在增强现代大语言模型(LLM)及多模态大语言模型(MLLM)的推理能力、适应性与上下文保真度方面起着基础性作用。随着模型从静态预测器向支持持续学习与个性化推理的交互系统演进,记忆机制已成为其架构与功能发展的核心主题。本文对LLM与MLLM中的记忆研究进行了系统性综述,提出包含隐式、显式与智能体记忆三大范式的统一分类体系。隐式记忆指预训练Transformer参数中嵌入的知识;显式记忆利用外部存储实现可查询的动态知识表示;智能体记忆则支持自主智能体的长期规划与多智能体协作。文章还探讨了多模态场景下的记忆整合,并分析了关键架构进展、基准任务及开放挑战。
Agent Memory Large Language Models
论文系统综述LLM与多模态Agent中的记忆机制,明确聚焦记忆架构。
AtomMem : Learnable Dynamic Agentic Memory with Atomic Memory Operation
Yupeng Huo, Yaxi Lu, Zhong Zhang, Haotian Chen, Yankai Lin
10/10 2026-01-13 cs.AI PDF
为解决现实世界中的长期任务问题,智能体需要具备记忆能力。然而,现有记忆机制多依赖静态且手工设计的工作流程,限制了性能和泛化能力。本文提出AtomMem,将记忆管理重新定义为动态决策问题,将高层次的记忆过程分解为基本的CRUD(创建、读取、更新、删除)操作,并将其转化为可学习的决策过程。通过结合监督微调与强化学习,AtomMem学习到一种自主且任务对齐的策略,以根据具体任务需求协调记忆行为。实验结果表明,在三个长上下文基准测试中,训练后的AtomMem-8B模型始终优于先前基于静态工作流的记忆方法。进一步分析显示,基于学习的方法使智能体能够发现结构化、任务对齐的记忆管理策略,凸显了其相对于预定义流程的优势。
Agent Memory Dynamic Memory Reinforcement Learning Memory Management
论文核心聚焦于Agent Memory机制,提出可学习的动态记忆框架AtomMem,直接针对记忆管理问题。
SwiftMem: Fast Agentic Memory via Query-aware Indexing
Anxin Tian, Yiming Li, Xing Li, Hui-Ling Zhen, Lei Chen et al.
10/10 2026-01-13 cs.CL PDF
代理记忆系统已成为使大型语言模型(LLM)代理维持长期上下文并高效检索相关信息的关键技术。然而,现有记忆框架存在一个根本性限制:无论查询特征如何,它们都会对整个存储层进行穷举检索。这种暴力方法在记忆增长时会造成严重的延迟瓶颈,阻碍实时代理交互。我们提出了SwiftMem,一种基于查询感知的代理记忆系统,通过在时间和语义维度上的专用索引实现亚线性检索。我们的时序索引支持时间敏感检索的对数时间范围查询,而语义DAG-Tag索引则通过分层标签结构将查询映射到相关主题。为了解决增长过程中的记忆碎片化问题,我们引入了嵌入-标签协同巩固机制,根据语义聚类重新组织存储以提高缓存局部性。在LoCoMo和LongMemEval基准测试中的实验表明,SwiftMem相比最先进的基线实现了47倍的搜索速度提升,同时保持了竞争力的准确性,使得增强记忆的LLM代理得以实际部署。
agent memory query-aware indexing semantic clustering LLM agents
论文直接针对Agent Memory系统提出改进方法,核心研究内容为记忆检索机制与索引优化。
Beyond Dialogue Time: Temporal Semantic Memory for Personalized LLM Agents
Miao Su, Yucan Guo, Zhongni Hou, Long Bai, Zixuan Li et al.
10/10 2026-01-12 cs.AI PDF
记忆使大型语言模型(LLM)代理能够感知、存储并使用过去对话中的信息,这对于个性化至关重要。然而,现有方法在两个方面未能正确建模记忆的时间维度:1)时间不准确:记忆按对话时间而非实际发生时间组织;2)时间碎片化:现有方法关注点状记忆,丢失了捕捉持久状态和演变模式的持续信息。为解决这些限制,我们提出了时间语义记忆(TSM),一种建模点状记忆语义时间并支持构建和利用持续记忆的记忆框架。在记忆构建过程中,它首先建立语义时间线而非对话时间线,然后将时间连续且语义相关的信息整合为持续记忆。在记忆利用过程中,它结合查询在语义时间线上的时间意图,从而检索出时间合适、持续一致的记忆,并提供时间有效、持续一致的上下文以支持响应生成。在LongMemEval和LoCoMo上的实验表明,TSM始终优于现有方法,在准确性上实现了高达12.2%的绝对提升,证明了所提方法的有效性。
Agent Memory Temporal Modeling Semantic Memory LLM Personalization
论文直接聚焦于LLM Agent的Memory机制,提出新的时间语义记忆框架,核心研究内容为Agent Memory。
Memory Matters More: Event-Centric Memory as a Logic Map for Agent Searching and Reasoning
Yuyang Hu, Jiongnan Liu, Jiejun Tan, Yutao Zhu, Zhicheng Dou
Jiongnan Liu (GSAI, Renmin University of China) | Jiejun Tan (Renmin University of China)
10/10 2026-01-08 cs.AI PDF
大语言模型(LLMs)正越来越多地被部署为能在环境中推理、规划和交互的智能体。为有效应对长周期任务,此类智能体亟需一种能保留、组织并检索过往经验以支持下游决策的记忆机制。然而,现有方法多以扁平方式组织记忆,并依赖简单的相似性检索;即便引入结构化记忆,也难以显式捕捉经验单元间的逻辑关系,且记忆访问仍脱离结构、依赖浅层语义检索,阻碍了长程逻辑推理。本文提出受事件分割理论启发的事件中心记忆框架CompassMem,通过将经验增量划分为事件并以显式逻辑关系连接,构建事件图作为逻辑图谱,使智能体能超越表层检索,进行结构化、目标导向的记忆导航,逐步聚合关键记忆以支持长程推理。在LoCoMo和NarrativeQA上的实验表明,CompassMem在多种主干模型上均显著提升检索与推理性能。
事件中心记忆 逻辑图谱
论文核心提出事件中心的记忆框架CompassMem,直接聚焦Agent Memory机制。
Beyond Static Summarization: Proactive Memory Extraction for LLM Agents
Chengyuan Yang, Zequn Sun, Wei Wei, Wei Hu
10/10 2026-01-08 cs.CL PDF
记忆管理对大语言模型(LLM)智能体实现长期交互与个性化至关重要。现有研究多关注记忆摘要的组织与使用,却忽视了初始记忆提取阶段。本文基于递归加工理论指出,当前基于摘要的方法存在两大局限:一是摘要为“提前进行”的盲目前馈过程,因无法预知未来任务而遗漏关键细节;二是提取通常为“一次性”操作,缺乏事实验证的反馈机制,导致信息损失累积。为此,我们提出主动记忆提取方法(ProMem),将提取视为迭代认知过程,通过自问自答机制构建递归反馈回路,主动探查对话历史以恢复缺失信息并修正错误。实验表明,ProMem显著提升了记忆提取的完整性与问答准确率,并在提取质量与token开销之间实现了更优权衡。
LLM Agent Memory Extraction
论文聚焦LLM Agent记忆提取机制,提出ProMem框架,属核心记忆研究。
Inside Out: Evolving User-Centric Core Memory Trees for Long-Term Personalized Dialogue Systems
Jihao Zhao, Ding Chen, Zhaoxin Fan, Kerun Xu, Mengting Hu et al.
10/10 2026-01-08 cs.CL PDF
现有长期个性化对话系统难以在无限交互流与有限上下文约束之间取得平衡,常导致记忆噪声累积、推理能力退化及角色不一致。本文提出Inside Out框架,利用全局维护的PersonaTree作为长期用户画像载体:通过初始模式约束主干,并动态更新分支与叶节点,实现可控增长,在压缩记忆的同时保持一致性。此外,通过基于过程奖励的强化学习训练轻量级MemListener模型,生成结构化、可执行且可解释的{ADD, UPDATE, DELETE, NO_OP}操作,支持个性化记忆树的动态演化。响应生成时,PersonaTree可直接用于低延迟场景;当需更多细节时,则触发智能体模式按需引入受控细节。实验表明,PersonaTree在抑制上下文噪声和维持角色一致性方面优于全文拼接及其他个性化记忆系统,且小型MemListener在记忆操作决策上性能媲美甚至超越DeepSeek-R1-0528和Gemini-3-Pro等强大推理模型。
核心记忆架构 个性化对话系统
论文提出PersonaTree核心记忆架构,直接解决Agent长期记忆建模问题。
Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction
Muzhao Tian, Zisu Huang, Xiaohua Wang, Jingwen Xu, Zhengkang Guo et al.
10/10 2026-01-08 cs.AI PDF
随着基于大语言模型的智能体越来越多地应用于长期交互场景,累积记忆对于实现个性化和保持风格一致性至关重要。然而,现有系统多采用“全有或全无”的记忆使用方式:纳入所有相关历史信息易导致“记忆锚定”,使智能体受困于过往交互;而完全排除记忆则造成重要交互历史的丢失。本文提出可建模并由用户显式控制的记忆依赖维度,首先引入衡量记忆依赖程度的行为指标,进而提出可调控记忆智能体(SteeM)框架,允许用户动态调节记忆依赖程度,从鼓励创新的“全新开始”模式到高度忠实于交互历史的“高保真”模式。多场景实验表明,该方法显著优于传统提示和固定记忆屏蔽策略,为个性化人机协作提供了更精细有效的控制手段。
可控记忆 记忆锚定 长期交互 个性化智能体
论文聚焦于LLM Agent中记忆使用的可控性,提出核心记忆调控机制。
Membox: Weaving Topic Continuity into Long-Range Memory for LLM Agents
Dehao Tao, Guoliang Ma, Yongfeng Huang, Minghu Jiang
10/10 2026-01-07 cs.CL PDF
人机对话常表现出话题连续性——即在时间相邻的交互中演化的稳定主题框架,但现有大语言模型(LLM)智能体记忆系统难以保留这一特性。当前方法多采用“碎片化-补偿”范式:先将对话流拆分为孤立语句存储,再通过嵌入检索恢复连贯性,此过程不可逆地破坏叙事与因果流,并偏向词汇相似性。本文提出Membox,一种以“话题织机”(Topic Loom)为核心的分层记忆架构,通过滑动窗口持续监测对话,将连续同主题轮次在存储时聚合成连贯的“记忆盒”;随后由“轨迹编织器”(Trace Weaver)将封存的记忆盒链接为长程事件时间线,恢复跨间断的宏观话题重现。在LoCoMo数据集上的实验表明,Membox在时序推理任务中F1最高提升68%,优于Mem0、A-MEM等基线,且仅使用现有方法一小部分上下文token,显著兼顾效率与效果。
LLM Agent Memory 话题连续性
论文提出Membox架构,核心解决LLM Agent中话题连续性的长期记忆建模问题。
Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents
Yuanchen Bei, Tianxin Wei, Xuying Ning, Yanjun Zhao, Zhining Liu et al.
10/10 2026-01-07 cs.CL PDF
长期记忆是多模态大语言模型(MLLM)智能体的关键能力,尤其在信息随时间累积和演化的对话场景中。然而,现有评测基准要么仅评估纯文本多轮对话中的记忆能力,要么在局部上下文中考察多模态理解,无法有效衡量多模态记忆在长期对话轨迹中的保存、组织与演化。为此,本文提出Mem-Gallery——一个用于评估MLLM智能体多模态长期对话记忆的新基准。该基准包含基于视觉与文本信息的高质量多轮对话,具有长交互周期和丰富的多模态依赖关系。在此基础上,作者构建了一个系统性评估框架,从记忆提取与测试时适应、记忆推理、记忆知识管理三个功能维度评估关键记忆能力。对十三种记忆系统的广泛评测揭示了当前模型在显式多模态信息保留与组织方面的必要性、记忆推理与知识管理的持续局限,以及效率瓶颈。
多模态记忆 长期对话记忆
论文聚焦多模态大语言模型智能体的长期对话记忆机制,提出专门评测基准。
SYNAPSE: Empowering LLM Agents with Episodic-Semantic Memory via Spreading Activation
Hanqi Jiang, Junhao Chen, Yi Pan, Ling Chen, Weihang You et al.
10/10 2026-01-06 cs.CL PDF
尽管大语言模型(LLMs)在通用推理方面表现出色,但现有检索增强方法难以应对智能体长期记忆的碎片化问题。为此,本文提出Synapse(协同联想处理语义编码),一种超越静态向量相似性的统一记忆架构。受认知科学启发,Synapse将记忆建模为动态图结构,其相关性通过扩散激活机制而非预计算链接生成。系统结合侧向抑制与时间衰减机制,动态突出相关子图并抑制干扰信息。我们设计了一种三重混合检索策略,融合几何嵌入与基于激活的图遍历。在LoCoMo基准上的综合评估表明,Synapse在复杂时序与多跳推理任务中显著优于当前最先进方法,有效缓解“上下文隧道”问题。代码与数据将在论文录用后公开。
情景-语义记忆 扩散激活
论文提出基于认知科学的动态图记忆架构,核心解决Agent长期记忆问题。
MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents
Dongming Jiang, Yi Li, Guanpeng Li, Bingzhe Li
10/10 2026-01-06 cs.AI PDF
记忆增强生成(MAG)通过外部记忆扩展大语言模型以支持长上下文推理,但现有方法主要依赖单一记忆库中的语义相似性,将时间、因果和实体信息混杂在一起,限制了可解释性及查询意图与检索证据的一致性,导致推理准确性不足。本文提出MAGMA——一种多图智能体记忆架构,将每个记忆项在正交的语义、时间、因果和实体图中分别表示,并将检索建模为在这些关系视图上的策略引导遍历,实现查询自适应的记忆选择与结构化上下文构建。通过解耦记忆表示与检索逻辑,MAGMA提供透明的推理路径和细粒度的检索控制。在LoCoMo和LongMemEval上的实验表明,MAGMA在长周期推理任务中持续优于当前最先进的智能体记忆系统。
Agent Memory Memory Architecture
论文提出多图结构的Agent记忆架构,核心聚焦记忆表示与检索机制。
MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory
Shengtao Zhang, Jiaqian Wang, Ruiwen Zhou, Junwei Liao, Yuchen Feng et al.
Ruiwen Zhou (National University of Singapore)
10/10 2026-01-06 cs.CL PDF
人类智能的核心在于通过建构性情景模拟——调用过往经验以合成新任务的解决方案——掌握新技能。尽管大语言模型具备强大推理能力,却难以实现此类自进化:微调计算成本高且易灾难性遗忘,现有基于记忆的方法依赖被动语义匹配,常检索到噪声信息。为此,本文提出MemRL框架,使智能体能在情景记忆上进行非参数化强化学习以实现自进化。MemRL明确分离冻结LLM的稳定推理能力与可塑、演化的记忆模块,并采用两阶段检索机制:先按语义相关性筛选候选记忆,再基于学习到的Q值(效用)进行选择。这些效用值通过环境反馈以试错方式持续优化,使智能体能从相似噪声中识别高价值策略。在HLE、BigCodeBench、ALFWorld和Lifelong Agent Bench上的实验表明,MemRL显著优于当前最先进基线。分析实验证实其有效调和了稳定性-可塑性困境,实现无需权重更新的持续运行时改进。
情景记忆 强化学习
论文核心提出基于情景记忆的强化学习框架MemRL,直接聚焦Agent Memory机制。
SimpleMem: Efficient Lifelong Memory for LLM Agents
Jiaqi Liu, Yaofeng Su, Peng Xia, Siwei Han, Zeyu Zheng et al.
Peng Xia (UNC-Chapel Hill)
10/10 2026-01-05 cs.AI PDF
为支持大语言模型(LLM)智能体在复杂环境中进行可靠的长期交互,需构建能高效管理历史经验的记忆系统。现有方法或通过被动扩展上下文保留完整交互历史,导致严重冗余;或依赖迭代推理过滤噪声,带来高昂的token开销。为此,本文提出SimpleMem——一种基于语义无损压缩的高效记忆框架,包含三个阶段:(1) 语义结构化压缩,利用熵感知过滤将非结构化交互提炼为紧凑、多视角索引的记忆单元;(2) 递归记忆整合,异步地将相关单元融合为更高层抽象表示以减少冗余;(3) 自适应查询感知检索,根据查询复杂度动态调整检索范围,高效构建精准上下文。实验表明,该方法在准确率、检索效率和推理成本方面均显著优于基线,F1平均提升26.4%,推理token消耗最多降低30倍。
LLM Agent Memory System
论文聚焦LLM Agent的终身记忆机制,提出高效记忆系统SimpleMem。
Code
Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents
Yi Yu, Liuyi Yao, Yuexiang Xie, Qingquan Tan, Jiaqi Feng et al.
10/10 2026-01-05 cs.CL PDF
大语言模型(LLM)智能体因上下文窗口有限,在长时程推理中面临根本性限制,高效记忆管理至关重要。现有方法通常将长期记忆(LTM)与短期记忆(STM)作为独立组件处理,依赖启发式规则或辅助控制器,限制了适应性与端到端优化。本文提出Agentic Memory(AgeMem),一种将LTM与STM管理直接融入智能体策略的统一框架。AgeMem将记忆操作建模为基于工具的动作,使LLM智能体能自主决定何时及如何存储、检索、更新、摘要或丢弃信息。为训练此类统一行为,作者设计了三阶段渐进式强化学习策略,并提出逐步GRPO算法以应对记忆操作带来的稀疏与不连续奖励。在五个长时程基准上的实验表明,AgeMem在多种LLM主干上均显著优于强基线,提升了任务性能、长期记忆质量及上下文使用效率。
LLM Agent Memory Management
论文标题与内容均聚焦于LLM Agent的统一长短期记忆管理机制。
EverMemOS: A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning
Chuanrui Hu, Xingze Gao, Zuyi Zhou, Dannong Xu, Yi Bai et al.
10/10 2026-01-05 cs.AI PDF
大型语言模型(LLMs)日益被部署为长期交互式智能体,但其有限的上下文窗口难以维持长时间交互中的一致行为。现有记忆系统通常存储孤立记录并检索片段,难以整合动态演化的用户状态与解决冲突。本文提出EverMemOS——一种受记忆印迹(engram)启发的自组织记忆操作系统。其包含三个核心阶段:情景痕迹形成将对话流转化为包含情景痕迹、原子事实和时限性前瞻信号的MemCells;语义巩固将MemCells组织为主题性MemScenes,提炼稳定语义结构并更新用户画像;重构式回忆基于MemScene引导智能体检索,组合下游推理所需的充分必要上下文。在LoCoMo和LongMemEval上的实验表明,EverMemOS在记忆增强推理任务中达到最先进性能,并通过PersonaMem v2画像研究与案例分析展示了其在用户建模与前瞻能力方面的优势。
Agent Memory Memory Operating System
论文提出专用于LLM Agent的自组织记忆操作系统,核心聚焦记忆机制。
Code
Improving Multi-step RAG with Hypergraph-based Memory for Long-Context Complex Relational Modeling
Chulun Zhou, Chunkang Zhang, Guoxin Yu, Fandong Meng, Jie Zhou et al.
10/10 2025-12-30 cs.CL PDF
多步检索增强生成(RAG)广泛用于提升大语言模型在需全局理解与深度推理任务中的表现。现有RAG系统虽引入工作记忆模块整合检索信息,但其记忆设计多为被动存储,仅累积孤立事实,忽视高阶关联,导致推理碎片化与全局理解能力弱。本文提出HGMem——一种基于超图的记忆机制,将记忆从静态存储拓展为支持复杂推理的动态表达结构。该机制以超图表示记忆,超边对应记忆单元,逐步构建高阶交互,围绕核心问题融合事实与思考,形成情境化知识结构,为后续推理提供强命题支持。在多个全局理解基准上的实验表明,HGMem显著优于强基线系统。
超图记忆 多步RAG
论文核心提出基于超图的Agent记忆机制HGMem,直接聚焦记忆结构创新。
Memento 2: Learning by Stateful Reflective Memory
Jun Wang
10/10 2025-12-27 cs.AI PDF
本文研究基于大语言模型(LLM)的智能体如何通过将情景记忆与强化学习相结合实现持续学习。聚焦于“反思”能力——即智能体重访过往经验并调整未来行动选择——作为无需微调模型权重即可持续适应的核心机制。为此,作者提出状态化反思决策过程(SRDP),其中智能体维护并更新情景记忆,并在写入新经验与读取相关案例以指导决策之间交替。该框架将反思记忆动态纳入决策过程本身,使其可被控制与分析。基于此,作者开发了读写反思学习算法,将其记忆检索机制融入软策略迭代过程,并证明其收敛性;同时表明随着记忆增长并更密集覆盖任务环境,所得策略趋近最优。该工作统一了基于记忆的推理与强化学习,为具备持续、经验驱动学习能力的LLM智能体提供了形式化基础。
反思记忆 情景记忆
论文核心研究反思性记忆机制及其在LLM智能体中的形式化与学习算法。
Beyond Heuristics: A Decision-Theoretic Framework for Agent Memory Management
Changzhi Sun, Xiangyu Chen, Jixiang Luo, Dell Zhang, Xuelong Li
10/10 2025-12-25 cs.CL PDF
外部记忆是现代大语言模型(LLM)系统的关键组件,支持长期交互与个性化。然而,当前记忆管理仍主要依赖人工设计的启发式规则,难以评估记忆决策在长期和不确定性下的影响。本文主张将记忆管理视为一个不确定性下的序贯决策问题,其中记忆效用具有延迟性且依赖于未来交互。为此,作者提出DAM(决策理论智能体记忆)框架,将记忆管理分解为即时信息访问与分层存储维护两部分,并通过价值函数与不确定性估计器评估候选操作,从而基于长期效用与风险制定聚合策略。本文贡献并非新算法,而是一种原则性重构,揭示了启发式方法的局限,并为未来不确定性感知的记忆系统研究奠定基础。
Agent Memory Decision Theory
论文聚焦Agent Memory管理机制,提出决策理论框架,属核心研究。
MemEvolve: Meta-Evolution of Agent Memory Systems
Guibin Zhang, Haotian Ren, Chong Zhan, Zhenhong Zhou, Junhao Wang et al.
10/10 2025-12-21 cs.CL PDF
自演化记忆系统正在前所未有地重塑基于大语言模型(LLM)的智能体进化范式。以往工作主要依赖人工设计的记忆架构来存储轨迹、提炼经验并合成可复用工具,使智能体能在环境交互中实时进化。然而,该范式受限于记忆系统本身的静态性:尽管记忆促进智能体层面的演化,其底层架构却无法针对不同任务上下文进行元适应。为此,本文提出MemEvolve——一种元演化框架,联合优化智能体的经验知识与其记忆架构,使其不仅能积累经验,还能持续改进学习方式。为夯实研究基础并推动开放性,我们构建了EvolveLab,一个统一的自演化记忆代码库,将十二种代表性记忆系统抽象为模块化设计空间(编码、存储、检索、管理),提供标准化实现与公平实验平台。在四个具挑战性的智能体基准上的大量实验表明,MemEvolve不仅显著提升性能(如SmolAgent和Flash-Searcher最高提升17.06%),还展现出强大的跨任务与跨LLM泛化能力。
Agent Memory Meta-Evolution
论文核心聚焦于Agent Memory架构的元演化机制,标题与内容均明确围绕记忆系统展开。
CogMem: A Cognitive Memory Architecture for Sustained Multi-Turn Reasoning in Large Language Models
Yiran Zhang, Jincheng Hu, Mark Dras, Usman Naseem
10/10 2025-12-16 cs.CL PDF
大语言模型(LLMs)在单轮推理中表现优异,但在长时间、多轮交互中常出现准确性与连贯性下降的问题。近期评估基准如TurnBench揭示了反复出现的失败模式,包括推理偏差、任务漂移、幻觉、过度自信和记忆衰减。现有方法通常直接拼接完整对话历史,导致上下文无界增长、计算开销增加及推理效率下降。本文提出CogMem——一种受认知科学启发的记忆增强型LLM架构,通过结构化、持久化的记忆支持持续迭代推理。CogMem包含三层:长期记忆(LTM)用于跨会话推理策略整合;直接访问(DA)记忆维护会话级笔记并检索相关长期记忆;注意力焦点(FoA)机制在每轮动态重构简洁、任务相关的上下文。在TurnBench上的实验表明,该分层设计有效缓解推理失败、控制上下文膨胀,并提升长推理链的一致性,推动LLM实现更可靠、类人的推理能力。
认知记忆 多轮推理
论文提出专用于LLM多轮推理的认知记忆架构CogMem,核心聚焦记忆机制设计。
Hindsight is 20/20: Building Agent Memory that Retains, Recalls, and Reflects
Chris Latimer, Nicoló Boschi, Andrew Neeser, Chris Bartholomew, Gaurav Srivastava et al.
10/10 2025-12-14 cs.CL PDF
智能体记忆被视为基于大语言模型应用的重要发展方向,可使智能体积累经验、跨会话适应并超越单次问答。当前记忆系统多将记忆视为外部层,从对话中提取关键片段并存入向量或图数据库,再检索至提示中。然而,这类方法难以区分证据与推断、长期组织信息能力有限,且缺乏对可解释推理的支持。本文提出Hindsight架构,将记忆建模为支持推理的一等结构,划分为事实、经验、实体摘要与信念四个逻辑网络,并支持保留(retain)、回忆(recall)和反思(reflect)三大操作。实验表明,该方法在LongMemEval和LoCoMo等长程记忆基准上显著优于全上下文基线及GPT-4o。
Agent Memory Structured Memory
论文核心聚焦于LLM Agent Memory架构设计与机制创新。
Memoria: A Scalable Agentic Memory Framework for Personalized Conversational AI
Samarth Sarin, Lovepreet Singh, Bhaskarjit Sarmah, Dhagash Mehta
10/10 2025-12-14 cs.AI PDF
智能体记忆正成为大语言模型(LLM)在长期用户交互中维持连续性、个性化和上下文感知的关键能力,是实现真正交互式与自适应智能体的核心。本文提出Memoria——一种模块化记忆框架,通过持久、可解释且富含上下文的记忆机制增强基于LLM的对话系统。Memoria融合了动态会话级摘要与基于加权知识图谱的用户建模引擎,后者以结构化实体与关系形式增量捕获用户特征、偏好及行为模式。该混合架构在现代LLM的token限制下,兼顾短期对话连贯性与长期个性化。实验表明,Memoria有效弥合了无状态LLM接口与智能体记忆系统之间的鸿沟,为需自适应演进用户体验的工业应用提供了实用方案。
智能体记忆 个性化对话系统
论文聚焦于Agent Memory架构设计,标题与内容均以记忆机制为核心。
Unifying Dynamic Tool Creation and Cross-Task Experience Sharing through Cognitive Memory Architecture
Jiarun Liu, Shiyue Xu, Yang Li, Shangkun Liu, Yongli Yu et al.
10/10 2025-12-12 cs.CL PDF
大语言模型智能体在适应新任务时面临工具可用性与经验复用的挑战。现有方法或依赖覆盖有限的预定义工具,或从零构建工具而忽视过往经验,导致探索效率低下与性能欠佳。本文提出SMITH(共享记忆集成工具中心),一种统一的认知架构,通过分层记忆组织无缝整合动态工具创建与跨任务经验共享。SMITH将智能体记忆划分为程序性、语义性和情景性三部分,支持系统化能力扩展并保留成功执行模式。该方法将工具创建形式化为受控沙箱环境中的迭代代码生成,并通过语义相似性匹配的情景记忆检索实现经验共享。此外,作者提出基于智能体集成难度重估的课程学习策略。在GAIA基准上的大量实验表明,SMITH以81.8%的Pass@1准确率显著优于Alita(75.2%)和Memento(70.9%)等前沿基线,为构建能通过工具创建与经验积累持续进化的自适应智能体奠定基础。
认知架构 分层记忆
论文提出基于分层记忆架构的认知系统,核心聚焦于Agent Memory机制。
IntentCUA: Learning Intent-level Representations for Skill Abstraction and Multi-Agent Planning in Computer-Use Agents
Seoyoung Lee, Seobin Yoon, Seongbeen Lee, Yoojung Chun, Dayoung Park et al.
9/10 2026-02-19 cs.AI PDF
计算机使用代理在噪声感知、多窗口上下文和动态环境状态中执行长期任务。现有方法如基于强化学习的规划器或轨迹检索,往往偏离用户意图并重复解决常规子问题,导致误差累积和效率低下。本文提出IntentCUA,一种多代理计算机使用框架,通过意图对齐的计划记忆稳定长期执行。规划器、计划优化器和批评者通过共享内存协作,将原始交互轨迹抽象为多视角意图表示和可重用技能。运行时,意图原型检索子组对齐的技能并注入部分计划,减少冗余重新规划并缓解桌面应用中的误差传播。端到端评估显示,IntentCUA的任务成功率为74.83%,步骤效率比为0.91,优于基于强化学习和轨迹中心的基线方法。消融实验表明,多视角意图抽象和共享计划记忆共同提升了执行稳定性,合作多代理循环在长期任务中效果最佳。这些结果突显了系统级意图抽象和基于记忆的协调对于大型动态环境中可靠且高效的桌面自动化的重要性。
Agent Memory 多代理系统 意图表示 桌面自动化
论文核心围绕意图对齐的计划记忆机制,明确涉及Agent Memory的设计与应用。
MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks
Zexue He, Yu Wang, Churan Zhi, Yuanzhe Hu, Tzu-Ping Chen et al.
9/10 2026-02-18 cs.CL PDF
现有对具有记忆能力的智能体的评估通常单独考察记忆和行动。一类基准通过测试过去对话或文本的回忆来评估记忆,但未能体现记忆如何引导未来决策;另一类则专注于单次会话任务,无需长期记忆。然而,在现实场景中,记忆与行动紧密耦合:智能体在与环境交互过程中获取记忆,并依靠该记忆解决后续任务。为此,我们引入了MemoryArena,一个统一的评估框架,用于在多会话的智能体-环境循环中评估智能体的记忆能力。该基准包含由人工设计的智能体任务,其中子任务相互依赖,智能体必须从早期行动和反馈中提取经验并存储到记忆中,再利用这些记忆指导后续行动以完成整体任务。MemoryArena支持网页导航、偏好约束规划、渐进信息搜索和顺序形式推理等任务的评估,并揭示出当前在长上下文记忆基准(如LoCoMo)上表现接近饱和的智能体,在本研究的智能体设置中表现较差,暴露出当前对具有记忆能力的智能体评估的不足。
Agent Memory Benchmark Multi-Session Tasks Long-Context Learning
论文核心聚焦于Agent Memory的评估,提出MemoryArena基准测试,直接针对多会话任务中的记忆机制。
Revolutionizing Long-Term Memory in AI: New Horizons with High-Capacity and High-Speed Storage
Hiroaki Yamanaka, Daisuke Miyashita, Takashi Toi, Asuka Maki, Taiga Ikeda et al.
9/10 2026-02-18 cs.AI PDF
本文以“用记忆提升世界”为使命,探讨了实现人工超级智能(ASI)所必需的“记忆”设计概念。不同于提出新方法,我们重点分析了几种潜在有益但尚未充分探索的替代方案。当前主流范式是“先提取后存储”,即从经验中提取被认为有用的信息并仅保存提取内容,但这种方法存在信息丢失的风险。相比之下,我们强调“先存储后按需提取”的方法,旨在保留原始经验,并根据需要灵活应用于不同任务,从而避免信息损失。此外,我们还提出了两个进一步的方法:从大量概率性经验中发现更深层次的见解,以及通过共享存储的经验来提高经验收集效率。尽管这些方法看似有效,我们的简单实验表明确实如此。最后,我们讨论了限制这些有前景方向研究的主要挑战,并提出了相关研究课题。
长期记忆 AI记忆架构 经验存储 知识提取 人工超级智能
论文核心聚焦于长期记忆机制,提出存储后按需提取等创新方法,明确涉及Agent Memory。
Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections
Xianglin Yang, Yufei He, Shuo Ji, Bryan Hooi, Jin Song Dong
9/10 2026-02-17 cs.CR PDF
自我演进的LLM代理通过跨会话更新其内部状态,通常通过写入和重用长期记忆来实现。这种设计虽然提升了长时任务的性能,但也带来了安全隐患:在良性会话中观察到的不可信外部内容可能被存储为记忆,并在后续作为指令使用。本文研究了这一风险,并形式化了一种称为“僵尸代理”的持久性攻击,攻击者通过隐蔽植入有效载荷,使其跨会话存活,从而将代理转化为攻击者的傀儡。我们提出了一种仅需通过攻击者控制的网络内容进行间接暴露的黑盒攻击框架。该攻击分为两个阶段:感染阶段中,代理在完成良性任务时读取受污染的源并将其有效载荷写入长期记忆;触发阶段中,有效载荷被检索或携带并导致未经授权的工具行为。我们为常见的记忆实现(如滑动窗口和检索增强型记忆)设计了特定的持久策略,以抵抗截断和相关性过滤。我们在代表性代理设置和任务上评估了该攻击,测量了随时间推移的持久性以及在保持良性任务质量的同时诱导未经授权行为的能力。结果表明,记忆演化可以将一次性间接注入转化为持久性妥协,这表明仅依赖于每会话提示过滤的防御措施对于自我演进代理是不够的。
Agent Memory Security Attack LLM Long-term Memory Persistent Injection
论文核心研究LLM Agent的长期记忆机制及其安全风险,直接涉及Memory的设计与攻击。
VLM-DEWM: Dynamic External World Model for Verifiable and Resilient Vision-Language Planning in Manufacturing
Guoqin Tang, Qingxuan Jia, Gang Chen, Tong Li, Zeyuan Huang et al.
9/10 2026-02-17 cs.RO PDF
视觉语言模型(VLM)在智能制造中的高层规划中展现出潜力,但其在动态工作单元中的部署面临两个关键挑战:(1)无状态操作,无法持续跟踪视野外的状态,导致世界状态漂移;(2)推理不透明,故障难以诊断,导致代价高昂的盲目重试。本文提出了VLM-DEWM,一种认知架构,通过可持久化、可查询的动态外部世界模型(DEWM)将VLM推理与世界状态管理解耦。每个VLM决策被结构化为一个可外部化的推理轨迹(ERT),包括动作建议、世界信念和因果假设,并在执行前与DEWM进行验证。当发生故障时,预测状态与观测状态之间的差异分析能够实现针对性恢复,而非全局重新规划。我们在多工位装配、大规模设施探索和真实机器人恢复任务中评估了VLM-DEWM。与基线记忆增强型VLM系统相比,VLM-DEWM将状态跟踪准确率从56%提升至93%,恢复成功率从低于5%提升至95%,并通过结构化记忆显著降低了计算开销。这些结果确立了VLM-DEWM作为动态制造环境中长期机器人操作的可验证且鲁棒的解决方案。
Agent Memory Vision-Language Model Dynamic World Modeling Robotic Planning Manufacturing Automation
论文核心提出动态外部世界模型(DEWM)作为记忆系统,用于解决VLM在制造环境中的状态跟踪与恢复问题。
Improving MLLMs in Embodied Exploration and Question Answering with Human-Inspired Memory Modeling
Ji Li, Jing Xia, Mingyi Li, Shiyan Hu
9/10 2026-02-17 cs.RO PDF
将多模态大语言模型(MLLMs)部署为具身智能体的大脑仍面临挑战,尤其是在长期观察和有限上下文预算的情况下。现有基于记忆的方法通常依赖文本摘要,忽略了丰富的视觉和空间细节,并在非平稳环境中表现脆弱。本文提出了一种非参数化的记忆框架,明确区分情景记忆和语义记忆,用于具身探索和问答任务。该方法首先通过语义相似性检索情景经验,并通过视觉推理验证,从而实现无需严格几何对齐的过去观察的鲁棒重用。同时,我们引入一种程序式规则提取机制,将经验转化为结构化的、可复用的语义记忆,促进跨环境泛化。大量实验表明,在具身问答和探索基准测试中,我们的方法取得了最先进的性能,A-EQA上LLM-Match提升了7.3%,LLM MatchXSPL提升了11.4%,GOAT-Bench上的成功率和SPL分别提高了7.7%和6.8%。分析表明,情景记忆主要提升了探索效率,而语义记忆增强了具身智能体的复杂推理能力。
Agent Memory 具身智能体 多模态大语言模型 语义记忆 情景记忆
论文核心聚焦于Agent Memory机制,提出非参数化记忆框架并区分情景记忆与语义记忆。
Panini: Continual Learning in Token Space via Structured Memory
Shreyas Rajesh, Pavan Holur, Mehmet Yigit Turali, Chenda Duan, Vwani Roychowdhury
9/10 2026-02-16 cs.AI PDF
语言模型越来越多地用于推理其未训练过的内容,如新文档、演变知识和用户特定数据。一种常见方法是检索增强生成(RAG),它将原文档外部存储为块,并在推理时仅检索相关子集供LLM进行推理。然而,这导致测试时计算效率低下(LLM反复推理相同文档);此外,块检索可能引入无关上下文,增加不支持的生成。我们提出了一种类人非参数持续学习框架,其中基础模型保持不变,学习通过将每个新经验整合到一个外部语义记忆状态中实现,该状态不断积累并巩固自身。我们提出了Panini,通过将文档表示为生成性语义工作区(GSW)——一个实体和事件感知的问题-答案对网络,足以使LLM重建经历的情境并通过基于推理的推理链挖掘潜在知识。给定查询,Panini仅遍历持续更新的GSW(而非原文档或块),并检索最可能的推理链。在六个QA基准测试中,Panini实现了最高的平均性能,比其他竞争基线高出5%-7%,同时使用更少的答案-上下文标记,支持完全开源流程,并减少了在精选不可回答查询上的不支持答案。结果表明,在写入时高效且准确地构建经验(如GSW框架所实现的)在读取时带来了效率和可靠性的提升。
持续学习 语义记忆 检索增强生成 知识推理 LLM系统
论文核心围绕结构化记忆机制展开,提出基于语义记忆的持续学习框架,直接涉及Agent Memory的核心研究。
Code
AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories
Zun Wang, Han Lin, Jaehong Yoon, Jaemin Cho, Yue Zhang et al.
9/10 2026-02-16 cs.CV PDF
在长时域可控相机视频生成中,保持空间世界一致性仍是一个核心挑战。现有基于记忆的方法通常依赖于从历史重建的全局3D场景进行锚定视频渲染,但多视角重建不可避免地引入跨视角对齐误差,导致几何噪声并影响生成质量。本文提出AnchorWeave,一种增强记忆的视频生成框架,用多个干净的局部几何记忆替代单一不一致的全局记忆,并学习协调其跨视角不一致性。该方法通过覆盖驱动的局部记忆检索与目标轨迹对齐,并通过多锚点编织控制器整合所选局部记忆。大量实验表明,AnchorWeave显著提升了长期场景一致性,同时保持了高质量的视觉效果,消融分析进一步验证了局部几何条件、多锚点控制和覆盖驱动检索的有效性。
Agent Memory 视频生成 局部记忆 3D重建 跨视角对齐
论文核心围绕基于记忆的视频生成框架,提出局部几何记忆机制以解决全局一致性问题。
Code
Neuromem: A Granular Decomposition of the Streaming Lifecycle in External Memory for LLMs
Ruicheng Zhang, Xinyi Li, Tianyi Xu, Shuhao Zhang, Xiaofei Liao et al.
9/10 2026-02-15 cs.AI PDF
大多数对外部记忆模块的评估假设静态设置:记忆在离线状态下构建,并在固定状态下查询。实际上,记忆是流式的:新事实持续到达,插入与检索交替进行,记忆状态在模型处理查询时不断演变。在这种情况下,准确性和成本由完整的记忆生命周期决定,包括信息的摄入、维护、检索和生成集成。本文提出了Neuromem,一个可扩展的测试平台,用于在交错插入和检索协议下评估外部记忆模块,并将其生命周期分解为五个维度,包括记忆数据结构、归一化策略、巩固策略、查询公式策略和上下文集成机制。通过LOCOMO、LONGMEMEVAL和MEMORYAGENTBENCH三个代表性数据集,Neuromem在共享服务栈中评估了可互换的变体,报告了词级F1和插入/检索延迟。总体来看,我们发现随着轮次增加,记忆性能通常下降,时间相关查询仍是最具挑战性的类别。记忆数据结构在很大程度上决定了可达到的质量边界,而激进的压缩和生成集成机制主要在插入和检索之间转移成本,但准确性提升有限。
LLM External Memory Memory Lifecycle Insertion-Retrieval Protocol Evaluation Framework
论文聚焦于LLM的外部记忆模块,提出Neuromem系统并分析其生命周期,属于Agent Memory核心研究。
AllMem: A Memory-centric Recipe for Efficient Long-context Modeling
Ziming Wang, Xiang Wang, Kailong Peng, Lang Qin, Juan Gabriel Kostelec et al.
9/10 2026-02-14 cs.AI PDF
大型语言模型(LLMs)在长序列任务中面临显著的性能瓶颈,这源于自注意力机制固有的计算复杂性和内存开销。为解决这些问题,我们提出了一种新颖且高效的混合架构AllMem,该架构结合了滑动窗口注意力(SWA)与非线性测试时训练(TTT)记忆网络。AllMem使模型能够有效扩展到超长上下文,同时减轻灾难性遗忘问题。这种方法不仅克服了线性记忆模型的表示限制,还显著减少了长序列推理过程中的计算和内存占用。此外,我们实现了一种内存高效的微调策略,用记忆增强的滑动窗口层替换预训练模型中的标准注意力层。这一框架使得任何现成的预训练LLM都能高效地转换为基于AllMem的架构。实证评估表明,我们的4k窗口模型在37k LongBench上几乎无损失,仅比全注意力模型下降0.83。此外,在128k上下文的InfiniteBench上,我们的8k窗口变体优于全注意力模型,验证了我们参数化记忆在降低噪声并保持鲁棒长距离建模方面的有效性,而无需全局注意力的高昂成本。
长上下文建模 记忆增强 滑动窗口注意力 测试时训练 模型微调
论文核心聚焦于基于记忆的长上下文建模架构,明确涉及Memory机制与系统设计。
TRACE: Temporal Reasoning via Agentic Context Evolution for Streaming Electronic Health Records (EHRs)
Zhan Qu, Michael Färber
9/10 2026-02-13 cs.LG PDF
大型语言模型(LLMs)虽然包含丰富的医学知识,但在处理长期患者轨迹时表现不佳,因为临床状态的演变、时间不规则性和异构事件会随着时间推移降低性能。现有的适应策略依赖于微调或检索增强,这引入了计算开销、隐私限制或长上下文下的不稳定性。本文提出TRACE(Temporal Reasoning via Agentic Context Evolution),一种通过显式结构化和维护上下文而非扩展上下文窗口或更新参数来实现时间临床推理的框架。TRACE采用双记忆架构,包括静态的全局协议(编码机构临床规则)和动态的个体协议(跟踪患者特定状态)。四个智能体组件——路由器、推理器、审计员和管家——在该结构化内存上协调工作,以支持时间推理和状态演化。该框架通过结构化状态压缩和选择性审计关键临床决策来保持有限的推理成本。在MIMIC-IV的纵向临床事件流上评估,TRACE在长期上下文和检索增强基线中显著提高了下一次事件预测准确性、协议遵循度和临床安全性,并生成可解释和可审计的推理轨迹。
Agent Memory 医疗AI 时间推理 结构化记忆 智能体系统
论文核心提出TRACE框架,基于双记忆架构和代理组件实现动态上下文维护与推理。
VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph
Qiuchen Wang, Shihang Wang, Yu Zeng, Qiang Zhang, Fanrui Zhang et al.
9/10 2026-02-13 cs.CV PDF
有效检索、推理和理解多模态信息仍然是智能体系统的关键挑战。传统的检索增强生成(RAG)方法依赖于线性交互历史,难以处理长上下文任务,尤其是在迭代推理场景中涉及信息稀疏但token密集的视觉数据时表现不佳。为弥补这一差距,我们提出VimRAG,一个专门用于跨文本、图像和视频的多模态检索增强推理框架。受系统研究启发,我们将推理过程建模为动态有向无环图,以结构化智能体状态和检索到的多模态证据。基于该结构化记忆,我们引入了图调节的视觉记忆编码机制,通过节点拓扑位置评估记忆重要性,使模型能够动态分配高分辨率token给关键证据,同时压缩或丢弃无关线索。为实现此范式,我们提出了一种图引导的策略优化方法,通过剪枝冗余动作相关的记忆节点,分离步骤级有效性与轨迹级奖励,从而实现细粒度的信用分配。大量实验表明,VimRAG在多种多模态RAG基准测试中始终达到最先进水平。
多模态记忆 检索增强生成 图神经网络 智能体记忆
论文核心围绕多模态记忆图构建与视觉记忆编码机制,直接涉及Agent Memory的创新设计。
Code
The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context
Xiaoyuan Liu, Tian Liang, Dongyang Ma, Deyu Zhou, Haitao Mi et al.
9/10 2026-02-12 cs.AI PDF
在《哈利·波特》的世界中,当邓布利多的思维负担过重时,他会将记忆提取到一个名为Pensieve的装置中以备日后回顾。在人工智能领域,尽管我们拥有成熟的数据库和检索系统,但模型却缺乏操作这些系统的‘魔杖’,只能被动接受人工构建的上下文作为其全部记忆。本文最终将‘魔杖’交还给模型本身。我们引入了一种新的基础模型类——StateLM,该模型配备了内部推理循环以管理自身状态。我们为模型配备了包括上下文剪枝、文档索引和笔记记录等一套记忆工具,并训练其主动管理这些工具。通过学习动态地构建自己的上下文,模型摆脱了固定窗口架构的限制。在不同规模模型上的实验表明,StateLM在各种场景下均表现出色。在长文档问答任务中,StateLM在所有模型规模上均优于标准LLM;在聊天记忆任务中,其准确率绝对提升了10%至20%;在深度研究任务BrowseComp-Plus中,性能差距更加显著:StateLM达到52%的准确率,而标准LLM仅能达到约5%。最终,我们的方法使LLM从被动预测器转变为具有状态感知能力的智能体,推理过程成为一种可管理的状态化流程。
Agent Memory StateLM Context Management Language Model
论文核心聚焦于模型自主管理记忆机制,提出StateLM并引入多种记忆工具。
RAM-Net: Expressive Linear Attention with Selectively Addressable Memory
Kaicheng Xiao, Haotian Li, Liran Dong, Guoliang Xing
9/10 2026-02-12 cs.LG PDF
尽管线性注意力架构能够提供高效的推理能力,但将无限历史压缩到固定大小的记忆中会限制其表达能力和导致信息丢失。为了解决这一问题,本文提出了一种名为随机存取记忆网络(RAM-Net)的新架构,旨在弥合全注意力模型的表示能力和线性模型的记忆效率之间的差距。RAM-Net的核心设计是将输入映射到高维稀疏向量作为显式地址,使模型能够选择性地访问大规模记忆状态。该设计在不增加额外参数的情况下实现了状态规模的指数级扩展,显著减少了信号干扰并提高了检索精度。此外,固有的稀疏性确保了卓越的计算效率,因为状态更新仅限于最小条目。大量实验表明,RAM-Net在细粒度长距离检索任务中始终优于最先进的基线模型,并在标准语言建模和零样本常识推理基准测试中表现出竞争力,验证了其在显著降低计算开销的同时捕捉复杂依赖关系的能力。
Agent Memory 线性注意力 稀疏表示 可寻址记忆 高效计算
论文核心聚焦于设计新型记忆架构RAM-Net,直接涉及Agent Memory机制与实现。
Scene-Aware Memory Discrimination: Deciding Which Personal Knowledge Stays
Yijie Zhong, Mengying Guo, Zewei Wang, Zhongyang Li, Dandan Tu et al.
9/10 2026-02-12 cs.CL PDF
智能设备已深度融入日常生活,产生了大量用户交互数据,这些数据构成了有价值的个人知识。如何高效地组织这些知识以支持个性化应用至关重要。然而,当前基于大语言模型(LLMs)的记忆写入、管理和读取研究在过滤无关信息和应对计算成本上升方面面临挑战。受人类大脑选择性注意机制的启发,本文引入了记忆区分任务。为应对大规模交互和多样化的记忆标准,我们提出了场景感知记忆区分方法(SAMD),包含两个关键模块:门控单元模块(GUM)和聚类提示模块(CPM)。GUM通过过滤非记忆性交互并聚焦于最相关的显著内容来提升处理效率;CPM则建立自适应记忆标准,指导LLMs判断哪些信息应被记住或丢弃,并分析用户意图与记忆上下文之间的关系以构建有效的聚类提示。全面的直接和间接评估验证了该方法的有效性和泛化能力。独立评估显示,SAMD能够成功召回大部分可记忆数据,并在动态场景中保持鲁棒性。此外,当集成到个性化应用中时,SAMD显著提升了记忆构建的效率和质量,从而更好地组织个人知识。
Agent Memory LLM Memory Management Selective Attention Personalized Applications
论文核心聚焦于Agent Memory的筛选与管理机制,提出SAMD方法,直接针对记忆存储与过滤问题。
TS-Memory: Plug-and-Play Memory for Time Series Foundation Models
Sisuo Lyu, Siru Zhong, Tiegang Chen, Weilin Ruan, Qingxiang Liu et al.
Sisuo Lyu (The Hong Kong University ofScience and Technology (Guangzhou)GuangzhouChina) | Siru Zhong (The Hong Kong University ofScience and Technology (Guangzhou)GuangzhouChina) | Tiegang Chen (TencentShenzhenChina)
9/10 2026-02-12 cs.LG PDF
时间序列基础模型(TSFMs)通过大规模预训练实现了强大的零样本预测能力,但在分布偏移下适应下游领域仍具挑战性。现有解决方案面临权衡:参数化适配会导致灾难性遗忘并需要高昂的多领域维护成本,而非参数化检索虽能提升预测效果,但因数据存储搜索带来高推理延迟。本文提出参数化记忆蒸馏方法,并实现为TS-Memory,一种轻量级的记忆适配器,用于增强冻结的TSFMs。TS-Memory分为两个阶段进行训练:首先构建一个离线且无泄漏的kNN教师模型,从检索到的未来数据中合成置信度感知的分位数目标;其次通过置信度门控监督,将检索诱导的分布校正蒸馏至轻量记忆适配器中。在推理过程中,TS-Memory以常数时间开销融合记忆与主干网络的预测结果,实现无需检索的部署。实验表明,在多种TSFMs和基准测试中,TS-Memory在点预测和概率预测方面均优于代表性适配方法,且效率与冻结主干相当。
时间序列模型 记忆模块 模型适配 知识蒸馏 非参数检索
论文标题和内容明确围绕Memory设计,提出TS-Memory作为核心方法,属于Agent Memory机制研究。
Predictive Associative Memory: Retrieval Beyond Similarity Through Temporal Co-occurrence
Jason Dury
9/10 2026-02-11 cs.LG PDF
当前神经系统的记忆方法依赖于基于相似性的检索:给定一个查询,找到最表征相似的存储状态。这一假设未能捕捉生物记忆的一个基本特性——通过时间共现进行联想。本文提出了一种名为预测性联想记忆(PAM)的架构,其中一种JEPA风格的预测器通过连续体验流中的时间共现进行训练,从而学习在嵌入空间中导航联想结构。我们引入了一个Inward JEPA,用于处理存储的经验(预测联想可达的过去状态),作为标准Outward JEPA(处理传入感官数据,预测未来状态)的补充。我们将PAM作为联想回忆系统进行评估,测试其对已体验联想的回忆准确性,而非泛化到未见联想的检索系统。在合成基准测试中,预测器的Top检索结果中有97%是真正的时间关联体;在余弦相似度为零的情况下,跨边界召回率达到了0.421;并且能够以0.916的AUC区分共同经历与从未共同经历的状态(余弦相似度为0.789)。即使限制在嵌入相似性无信息的跨房间配对中,预测器仍能取得0.849的AUC(余弦相似度为0.503,随机猜测为0.5)。时间打乱对照实验确认了信号源于真实的时间共现结构,而非嵌入几何:打乱后跨边界召回率下降90%,且结果在不同训练种子下稳定(SD < 0.006)。
Agent Memory Temporal Co-occurrence JEPA Associative Recall Embedding Space Navigation
论文直接提出并研究了Predictive Associative Memory(PAM)架构,核心聚焦于记忆的关联性与时间共现机制。
Code
Evaluating Memory Structure in LLM Agents
Alina Shutova, Alexandra Olenina, Ivan Vinogradov, Anton Sinitsin
9/10 2026-02-11 cs.LG PDF
现代基于LLM的代理和聊天助手依赖长期记忆框架来存储可重用的知识、回忆用户偏好并增强推理能力。随着研究人员构建更复杂的记忆架构,分析其能力和指导未来记忆设计变得愈发困难。目前大多数长期记忆基准主要关注简单事实保留、多跳回忆和时间变化等能力,这些能力通常可以通过简单的检索增强型LLM实现,并未测试复杂记忆层次结构。为弥补这一差距,我们提出了StructMemEval——一个用于测试代理组织其长期记忆能力的基准,而不仅仅是事实性回忆。我们收集了一系列任务,这些任务需要人类通过特定结构组织知识来解决,例如交易账本、待办事项列表、树形结构等。初步实验表明,简单的检索增强型LLM在这些任务中表现不佳,而如果提示如何组织记忆,记忆代理可以可靠地完成这些任务。然而,我们也发现现代LLM在未被提示时并不总是能够识别记忆结构。这突显了未来在LLM训练和记忆框架改进方面的重要方向。
LLM Agent 长期记忆 记忆结构 基准测试 检索增强
论文直接聚焦于LLM Agent的Memory结构评估,提出新的基准测试方法,属于核心Memory研究。
Locomo-Plus: Beyond-Factual Cognitive Memory Evaluation Framework for LLM Agents
Yifei Li, Weidong Guo, Lingling Zhang, Rongman Xu, Muye Huang et al.
9/10 2026-02-11 cs.CL PDF
长期对话记忆是基于LLM的对话系统的核心能力,但现有基准和评估协议主要关注表层事实性回忆。在实际交互中,适当回应往往依赖于隐式约束,如用户状态、目标或价值观,这些内容不会被后续显式查询。为此,我们引入了LoCoMo-Plus,一个用于评估在提示与语义断开情况下认知记忆的基准。我们进一步表明,传统的字符串匹配指标和显式任务类型提示与此类场景不一致,并提出了基于约束一致性的统一评估框架。实验结果表明,认知记忆仍然具有挑战性,并揭示了现有基准未能捕捉到的失败情况。我们的代码和评估框架已公开。
LLM Agent Cognitive Memory Evaluation Framework Constraint Consistency
论文明确聚焦于LLM Agent的认知记忆评估,提出新的框架和指标。
Code
UMEM: Unified Memory Extraction and Management Framework for Generalizable Memory
Yongshi Ye, Hui Jiang, Feihu Jiang, Tian Lan, Yichao Du et al.
9/10 2026-02-11 cs.CL PDF
自演进记忆作为基于大语言模型(LLMs)的智能体的可训练参数,其提取(从经验中提炼见解)和管理(更新记忆库)必须紧密协调。现有方法主要优化记忆管理,而将记忆提取视为静态过程,导致泛化能力差,智能体积累的是实例特定的噪声而非鲁棒记忆。为解决此问题,本文提出统一记忆提取与管理(UMEM)框架,联合优化大语言模型以同时进行记忆提取与管理。为缓解对具体实例的过拟合,引入语义邻域建模,并通过GRPO优化模型,以邻域级别的边际效用奖励确保记忆的泛化性。在五个基准上的广泛实验表明,UMEM显著优于高度竞争的基线方法,在多轮交互任务中最高提升达10.67%。此外,UMEM在持续演化过程中保持单调增长曲线。代码和模型将公开发布。
Agent Memory Self-evolving Memory Memory Management Semantic Neighborhood Modeling GRPO Optimization
论文标题和内容明确聚焦于Agent Memory的提取与管理机制,提出统一框架解决记忆泛化问题。
When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning
Leheng Sheng, Yongtao Zhang, Wenchang Ma, Yaorui Shi, Ting Huang et al.
9/10 2026-02-11 cs.CL PDF
尽管在长上下文中进行推理对许多现实应用至关重要,但随着上下文长度的增长,大型语言模型(LLMs)的性能会下降。近期的工作MemAgent尝试通过类似RNN的循环逐块处理上下文,并更新文本记忆以最终回答问题。然而,这种简单的递归记忆更新面临两个关键缺点:(i)记忆可能迅速膨胀,因为其可以无差别地更新,甚至在没有证据的块上;(ii)循环缺乏退出机制,导致即使收集到足够证据后仍进行不必要的计算。为了解决这些问题,我们提出了GRU-Mem,该方法引入了两个由文本控制的门控机制,以实现更稳定和高效的长上下文推理。具体而言,在GRU-Mem中,只有当更新门开启时才会更新记忆,而一旦退出门开启,循环将立即终止。为了赋予模型这些能力,我们在端到端强化学习中引入了两个奖励信号 $r^{ ext{update}}$ 和 $r^{ ext{exit}}$,分别奖励正确的更新和退出行为。在各种长上下文推理任务上的实验表明,GRU-Mem在效果和效率上均优于原始的MemAgent,推理速度加快高达400%。
Agent Memory Gated Recurrent Network Long-Context Reasoning Reinforcement Learning
论文核心研究基于记忆的门控机制,直接针对Agent Memory中的更新与退出问题。
Learning to Evict from Key-Value Cache
Luca Moschella, Laura Manduchi, Ozan Sener
Ozan Sener (Apple)
9/10 2026-02-10 cs.CL PDF
随着大型语言模型(LLMs)规模的增长,高效的推理变得具有挑战性,主要由于自回归键值(KV)缓存的内存需求。现有的淘汰或压缩方法虽然降低了成本,但依赖于启发式方法,如近期性或过去的注意力分数,这些方法仅作为未来令牌效用的间接代理,并引入了计算开销。我们将KV缓存淘汰重新定义为强化学习(RL)问题:通过预测未来解码中令牌的有用性来对令牌进行排序。为此,我们引入了KV策略(KVP),一种轻量级的每头RL代理框架,使用预计算的生成轨迹进行训练,仅使用键和值向量。每个代理学习一个由未来效用引导的专业化淘汰策略,评估所有缓存预算下的排序质量,无需修改底层LLM或额外推理。在长上下文基准RULER和多轮对话基准OASST2-4k上进行评估,KVP显著优于基线。此外,在标准下游任务(如LongBench、BOOLQ、ARC)上的零样本测试表明,KVP在其训练分布之外以及更长的上下文长度上具有良好的泛化能力。这些结果表明,学习预测未来令牌效用是适应性KV缓存管理的强大且可扩展范式。
KV缓存 强化学习 LLM推理优化 缓存淘汰策略
论文核心研究KV缓存的淘汰策略,属于Agent Memory机制的核心内容。
Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models
Shiting Huang, Zecheng Li, Yu Zeng, Qingnan Ren, Zhen Fang et al.
9/10 2026-02-10 cs.LG PDF
可验证奖励的强化学习(RLVR)已被证明是增强大型语言模型(LLMs)推理能力的有效方法。然而,RLVR面临元学习瓶颈:缺乏人类学习循环中除实践和验证之外的错误归因和经验内化机制,从而限制了细粒度信用分配和可重用知识的形成。我们将从过去错误中提取的可重用知识表示称为元经验。基于这一洞察,我们提出了元经验学习(MEL),一种新颖的框架,将自我蒸馏的元经验整合到模型的参数记忆中。在标准RLVR的基础上,我们引入了一种设计,利用LLM的自验证能力对正确与错误轨迹进行对比分析,识别推理错误产生的精确分叉点,并将其总结为可推广的元经验。通过最小化负对数似然,元经验进一步被内化到LLM的参数记忆中,从而产生一种连接正确与错误推理轨迹的语言建模奖励信号,促进有效的知识重用。实验结果表明,MEL在基准测试中实现了持续改进,在不同模型规模下Pass@1指标提升了3.92%至4.73%。
Agent Memory Reinforcement Learning Meta-Experience Large Language Models Self-Distillation
论文核心围绕LLM的Memory机制,提出将元经验内化到模型参数记忆中,属于Agent Memory的核心研究。
TraceMem: Weaving Narrative Memory Schemata from User Conversational Traces
Yiming Shu, Pei Liu, Tiange Zhang, Ruiyang Gao, Jun Ma et al.
Yiming Shu (The University of Hong KongHong KongChina) | Pei Liu (The Hong Kong University of Science and Technology (Guangzhou)GuangzhouChina) | Tiange Zhang (Nankai UniversityTianjinChina)
9/10 2026-02-10 cs.CL PDF
维持长期交互仍是大型语言模型(LLMs)的瓶颈,因其有限的上下文窗口难以处理随时间扩展的对话历史。现有记忆系统通常将交互视为离散片段,未能捕捉对话流的潜在叙事一致性。我们提出TraceMem,一个受认知启发的框架,通过三阶段流程从用户对话轨迹中编织结构化的叙事记忆模式:(1) 短期记忆处理,采用演绎主题分割方法划分情节边界并提取语义表示;(2) 突触记忆巩固,将情节总结为情景记忆,并将其与语义结合形成用户特定轨迹;(3) 系统记忆巩固,利用两阶段分层聚类将这些轨迹组织成具有统一主题的连贯、随时间演变的叙事线索。这些线索被封装为结构化的用户记忆卡片,形成叙事记忆模式。为实现记忆利用,我们提供了一种智能搜索机制以增强推理过程。在LoCoMo基准上的评估表明,TraceMem在脑启发式架构下实现了最先进的性能。分析显示,通过构建连贯的叙事,其在多跳和时间推理方面超越了基线,凸显了其在深度叙事理解中的关键作用。此外,我们还提供了对记忆系统的开放讨论,并提出了对该领域的观点和未来展望。
Agent Memory Narrative Coherence Dialogue History Management Memory Consolidation
论文核心围绕构建叙事记忆架构,提出TraceMem框架,明确涉及长期对话记忆管理与结构化存储。
Code
STaR: Scalable Task-Conditioned Retrieval for Long-Horizon Multimodal Robot Memory
Mingfeng Yuan, Hao Zhang, Mahan Mohammadi, Runhao Li, Jinjun Shan et al.
9/10 2026-02-09 cs.RO PDF
移动机器人通常在长时间跨度内部署于多样化的开放动态场景中,包括室内仓储和制造设施以及室外农业和道路作业环境。其核心挑战是构建一个可扩展的长时记忆系统,以支持代理式工作流进行规划、检索和推理,并针对开放指令生成精确的操作答案。本文提出STaR,一种代理推理框架,(i)构建了一个与任务无关的多模态长期记忆系统,能够泛化到未见过的查询并保留细粒度环境语义(如物体属性、空间关系和动态事件),(ii)引入了一种基于信息瓶颈原理的可扩展任务条件检索算法,从长期记忆中提取出紧凑、非冗余且信息丰富的候选记忆集用于上下文推理。我们在NaVQA(混合室内外校园场景)和WH-VQA(基于Isaac Sim构建的定制化仓库基准)上评估了STaR,强调上下文推理能力。在两个数据集上,STaR始终优于强基线,取得了更高的成功率和显著更低的空间误差。我们进一步在室内和室外环境中将STaR部署在真实的Husky轮式机器人上,展示了其在长时地平线推理、可扩展性和实用价值方面的鲁棒性。
Agent Memory 多模态记忆 任务条件检索 机器人导航 信息瓶颈
论文核心聚焦于构建长期多模态记忆系统及任务条件检索算法,直接涉及Agent Memory机制。
PABU: Progress-Aware Belief Update for Efficient LLM Agents
Haitao Jiang, Lin Ge, Hengrui Cai, Rui Song
9/10 2026-02-09 cs.AI PDF
大型语言模型(LLM)代理通常基于完整的动作-观察历史进行决策,这引入了与任务无关的信息,容易导致冗余动作和更高的推理成本。本文提出了一种名为Progress-Aware Belief Update(PABU)的信念状态框架,通过显式建模任务进度并选择性保留过去动作和观察,来紧凑地表示代理的状态。在每一步中,代理预测自上一轮以来的相对进度,并决定是否存储新遇到的交互,仅基于保留的子集进行未来决策。在AgentGym基准中的八个环境中,使用相同的训练轨迹,PABU实现了81.0%的任务完成率,比基于完整历史的最先进(SoTA)模型高出23.9%。此外,PABU的面向进度的动作选择提高了效率,将平均交互步骤数减少到9.5,减少了26.9%。消融研究表明,显式进度预测和选择性保留对于鲁棒的信念学习和性能提升都是必要的。
Agent Memory Belief State Efficient Inference LLM Agents
论文核心提出PABU记忆更新机制,直接针对Agent Memory优化,显著提升效率。
Learning to Remember, Learn, and Forget in Attention-Based Models
Djohan Bonnet, Jamie Lohoff, Jan Finkbeiner, Elidona Skhikerujah, Emre Neftci
9/10 2026-02-09 cs.LG PDF
在Transformer中,上下文学习(ICL)作为一种在线关联记忆机制,被认为是其在复杂序列处理任务中表现优异的基础。然而,在门控线性注意力模型中,这种记忆具有固定容量且容易受到干扰,尤其是在处理长序列时。本文提出Palimpsa,一种自注意力模型,将ICL视为一个需要解决稳定性-可塑性困境的持续学习问题。Palimpsa采用贝叶斯元可塑性机制,其中每个注意力状态的可塑性与其重要性状态相关联,而该重要性状态由反映累积知识的先验分布支撑。我们证明了多种门控线性注意力模型可以作为特定的架构选择和后验近似,并指出Mamba2是Palimpsa的一个特例,其中遗忘占主导地位。这一理论联系使得任何非元可塑模型都可以转化为元可塑模型,显著扩展其记忆容量。实验表明,Palimpsa在Multi-Query Associative Recall(MQAR)基准测试和常识推理任务上均优于基线方法。
Agent Memory Attention Mechanism Continual Learning Meta-plasticity
论文核心研究基于注意力机制的模型中记忆机制(ICL)的稳定性与可塑性问题,提出Palimpsa模型以增强记忆能力。
CompilerKV: Risk-Adaptive KV Compression via Offline Experience Compilation
Ning Yang, Chengzhi Wang, Yibo Liu, Baoliang Tian, Haijun Zhang
9/10 2026-02-09 cs.LG PDF
在长上下文场景下,大语言模型(LLMs)受到Key-Value(KV)缓存内存线性增长的严重限制。现有KV压缩方法依赖静态阈值和注意力启发式规则,或粗粒度的内存预算分配,在严格内存预算下忽视了两个关键因素:与提示相关的压缩风险变化以及不同注意力头的功能异质性,这导致了标记选择不稳定并引发尾部失败。为解决这些问题,本文提出CompilerKV,一种风险自适应且关注注意力头差异的压缩框架,通过将离线经验编译为可重用的决策表,仅用于预填充部署。CompilerKV整合了两个关键协同组件:(i) 通过离线上下文老虎机学习得到的注意力头异质性表,为每个注意力头分配特定可靠性权重以显式控制功能差异;(ii) 风险自适应阈值门控机制,联合建模注意力熵和局部困惑度,将提示级别的风险转化为可部署的保留阈值。LongBench实验表明,在512-token预算下,CompilerKV优于现有最先进方法,恢复了97.7%的FullKV性能,并比最强竞争者提升了高达5.2分。
KV压缩 Agent Memory 注意力机制 风险自适应 离线经验编译
论文聚焦KV缓存压缩,直接针对LLM中Memory管理的核心问题,提出风险自适应机制。
Stateless Yet Not Forgetful: Implicit Memory as a Hidden Channel in LLMs
Ahmed Salem, Andrew Paverd, Sahar Abdelnabi
9/10 2026-02-09 cs.LG PDF
大型语言模型(LLMs)通常被视为无状态的:一旦交互结束,除非显式存储并重新提供信息,否则不会假设任何信息持续存在。本文挑战这一假设,引入了隐式记忆——模型通过在其输出中编码信息,并在后续将这些输出重新输入时恢复信息,从而在独立交互之间携带状态的能力。该机制无需任何显式记忆模块,却在推理请求之间创建了一个持久的信息通道。作为具体案例,我们引入了一类新的时间后门,称为“定时炸弹”。与仅在单个触发输入上激活的传统后门不同,“定时炸弹”只有在满足通过隐式记忆积累的隐藏条件的一系列交互之后才会激活。我们展示了这种行为可以通过简单的提示或微调诱导实现。除了这一案例研究,我们还分析了隐式记忆更广泛的含义,包括隐蔽的智能体间通信、基准污染、定向操控和训练数据中毒等。最后,我们讨论了检测挑战,并概述了压力测试和评估的方向,旨在预测和控制未来的发展。为促进未来研究,我们在https://github.com/microsoft/implicitMemory发布了代码和数据。
隐式记忆 LLM 后门攻击 智能体通信 记忆机制
论文核心研究LLM中的隐式记忆机制,属于Agent Memory的核心内容。
Code
Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning
Zhuoen Chen, Dongfang Li, Meishan Zhang, Baotian Hu, Min Zhang
9/10 2026-02-09 cs.CL PDF
大型语言模型(LLMs)在长上下文处理中面临显著挑战,包括二次计算成本、信息遗忘以及检索增强生成(RAG)中的上下文碎片化问题。本文提出了一种基于分块压缩和选择性记忆召回的认知启发框架,以提高长上下文推理效率。该框架将长输入分割为块,并使用学习到的压缩器将其编码为压缩记忆表示。一个门控模块动态选择相关记忆块,然后通过具有演化工作记忆的推理模块进行迭代处理以解决下游任务。压缩器和推理器通过端到端强化学习联合优化,而门控模块则作为分类器单独训练。实验结果表明,该方法在多跳推理基准如RULER-HQA上取得了有竞争力的准确性,可将上下文长度从7K扩展至1.75M个标记,并在准确性和效率之间提供了优于强长上下文基线的权衡。特别是,它实现了峰值GPU内存使用量减少达2倍,推理速度提升达6倍。
Agent Memory 长上下文处理 强化学习 压缩记忆 选择性召回
论文核心围绕压缩记忆与选择性回忆机制,直接涉及Agent Memory的处理与优化。
ManifoldKV: Training-Free KV Cache Compression via Euclidean Outlier Detection
Debajyoti Datta, Trishala Neeraj, Bibek Paudel, Vyom Sharma, Subhabrata Mukherjee
9/10 2026-02-09 cs.LG PDF
长上下文推理受到KV缓存内存的限制,其大小随序列长度线性增长;因此,KV缓存压缩的关键在于可靠地选择保留哪些过去的token。大多数基于几何的淘汰方法通过计算键与全局质心的余弦相似度来评分,但余弦相似度不考虑尺度变化,可能忽略区分语义重要token的幅度信息。本文提出ManifoldKV,一种无需训练的评分方法,通过计算token到键质心的欧几里得距离进行排序,同时捕捉角度和径向偏差。在RULER基准测试中,ManifoldKV在4K-16K上下文范围内以20%压缩率实现了95.7%的准确率,与最佳几何基线相当,并在余弦评分失效的两种情况下提升了鲁棒性。首先,在多键检索任务中,ManifoldKV减少了方向冲突,以50%压缩率在3键NIAH任务中达到92.4%,优于KeyDiff的77.0%(+15.4分)。其次,为了解决在64K上下文中全局质心稀释和性能崩溃的问题,本文引入了WindowedManifoldKV,使25%压缩率下的准确率达到84.3%,比全局L2方法恢复了49分,比KeyDiff高出3.2分。该方法仅需3行代码,且无需调优即可跨4种架构使用。
KV缓存压缩 Agent Memory 欧几里得距离 无训练方法
论文直接针对KV缓存压缩问题,核心研究Agent Memory机制与优化方法。
DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity
Jitai Hao, Qiang Huang, Yaowei Wang, Min Zhang, Jun Yu
9/10 2026-02-08 cs.CL PDF
在自主代理、长链推理和创意写作等应用中部署高效的长上下文LLM时,KV缓存内存的线性增长是根本瓶颈。现有的压缩和淘汰方法通常难以平衡准确性、压缩比和硬件效率。我们提出了DeltaKV,一种基于残差的KV缓存压缩框架,其灵感来源于两个经验发现:长距离的标记间相似性和KV表示中的高度共享潜在组件。DeltaKV不丢弃标记,而是相对于检索到的历史参考编码语义残差,在保持保真度的同时显著减少存储。为了将压缩优势转化为实际系统加速,我们进一步引入了Sparse-vLLM,这是一种具有解耦内存管理和针对稀疏和不规则KV布局优化的高性能推理引擎。实验表明,DeltaKV将KV缓存内存减少到原始的29%,同时在LongBench、SCBench和AIME上保持接近无损的准确性。当与Sparse-vLLM集成时,它在长上下文场景中实现了比vLLM高达2倍的吞吐量提升,展示了可扩展长上下文LLM部署的实际路径。
KV缓存压缩 长上下文LLM Agent Memory优化 推理引擎
论文直接针对KV缓存压缩问题,提出DeltaKV框架,核心聚焦于Agent Memory的优化。
Code
MemFly: On-the-Fly Memory Optimization via Information Bottleneck
Zhenyuan Zhang, Xianzhang Jia, Zhiqin Yang, Zhenbo Song, Wei Xue et al.
9/10 2026-02-08 cs.AI PDF
长期记忆使大型语言模型代理能够通过历史交互处理复杂任务。然而,现有框架在高效压缩冗余信息与保持下游任务精确检索之间面临根本性困境。为弥合这一差距,我们提出了MemFly,一个基于信息瓶颈原理的框架,支持LLM的即时记忆演化。我们的方法通过无梯度优化器最小化压缩熵并最大化相关性熵,构建分层记忆结构以实现高效存储。为充分利用MemFly,我们开发了一种混合检索机制,无缝整合语义、符号和拓扑路径,并引入迭代优化以处理复杂的多跳查询。全面实验表明,MemFly在记忆一致性、响应保真度和准确性方面显著优于最先进的基线方法。
LLM Agent Memory Optimization Information Bottleneck Hybrid Retrieval
论文标题和内容直接聚焦于LLM的长期记忆优化,提出MemFly框架解决记忆压缩与检索问题,属于Agent Memory核心研究。
M2A: Multimodal Memory Agent with Dual-Layer Hybrid Memory for Long-Term Personalized Interactions
Junyu Feng, Binxiao Xu, Jiayi Chen, Mengyu Dai, Cenyang Wu et al.
9/10 2026-02-07 cs.AI PDF
本文针对长期人机交互中的个性化问答问题,提出了一种名为M2A的代理系统,该系统采用双层混合记忆架构以维持用户的多模态信息。现有模型在处理跨周或跨月的对话历史时存在局限性,无法持续吸收和利用用户增量概念、别名和偏好。M2A通过两个协作代理实现在线更新:ChatAgent管理用户交互并自主决定何时查询或更新记忆,MemoryManager则将ChatAgent的记忆请求分解为对双层记忆库的操作,包括不可变的原始消息存储(RawMessageStore)和高层语义记忆存储(SemanticMemoryStore)。此外,研究还开发了一个可复用的数据合成流程,将基于概念的会话注入到长对话中,同时保持时间一致性。实验表明,M2A显著优于基线方法,证明了从一次性配置转向共演化的记忆机制是实现高质量个性化响应的有效路径。
Agent Memory Multimodal Interaction Long-term Personalization Hybrid Memory System
论文核心围绕Agent Memory机制设计,提出双层混合记忆系统用于长期个性化交互。
Code
MemPot: Defending Against Memory Extraction Attack with Optimized Honeypots
Yuhao Wang, Shengfang Zhai, Guanghao Jin, Yinpeng Dong, Linyi Yang et al.
9/10 2026-02-07 cs.CR PDF
基于大型语言模型(LLM)的智能体使用外部和内部记忆系统来处理复杂的目标导向任务,但这也使其面临严重的记忆提取攻击威胁,目前有效的防御手段仍显不足。本文提出MemPot,这是首个通过向记忆中注入优化后的诱饵(honeypots)来防御记忆提取攻击的理论验证框架。通过两阶段优化过程,MemPot生成能够最大化攻击者检索概率且对良性用户不显眼的陷阱文档。我们将检测过程建模为Wald的序贯概率比检验(SPRT),并从理论上证明MemPot相比最优静态检测器具有更低的平均采样轮数。实验表明,MemPot显著优于现有最先进的基线方法,在检测AUROC指标上提升了50%,在低误报率约束下真阳性率提高了80%。此外,我们的实验还确认了MemPot不会增加在线推理延迟,并保持了智能体在标准任务上的实用性,验证了其在安全性、无害性和效率方面的优越性。
Agent Memory Security Honeypot LLM Defense
论文核心围绕防御记忆提取攻击,直接涉及Agent Memory机制与安全。
Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory
Haozhen Zhang, Haodong Yue, Tao Feng, Quanyu Long, Jianzhu Bao et al.
9/10 2026-02-05 cs.CL PDF
随着大型语言模型(LLM)代理在单个上下文窗口之外运行,记忆变得越来越重要。然而,现有系统大多依赖于离线、查询无关的记忆构建方式,这可能效率低下并丢弃关键信息。尽管运行时记忆利用是一种自然替代方案,但以往的工作通常带来较大的开销,并且对性能-成本权衡的控制有限。本文提出了一种名为BudgetMem的运行时智能体记忆框架,用于实现显式的、查询感知的性能-成本控制。BudgetMem将记忆处理结构化为一组具有三个预算层级(低/中/高)的记忆模块,并通过一个轻量级路由器在这些模块之间进行预算层级路由,以平衡任务性能和记忆构建成本。该路由器通过强化学习训练得到一个紧凑的神经策略。使用BudgetMem作为统一的测试平台,我们研究了三种互补的实现预算层级的策略:实现复杂度、推理行为和容量(模块模型大小)。在LoCoMo、LongMemEval和HotpotQA数据集上,BudgetMem在优先考虑性能(即高预算设置)时优于强基线,并在更严格的预算下提供了更好的准确率-成本边界。此外,我们的分析揭示了不同分层策略的优势和劣势,明确了在不同预算制度下哪种轴向能提供最佳的权衡。
LLM Agent Memory Management Reinforcement Learning Budget Control
论文标题和内容直接聚焦于Agent Memory的运行时管理与性能-成本控制,属于核心研究。
Code
Learning to Share: Selective Memory for Efficient Parallel Agentic Systems
Joseph Fioresi, Parth Parag Kulkarni, Ashmal Vayani, Song Wang, Mubarak Shah
9/10 2026-02-05 cs.MA PDF
智能体系统通过协调多个智能体来解决复杂任务,这些智能体迭代推理、调用工具并交换中间结果。为提高鲁棒性和解决方案质量,近期方法部署了多个并行运行的智能体团队以探索多样化的推理路径。然而,并行执行带来了显著的计算成本:当不同团队独立处理相似子问题或执行类似步骤时,会重复进行大量重叠计算。为解决这一问题,本文提出了Learning to Share(LTS),一种用于并行智能体框架的学习共享内存机制,能够在控制上下文增长的同时实现跨团队的信息重用。LTS引入了一个所有团队均可访问的全局内存库和一个轻量级控制器,决定是否将中间智能体步骤添加到内存中。控制器通过基于使用感知的信用分配的逐步强化学习进行训练,使其能够识别在并行执行中具有全局有用性的信息。在AssistantBench和GAIA基准上的实验表明,LTS显著减少了总体运行时间,同时与无内存的并行基线相比匹配或提升了任务性能,证明了学习记忆准入是提高并行智能体系统效率的有效策略。
Agent Memory Parallel Execution Reinforcement Learning Shared Memory Efficient Computation
论文核心提出了一种学习共享的内存机制,直接针对并行智能体系统的记忆管理问题。
Code
MerNav: A Highly Generalizable Memory-Execute-Review Framework for Zero-Shot Object Goal Navigation
Dekang Qi, Shuang Zeng, Xinyuan Chang, Feng Xiong, Shichao Xie et al.
9/10 2026-02-05 cs.CV PDF
视觉语言导航(VLN)是具身智能的基本能力之一,也是亟需解决的关键挑战。然而,现有方法在成功率(SR)和泛化能力方面仍不理想:监督微调(SFT)方法通常具有更高的SR,而训练无关(TF)方法往往泛化能力更强,但难以同时实现两者。为此,我们提出了一种记忆-执行-复审框架。该框架包含三个部分:一个分层记忆模块用于提供信息支持,一个执行模块用于常规决策和行动,以及一个复审模块用于处理异常情况并纠正行为。我们在目标导航任务上验证了该框架的有效性。在4个数据集上,我们的平均SR在TF和零样本(ZS)设置下分别比所有基线方法提高了7%和5%。在最常用的数据集HM3D_v0.1和更具挑战性的开放词汇数据集HM3D_OVON上,在ZS设置下SR分别提升了8%和6%。此外,在MP3D和HM3D_OVON数据集上,我们的方法不仅优于所有TF方法,还超越了所有SFT方法,在SR(5%和2%)和泛化能力方面均取得全面领先。
Agent Memory Visual Navigation Zero-Shot Learning Hierarchical Memory Generalization
论文标题和摘要明确提到Memory模块,且框架核心围绕Memory-Execute-Review展开,是Agent Memory机制的核心研究。
Locas: Your Models are Principled Initializers of Locally-Supported Parametric Memories
Sidi Lu, Zhenwen Liang, Dongyang Ma, Yan Wang, Haitao Mi et al.
9/10 2026-02-04 cs.CL PDF
本文旨在通过一种新型参数化记忆机制连接测试时训练。我们提出了Locas,一种局部支持的参数化记忆结构,其设计借鉴了现代Transformer中的FFN模块,能够灵活地合并到模型参数中,并支持高效的持续学习。我们讨论了两种主要变体:一种采用传统两层MLP设计,具有更清晰的理论保证;另一种与当前最先进的LLM共享GLU-FFN结构,便于附加到现有模型以实现参数和计算效率高的持续学习。关键在于,我们展示了通过合理初始化此类低秩侧向FFN风格的记忆(利用模型参数、激活值和/或梯度进行原理化初始化)对于快速收敛、提升泛化能力和防止灾难性遗忘至关重要。我们在PG-19全书语言建模和LoCoMo长上下文对话问答任务上验证了该记忆机制。在最低情况下,仅增加0.02%的参数,Locas-GLU即可存储过去上下文信息,同时保持较小的上下文窗口。此外,我们还通过比较MMLU评估测试了模型在使用Locas记忆整本书后的一般能力损失。结果表明,Locas能够将过去的上下文永久化为参数知识,同时最小化对模型原有内部知识的灾难性遗忘。
参数化记忆 持续学习 Transformer 灾难性遗忘 模型扩展
论文核心研究Locas参数化记忆机制,明确涉及Agent Memory的设计与实现。
Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning
Yansong Ning, Jun Fang, Naiqiang Tan, Hao Liu
Yansong NING (The Hong Kong University of Science and Technology (Guangzhou))
9/10 2026-02-04 cs.AI PDF
在多轮智能体与环境交互过程中管理智能体的思维和观察是提升其效率的一种新兴策略。然而现有研究通常将整个交互轨迹视为同等重要,忽视了不同回合中思维必要性和观察效用的差异性。为此,我们首先定量分析了思维和观察对智能体效果和效率的影响。基于研究结果,我们提出了Agent-Omit,一种统一的训练框架,使LLM智能体能够自适应地省略冗余的思维和观察。具体而言,我们首先合成少量冷启动数据,包括单轮和多轮省略场景,以微调智能体的省略行为。此外,我们引入了一种基于省略感知的智能体强化学习方法,结合双采样机制和定制化的省略奖励,以激励智能体的自适应省略能力。理论上,我们证明了我们的省略策略的偏差由KL散度上界限定。实验结果表明,在五个智能体基准测试中,我们构建的Agent-Omit-8B模型性能可与七个前沿LLM智能体相媲美,并在效率与效果的权衡上优于七种高效的LLM智能体方法。
LLM Agent Memory Management Reinforcement Learning Efficiency Optimization
论文核心研究LLM Agent在交互过程中对冗余思维和观察的自适应省略,属于Agent Memory机制的核心内容。
Code
Empirical-MCTS: Continuous Agent Evolution via Dual-Experience Monte Carlo Tree Search
Hao Lu, Haoyuan Huang, Yulin Zhou, Chen Li, Ningxin Zhu
9/10 2026-02-04 cs.AI PDF
推理时的扩展策略,特别是蒙特卡洛树搜索(MCTS),显著增强了大语言模型(LLMs)的推理能力。然而,当前方法主要为无状态,每次问题实例后丢弃成功推理模式,无法模仿人类问题解决中经验积累的特点。为弥补这一差距,我们引入Empirical-MCTS,一种双循环框架,将无状态搜索转化为连续、非参数化的学习过程。该框架通过两种新机制统一局部探索与全局记忆优化:成对经验进化元提示(PE-EMP)和记忆优化智能体。PE-EMP在局部搜索中作为反射优化器,利用成对反馈动态合成自适应标准并实时演化元提示(系统提示)。同时,记忆优化智能体管理一个全局存储库作为动态策略先验,使用原子操作跨问题提炼高质量见解。在复杂推理基准测试(包括AIME25、ARC-AGI-2和MathArena Apex)上的广泛评估表明,Empirical-MCTS显著优于无状态MCTS策略和独立经验驱动的智能体。这些结果强调了结构化搜索与经验积累相结合对于掌握复杂、开放性推理任务的关键必要性。
Agent Memory MCTS Meta-Prompting Continuous Learning Reasoning
论文核心提出Empirical-MCTS框架,明确涉及记忆优化机制与全局经验积累,属于Agent Memory核心研究。
Context Compression via Explicit Information Transmission
Jiangnan Ye, Hanqi Yan, Zhenyi Shen, Heng Chang, Ye Mao et al.
9/10 2026-02-03 cs.CL PDF
大型语言模型(LLMs)在长上下文推理中面临高昂的成本,主要由于二次注意力计算和键值缓存的增长,这促使了上下文压缩的研究。本文研究了软上下文压缩方法,其中长上下文被压缩为一组连续表示。现有方法通常将LLM本身重新用作可训练的压缩器,依赖逐层自注意力来迭代聚合信息。我们认为这种范式存在两个结构性限制:(i) 跨层的渐进表示覆盖;(ii) 压缩容量在不同token之间的分配不协调。我们提出了ComprExIT(通过显式信息传输进行上下文压缩),一种轻量级框架,将软压缩转化为新的范式:在冻结的LLM隐藏状态上进行显式信息传输。这将压缩与模型内部的自注意力动态解耦。ComprExIT执行(i) 深度方向传输,选择性地将多层信息传输到token锚点,缓解渐进覆盖;(ii) 宽度方向传输,通过全局优化的传输计划将锚点聚合到少量槽位中,确保信息分配的协调性。在六个问答基准测试中,ComprExIT始终优于最先进的上下文压缩方法,仅引入约1%的额外参数,证明显式且协调的信息传输能够实现更有效和鲁棒的长上下文压缩。
上下文压缩 显式信息传输 LLM记忆管理 长上下文推理
论文直接针对LLM的上下文压缩问题,提出了一种显式信息传输机制,属于Agent Memory的核心研究。
MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling
Ning Ding, Fangcheng Liu, Kyungrae Kim, Linji Hao, Kyeng-Hun Lee et al.
9/10 2026-02-03 cs.LG PDF
扩展大型语言模型(LLMs)通常依赖于增加参数数量或测试时计算量以提升性能。然而,这些策略在边缘设备部署时因内存和NPU资源有限而不切实际。为了解决这一问题,本文提出MeKi(基于存储的专家知识注入),一种通过存储空间而非计算量来扩展LLM容量的新系统。MeKi为每个Transformer层配备了基于标记级别的记忆专家,在生成过程中注入预存的语义知识。为了弥合训练容量与推理效率之间的差距,我们采用了一种重新参数化策略,将训练中使用的参数矩阵折叠到一个紧凑的静态查找表中。通过将知识卸载到ROM中,MeKi将模型容量与计算成本解耦,引入零推理延迟开销。大量实验表明,MeKi在相同推理速度下显著优于密集型LLM基线,验证了基于存储的扩展范式对于设备端LLMs的有效性。
LLM Edge Deployment Memory-based Scaling Knowledge Injection Efficient Inference
论文核心提出基于存储的专家知识注入机制,直接涉及Agent Memory的设计与实现。
Code
TAME: A Trustworthy Test-Time Evolution of Agent Memory with Systematic Benchmarking
Yu Cheng, Jiuan Zhou, Yongkang Hu, Yihang Chen, Huichi Zhou et al.
9/10 2026-02-03 cs.AI PDF
测试时智能体记忆的演化是实现通用人工智能(AGI)的关键范式,通过经验积累增强复杂推理能力。然而,在良性任务演化过程中,智能体的安全对齐仍存在脆弱性,这一现象被称为智能体记忆误演化。为评估该现象,我们构建了Trust-Memevo基准,用于在良性任务演化过程中评估多维可信性,并揭示了在不同任务领域和评估设置下整体可信性的下降趋势。为解决此问题,我们提出了TAME,一种双记忆演化框架,分别演化执行器记忆以通过提炼可推广的方法来提升任务性能,并演化评估器记忆以基于历史反馈优化安全性和任务效用的评估。通过记忆过滤、草案生成、可信性优化、执行和双轨记忆更新的闭环流程,TAME在不牺牲效用的前提下保持可信性。实验表明,TAME有效缓解了记忆误演化问题,在可信性和任务性能方面均取得联合提升。
Agent Memory Test-Time Evolution Trustworthiness Dual-Memory Framework Benchmarking
论文核心围绕Agent Memory的演化与可信性问题,提出TAME框架直接针对记忆机制。
ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution
Zican Dong, Peiyu Liu, Junyi Li, Zhipeng Chen, Han Peng et al.
9/10 2026-02-03 cs.CL PDF
近年来,大型语言模型(LLMs)通过生成长推理轨迹展现了显著的推理能力。然而,随着序列长度的增长,键值(KV)缓存呈线性扩展,导致显著的内存和计算成本。现有的KV缓存淘汰方法通过丢弃不重要的KV对缓解这一问题,但往往无法捕捉复杂的KV依赖关系,从而导致性能下降。为更好地平衡效率与性能,我们引入了ForesightKV,一种基于训练的KV缓存淘汰框架,能够学习预测在长文本生成过程中应淘汰哪些KV对。我们首先设计了Golden Eviction算法,该算法使用未来注意力分数识别每一步的最优淘汰KV对。然后,通过监督训练和成对排序损失函数对这些轨迹和得分进行蒸馏。此外,我们将缓存淘汰建模为马尔可夫决策过程,并应用GRPO算法以减轻低熵标记上的显著语言建模损失增加。在AIME2024和AIME2025基准测试中,三种推理模型的实验结果表明,ForesightKV在仅一半缓存预算下始终优于先前方法,并且从监督学习和强化学习方法中协同获益。
KV缓存优化 Agent Memory 推理模型 缓存淘汰策略 强化学习
论文直接针对KV缓存的优化,核心研究Agent Memory机制,标题和内容均明确涉及Memory。
InfMem: Learning System-2 Memory Control for Long-Context Agent
Xinyu Wang, Mingze Li, Peng Lu, Xiao-Wen Chang, Lifeng Shang et al.
9/10 2026-02-02 cs.CL PDF
在超长文档上进行推理需要在严格内存限制下合成分散在远距离段落中的稀疏证据。虽然流式代理能够实现可扩展处理,但其被动的记忆更新策略往往无法保留多跳推理所需的低显著性桥梁证据。我们提出了InfMem,一种以控制为中心的代理,通过预思考-检索-写入协议实现系统2型风格的控制。InfMem主动监控证据充分性,执行针对性的文档内检索,并应用基于证据的联合压缩来更新有限内存。为确保可靠的控制,我们引入了一种实用的SFT到RL训练方法,使检索、写入和停止决策与最终任务正确性对齐。在32k到1M token的超长问答基准测试中,InfMem在各种模型主干上始终优于MemAgent。具体而言,InfMem分别在Qwen3-1.7B、Qwen3-4B和Qwen2.5-7B上将平均绝对准确率提高了+10.17、+11.84和+8.23分,同时通过自适应提前停止将推理时间平均减少了3.9倍(最高达5.1倍)。
Agent Memory Long-Context Reasoning Memory Compression Retrieval-Augmented Generation Reinforcement Learning
论文核心聚焦于Agent Memory控制机制,提出InfMem系统以优化长上下文处理中的记忆管理。
ES-MemEval: Benchmarking Conversational Agents on Personalized Long-Term Emotional Support
Tiantian Chen, Jiaqi Lu, Ying Shen, Lin Zhang
Tiantian Chen (Tongji UniversityShanghaiChina) | Jiaqi Lu (Tongji UniversityShanghaiChina) | Ying Shen (Tongji UniversityShanghaiChina)
9/10 2026-02-02 cs.CL PDF
大语言模型(LLMs)在对话智能体中展现出强大潜力,但在如在线情感支持等复杂长期网络服务中,其效果受限于鲁棒的长期记忆能力不足。现有长期对话评测基准主要关注静态、显式事实检索,难以评估用户信息分散、隐含且持续演变的关键场景。为此,本文提出ES-MemEval,一个系统评估长期情感支持中五项核心记忆能力(信息抽取、时序推理、冲突检测、拒答机制和用户建模)的综合基准,涵盖问答、摘要与对话生成任务。同时构建了EvoEmo多会话数据集,捕捉碎片化、隐式用户披露及动态演变的用户状态。实验表明,显式长期记忆对减少幻觉和实现有效个性化至关重要;检索增强(RAG)虽提升事实一致性,但在处理时序动态与用户状态演化方面仍存挑战。
长期记忆 情感支持对话系统
聚焦长期记忆能力评估,提出专门基准与数据集。
FreshMem: Brain-Inspired Frequency-Space Hybrid Memory for Streaming Video Understanding
Kangcong Li, Peng Ye, Lin Zhang, Chao Wang, Huafeng Qin et al.
9/10 2026-02-02 cs.CV PDF
将多模态大语言模型(MLLMs)从离线处理转向在线流式视频理解对持续感知至关重要。然而,现有方法缺乏灵活适应性,导致细节不可逆丢失与上下文碎片化。为此,本文提出FreshMem——一种受大脑对数感知与记忆巩固机制启发的频域-空间混合记忆网络。FreshMem通过两个协同模块实现短期保真与长期连贯性的统一:多尺度频域记忆(MFM)将溢出帧投影为代表性频率系数,并结合残差细节重建全局历史“概要”;空间缩略图记忆(STM)则通过自适应压缩策略将连续流离散为情节簇,并提炼为高密度空间缩略图。大量实验表明,FreshMem在无需训练的情况下显著提升Qwen2-VL基线,在StreamingBench、OV-Bench和OVO-Bench上分别获得5.20%、4.52%和2.34%的性能增益,优于多个全微调方法。
Agent Memory 流式视频理解
论文提出新型混合记忆架构FreshMem,核心聚焦于流式视频理解中的记忆机制设计。
FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents
Chiwei Zhu, Benfeng Xu, Mingxuan Du, Shaohan Wang, Xiaorui Wang et al.
Chiwei Zhu (University of Science and Technology of China)
9/10 2026-02-02 cs.CL PDF
深度研究正成为大语言模型(LLM)智能体的典型长周期任务。然而,其长轨迹常超出模型上下文限制,压缩了证据收集与报告撰写的token预算,阻碍了有效的测试时扩展。本文提出FS-Researcher——一种基于文件系统的双智能体框架,通过持久化工作区将深度研究扩展至上下文窗口之外。其中,Context Builder智能体作为“图书管理员”,负责浏览网络、撰写结构化笔记,并将原始资料归档至可远超上下文长度的分层知识库;Report Writer智能体则逐节撰写最终报告,以该知识库为事实来源。文件系统在此充当持久外部记忆与跨智能体、跨会话的共享协调媒介,支持上下文窗口外的迭代优化。在DeepResearch Bench和DeepConsult两个开放式基准上的实验表明,FS-Researcher在不同主干模型上均取得最先进的报告质量。进一步分析证实,最终报告质量与分配给Context Builder的计算资源呈正相关,验证了该文件系统范式下有效的测试时扩展能力。
外部记忆 文件系统 长周期任务 测试时扩展
提出基于文件系统的持久化外部记忆机制,是Agent Memory的核心架构创新。
Code
SpeechLess: Micro-utterance with Personalized Spatial Memory-aware Assistant in Everyday Augmented Reality
Yoonsang Kim, Devshree Jadeja, Divyansh Pradhan, Yalong Yang, Arie Kaufman
9/10 2026-01-31 cs.HC PDF
在公共场所对可穿戴AR助手大声说话可能引发社交尴尬,且每日重复表达相同请求造成不必要的负担。本文提出SpeechLess——一种可穿戴AR助手,引入基于个性化空间记忆的语音意图粒度控制范式,使用户“少说多得”,并在需要复杂表达时支持意图的逐步显式化。SpeechLess将先前交互绑定到多模态个人上下文(包括空间、时间、活动和指代对象)以形成空间记忆,并据此从不完整用户查询中推断缺失的意图维度,从而支持从完整语句到微/零语音交互的动态调整。通过为期一周的预研实验揭示了公共语音使用的不适感、重复语音的挫败感及硬件限制;在此基础上设计并评估了SpeechLess。结果表明,该系统可在多样日常环境中有效提升信息获取效率、降低表达负担,并支持社交可接受性,同时不显著损害可用性感知与意图解析准确率。
空间记忆 增强现实
论文核心提出基于个性化空间记忆的意图推断机制,直接构建和利用空间记忆系统。
Dual Latent Memory for Visual Multi-agent System
Xinlei Yu, Chengming Xu, Zhangquan Chen, Bo Yin, Cheng Yang et al.
9/10 2026-01-31 cs.AI PDF
尽管视觉多智能体系统(VMAS)有望通过智能体间协作提升综合能力,但实证研究表明存在反直觉的“扩展壁垒”:增加智能体轮次常导致性能下降并指数级增加token消耗。作者将此归因于以文本为中心通信中的信息瓶颈——将感知与思维轨迹转化为离散自然语言不可避免地造成语义损失。为此,本文提出L²-VMAS,一种模型无关的框架,通过双潜记忆实现智能体协作,并解耦感知与思维过程,动态融合两类潜记忆。此外,引入熵驱动的主动触发机制,以按需记忆访问替代被动信息传输。大量实验表明,该方法有效突破“扩展壁垒”,平均准确率提升2.7–5.4%,同时减少21.3–44.8%的token使用。
多智能体系统 潜记忆
论文提出双潜记忆机制,核心解决Agent间记忆传递与信息瓶颈问题。
Code
When Agents "Misremember" Collectively: Exploring the Mandela Effect in LLM-based Multi-Agent Systems
Naen Xu, Hengyu An, Shuo Shi, Jinghuai Zhang, Chunyi Zhou et al.
9/10 2026-01-31 cs.CL PDF
近期大语言模型(LLM)的进步显著提升了协作式多智能体系统处理复杂任务的能力。然而,这些系统中智能体对集体认知偏差的易感性仍缺乏深入研究,典型如曼德拉效应——群体因社会影响和内化错误信息而共同错误记忆过往事件。本文系统研究了LLM多智能体系统中的曼德拉效应,探究其存在性、成因及缓解策略。我们提出MANBENCH基准,涵盖四类易受该效应影响的任务和五种不同角色与记忆时间尺度的交互协议,并在多个LLM驱动的智能体上进行评估。此外,提出提示层防御(如认知锚定、信源审查)和模型层对齐防御策略,相较基线平均降低74.40%的曼德拉效应。本研究为构建更具鲁棒性与伦理一致性的协作多智能体系统提供了重要洞见。
集体记忆 认知偏差
聚焦多智能体系统中的集体记忆偏差,核心探讨记忆机制与失真问题。
MiTa: A Hierarchical Multi-Agent Collaboration Framework with Memory-integrated and Task Allocation
XiaoJie Zhang, JianHan Wu, Xiaoyang Qu, Jianzong Wang
9/10 2026-01-30 cs.ET PDF
大语言模型(LLM)的最新进展显著推动了具身智能体的发展。基于LLM的多智能体系统缓解了单智能体在复杂任务中的低效问题,但仍面临记忆不一致与智能体行为冲突等挑战。为此,本文提出MiTa——一种融合记忆与任务分配的分层协作框架,通过管理者-成员层级结构提升协作效率。管理者配备任务分配与摘要模块:前者实现全局任务分配以避免智能体间冲突;后者在任务进展更新时触发,将近期协作历史压缩为简洁摘要,保留长时程上下文。实验表明,MiTa在复杂多智能体协作任务中相较强基线方法展现出更优的效率与适应性。
多智能体系统 情景记忆
论文核心提出记忆整合机制,标题明确包含memory,且记忆是协作框架的关键组成部分。
MoVE: Mixture of Value Embeddings -- A New Axis for Scaling Parametric Memory in Autoregressive Models
Yangyan Li
9/10 2026-01-30 cs.LG PDF
自回归序列建模是现代生成式AI的基石,但其模型容量与计算成本紧密耦合:扩展参数化记忆(如事实知识或视觉模式)通常需加深或加宽网络,导致计算开销线性增长。本文提出MoVE(值嵌入混合)机制,通过在所有注意力层共享一个可学习的全局值嵌入库,并在每步序列中使用可微软门控动态混合检索到的概念与标准值投影,从而将记忆与计算解耦。该架构允许仅通过增加嵌入槽位数量独立扩展参数化记忆。在文本与图像生成任务上的严格实验表明,MoVE显著优于标准及分层记忆基线,可在相同计算预算下构建“记忆密集型”模型,实现更低困惑度与更高生成保真度。
参数化记忆 自回归模型
提出MoVE机制,直接解耦参数化记忆与计算,核心研究记忆架构。
AutoRefine: From Trajectories to Reusable Expertise for Continual LLM Agent Refinement
Libin Qiu, Zhirong Gao, Junfu Chen, Yuhang Ye, Weizhi Huang et al.
9/10 2026-01-30 cs.AI PDF
大语言模型智能体常难以从经验中积累知识,将每个任务视为独立挑战。现有方法将经验提取为扁平文本知识,无法捕捉复杂子任务的程序逻辑,且缺乏维护机制,导致经验库随积累而退化。本文提出AutoRefine框架,从智能体执行历史中提取并维护双形态经验模式:对程序性子任务,提取具备独立推理与记忆能力的专用子智能体;对静态知识,则提取为指南或代码片段形式的技能模式。框架还包含持续维护机制,通过评分、剪枝与合并防止经验库退化。在ALFWorld、ScienceWorld和TravelPlanner上的实验表明,AutoRefine分别达到98.4%、70.4%和27.1%的成功率,并减少20–73%的执行步骤;在TravelPlanner上,其自动提取性能超越人工设计系统(27.1% vs 12.1%),验证了其捕获程序协调能力的有效性。
经验记忆 持续学习
提出双形态经验模式及持续维护机制,核心解决Agent记忆积累与退化问题。
MERMAID: Memory-Enhanced Retrieval and Reasoning with Multi-Agent Iterative Knowledge Grounding for Veracity Assessment
Yupeng Cao, Chengyang He, Yangyang Yu, Ping Wang, K. P. Subbalakshmi
9/10 2026-01-29 cs.CL PDF
在线内容的真实性评估日益重要。尽管大语言模型(LLMs)在自动事实核查和主张验证方面取得进展,现有方法通常将证据检索视为静态、孤立的步骤,难以跨主张有效管理或复用证据。本文提出MERMAID——一种记忆增强的多智能体真实性评估框架,通过将检索与推理过程紧密耦合,在Reason-Action式迭代流程中整合智能体驱动的搜索、结构化知识表示和持久记忆模块,实现动态证据获取与跨主张证据复用。实验证明,MERMAID在多个基准上达到最先进性能,同时提升检索效率,验证了融合检索、推理与记忆对可靠真实性评估的有效性。
Agent Memory 多智能体系统
论文核心提出带持久记忆模块的多智能体框架,显式建模证据记忆机制。
SONIC: Segmented Optimized Nexus for Information Compression in Key-Value Caching
Hong Chen, Xiang Liu, Bo Wang, Yuxuan Fan, Yuanlin Chu et al.
9/10 2026-01-29 cs.CL PDF
键值(KV)缓存的线性增长仍是多轮大语言模型部署的瓶颈。现有KV缓存压缩方法常忽视多轮对话的结构特性,依赖启发式剔除策略,易丢失关键上下文。本文提出SONIC——一种基于学习的框架,将历史对话片段压缩为紧凑且语义丰富的“枢纽”(Nexus)令牌。通过引入动态预算训练,SONIC可在无需重新训练的情况下灵活适应不同内存约束。实验表明,在80%和50%压缩率下,SONIC在四个多轮对话基准上均优于H2O和StreamingLLM等基线方法;在广泛使用的MTBench101基准上,平均得分较当前最优方法提升35.55%,有效维持了多轮对话连贯性,并将整体推理速度提升50.1%。
KV缓存压缩 多轮对话记忆
聚焦KV缓存压缩,直接优化Agent长期记忆机制。
Enhancing Conversational Agents via Task-Oriented Adversarial Memory Adaptation
Yimin Deng, Yuqing Fu, Derong Xu, Yejing Wang, Wei Ni et al.
9/10 2026-01-29 cs.CL PDF
对话智能体因上下文窗口限制难以处理长对话,现有记忆系统通常采用离线构建与更新、在线检索的流程。然而,其离线阶段固定且任务无关,导致记忆内容与下游任务需求不匹配。为此,本文提出对抗式记忆适应机制(AMA),通过模拟任务执行实现记忆构建与更新的任务对齐:挑战者智能体基于原始对话生成问答对,利用构建的记忆作答以模拟推理;评估者智能体分析回答错误;适配器智能体据此在策略与内容层面进行双重更新。该机制使记忆系统在离线阶段即获得任务感知监督信号,提升对下游任务的适应性。实验表明,AMA可集成至多种现有记忆系统,并在长对话基准LoCoMo上显著提升性能。
对话智能体 记忆系统 任务导向学习 对抗适应
论文聚焦于对话Agent中的记忆系统优化,提出任务导向的对抗式记忆适应机制,核心解决记忆构建与更新对下游任务的适配问题。
ScaleSim: Serving Large-Scale Multi-Agent Simulation with Invocation Distance-Based Memory Management
Zaifeng Pan, Yipeng Shen, Zhengding Hu, Zhuang Wang, Aninda Manocha et al.
9/10 2026-01-29 cs.AI PDF
基于大语言模型(LLM)的多智能体仿真在多个应用领域日益普及,但受限于GPU内存压力而难以扩展。每个智能体维护其私有的驻留GPU状态,包括模型、前缀缓存和适配器,随着智能体数量增长迅速耗尽设备内存。作者识别出此类工作负载的两个关键特性:稀疏激活与可估计的调用顺序,并据此提出“调用距离”这一统一抽象,用于预测智能体未来LLM请求的相对顺序。基于该抽象,论文设计了ScaleSim——一个面向大规模多智能体仿真的内存高效LLM服务系统,支持主动预取、优先级驱逐及模块化智能体内存管理,在仿真基准上相较SGLang最高提速1.74倍。
多智能体仿真 GPU内存管理
论文聚焦多智能体仿真中的GPU内存管理,提出基于调用距离的内存抽象与系统优化。
Beyond the Needle's Illusion: Decoupled Evaluation of Evidence Access and Use under Semantic Interference at 326M-Token Scale
Tianwei Lin, Zuyi Zhou, Xinda Zhao, Chenke Wang, Xiaohong Li et al.
9/10 2026-01-28 cs.CL PDF
长上下文大语言模型(LLM)智能体需从大规模环境中准确检索并忠实使用证据。然而,流行的“针在草堆”(NIAH)评估主要衡量良性的片段定位,其中“针”近乎唯一,“草堆”大多无关。本文提出EverMemBench-S(EMB-S),一个基于3.26亿词元MemoryBank的对抗性NIAH风格基准。为公平比较,仅在模型上下文窗口内(最高1M词元)评估原生长上下文模型。EMB-S通过人工筛选与LLM验证,为查询配对经碰撞测试的近似负样本及跨多文档的黄金证据集。作者还提出解耦诊断协议,分别报告证据访问(文档ID定位)与端到端问答质量,适用于原生提示与检索增强系统。实验表明,在语义干扰下,即使在NIAH上表现优异的系统,其证据访问能力也显著下降,揭示语义区分能力而非上下文长度才是大规模长上下文记忆的主要瓶颈。
长上下文记忆 语义干扰
聚焦长上下文Agent的记忆检索与语义干扰下的证据使用,核心评估记忆机制。
Me-Agent: A Personalized Mobile Agent with Two-Level User Habit Learning for Enhanced Interaction
Shuoxin Wang, Chang Liu, Gowen Loo, Lifan Zheng, Kaiwen Wei et al.
9/10 2026-01-28 cs.CL PDF
基于大语言模型(LLM)的移动智能体虽取得显著进展,但常忽视用户个性化需求,难以处理模糊指令、缺乏对交互历史的学习,且无法理解个性化指令。为此,本文提出Me-Agent——一种可学习、可记忆的个性化移动智能体。其采用两级用户习惯学习机制:在提示层面,引入结合个性化奖励模型的用户偏好学习策略;在记忆层面,设计分层偏好记忆结构,分别存储用户的长期记忆与应用特定记忆。为评估个性化能力,作者构建了包含大量日常模糊指令的新基准User FingerTip。实验表明,Me-Agent在个性化任务上达到最先进水平,同时保持优异的指令执行性能。
Agent Memory 个性化智能体
提出分层偏好记忆机制,核心聚焦于Agent Memory架构设计。
U-Fold: Dynamic Intent-Aware Context Folding for User-Centric Agents
Jin Su, Runnan Fang, Yeqiu Li, Xiaobin Wang, Shihao Cai et al.
9/10 2026-01-26 cs.CL PDF
基于大语言模型(LLM)的代理已在许多工具增强场景中成功部署,但其可扩展性受到上下文长度的根本限制。现有的上下文折叠方法通过总结过去的交互来缓解这一问题,但通常设计用于单查询或单一意图场景。在更现实的用户中心对话中,我们识别出两种主要失效模式:(i)它们不可逆地丢弃了对后续决策至关重要的细粒度约束和中间事实;(ii)其摘要无法跟踪用户意图的演变,导致遗漏和错误操作。为了解决这些限制,我们提出了U-Fold,一种面向用户中心任务的动态上下文折叠框架。U-Fold保留完整的用户-代理对话和工具调用历史,但在每一步中使用两个核心组件生成一个意图感知的、动态演变的对话摘要和一个紧凑且任务相关的工具日志。在τ-bench、τ²-bench、VitaBench以及更复杂的上下文膨胀设置上的大量实验表明,U-Fold在长上下文设置中始终优于ReAct(达到71.4%的胜率),并显著优于先前的折叠基线(最高提升达27.0%),特别是在长、嘈杂、多轮任务上表现突出。我们的研究表明,U-Fold是将上下文管理技术从单查询基准转移到现实用户中心应用的重要一步。
Agent Memory Context Folding Dialogue Systems LLM Agents Intent Tracking
论文聚焦于动态上下文折叠机制,直接针对Agent Memory中的长上下文管理问题,是核心研究。
Dep-Search: Learning Dependency-Aware Reasoning Traces with Persistent Memory
Yanming Liu, Xinyue Peng, Zixuan Yan, Yanxin Shen, Wenjie Xu et al.
9/10 2026-01-26 cs.CL PDF
大型语言模型(LLMs)在复杂推理任务中表现出显著能力,尤其是在结合搜索机制以系统探索外部知识库时。该领域已从传统的检索增强生成(RAG)框架发展为更复杂的基于搜索的框架,通过显式搜索策略协调多步骤推理。然而,现有搜索框架仍严重依赖隐式的自然语言推理来确定搜索策略以及如何跨推理步骤利用检索信息。这种对隐式推理的依赖给管理子问题之间的依赖关系、高效重用先前检索的知识以及通过强化学习学习最优搜索策略带来了根本性挑战。为了解决这些限制,我们提出了Dep-Search,一种依赖感知的搜索框架,通过GRPO整合结构化推理、检索和持久记忆,超越了现有搜索框架。Dep-Search引入了显式控制机制,使模型能够分解具有依赖关系的问题,在需要时检索信息,从内存中访问之前存储的知识,并将长推理上下文总结为可重用的记忆条目。通过对七个多样化问答数据集的广泛实验,我们证明Dep-Search显著增强了LLMs处理复杂多跳推理任务的能力,在不同模型规模上均优于强基线。
Agent Memory Persistent Memory Dependency-Aware Search Multi-Hop Reasoning GRPO
论文标题和内容明确涉及持久化记忆机制,提出依赖感知的搜索框架,与Agent Memory核心研究密切相关。
Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates
Yibo Li, Zijie Lin, Ailin Deng, Xuan Zhang, Yufei He et al.
9/10 2026-01-26 cs.LG PDF
尽管大型语言模型(LLM)代理在通用任务中表现出色,但由于部署后权重固定,其在持续适应方面存在固有困难。传统强化学习(RL)虽能提供解决方案,但计算成本高昂且存在灾难性遗忘风险。本文提出了一种无需训练的即时强化学习(JitRL)框架,能够在测试时进行策略优化而无需任何梯度更新。JitRL维护一个动态的非参数经验记忆,并实时检索相关轨迹以估计动作优势。这些估计值用于直接调整LLM的输出logits。理论上证明,该加法更新规则是KL约束策略优化目标的确切闭式解。在WebArena和Jericho上的大量实验表明,JitRL在无训练方法中建立了新的最先进水平。关键的是,JitRL在性能上优于计算成本较高的微调方法(如WebRL),同时将成本降低了30倍以上,为持续学习代理提供了可扩展的路径。
Agent Memory 持续学习 非参数记忆 强化学习 LLM
论文核心提出基于非参数记忆的JitRL框架,直接关联Agent Memory机制。
Code
EMemBench: Interactive Benchmarking of Episodic Memory for VLM Agents
Xinze Li, Ziyue Zhu, Siyuan Liu, Yubo Ma, Yuhang Zang et al.
9/10 2026-01-23 cs.CL PDF
本文提出EMemBench,一个通过交互式游戏评估智能体长期记忆能力的程序化基准。与固定问题集不同,EMemBench从每个智能体自身的轨迹中生成问题,涵盖文本和视觉游戏环境。每个模板均基于底层游戏信号计算可验证的真实答案,并控制回答难度与覆盖记忆技能:单跳/多跳回忆、归纳、时间、空间、逻辑及对抗性推理。实验使用强LM/VLM作为后端,以上下文提示作为基线,在15个文本游戏和多个视觉种子中进行评估。结果显示,归纳和空间推理仍是持续瓶颈,尤其在视觉环境中。持久记忆在文本游戏中为开放架构带来明显提升,但对VLM智能体效果不一致,表明视觉基础的情景记忆仍是一个开放挑战。人类研究进一步确认了EMemBench的难度。
Agent Memory Episodic Memory Benchmark VLM Interactive Testing
论文直接聚焦于Agent的Episodic Memory评估,提出专门的基准测试EMemBench,属于核心Memory研究。
How Does Personalized Memory Shape LLM Behavior? Benchmarking Rational Preference Utilization in Personalized Assistants
Xueyang Feng, Weinan Gan, Xu Chen, Quanyu Dai, Yong Liu
9/10 2026-01-23 cs.CL PDF
近年来,基于大语言模型(LLM)的助手已引入记忆机制以记录用户偏好,从而生成更符合用户需求的响应。然而,不相关的个性化记忆常被引入上下文,干扰LLM对意图的理解。为全面研究个性化的影响,我们开发了RPEval基准,包含一个个性化意图推理数据集和多粒度评估协议。RPEval揭示了现有LLM中广泛存在的非理性个性化现象,并通过错误模式分析说明其对用户体验的负面影响。最后,我们提出了RP-Reasoner,将记忆利用视为一种实用推理过程,实现个性化信息的选择性整合。实验结果表明,我们的方法在RPEval上显著优于精心设计的基线,并解决了大规模商业个性化助手中80%的不良案例,突显了实用推理在缓解非理性个性化方面的潜力。我们的基准已在https://github.com/XueyangFeng/RPEval公开。
Agent Memory Personalization Benchmark Pragmatic Reasoning LLM Evaluation
论文核心研究LLM个性化记忆对行为的影响,提出评估基准和解决方法,直接涉及Agent Memory机制。
Code
A Collision-Free Hot-Tier Extension for Engram-Style Conditional Memory: A Controlled Study of Training Dynamics
Tao Lin
9/10 2026-01-23 cs.LG PDF
本文探讨高频键碰撞是否是Engram风格条件记忆的主要瓶颈。为隔离碰撞的影响,我们引入了Engram-Nine,一种无冲突的热层扩展方法,通过最小完美哈希函数(MPHF)映射最频繁的n-gram,同时保留原始多头哈希查找作为冷层。在严格等参数设置下,无冲突设计并未一致改善验证损失。通过路由分层评估(将每个token的损失分解为热/冷贡献),我们发现训练过程中存在一致的“热到冷优势翻转”现象:热(高频)位置初始损失较低,但冷位置最终超越。关键发现是,无冲突配置比易碰撞基线更早发生翻转,表明碰撞可能起到隐式正则化作用。此外,我们还识别出门控不匹配问题:门控机制在训练初期倾向于热位置,但即使在翻转后仍持续偏好热位置,导致高损失位置被赋予更高权重。我们的研究结果表明,仅提高查找精度并不能保证更好的训练效果,主要限制可能在于门控信用分配而非索引准确性,碰撞引起的噪声可能提供有益的正则化作用,不应盲目消除。
conditional memory hash collision training dynamics gating mechanism regularization
论文直接研究Engram-style conditional memory中的碰撞问题,属于Agent Memory机制的核心研究。
Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory
Dohun Lee, Chun-Hao Paul Huang, Xuelin Chen, Jong Chul Ye, Duygu Ceylan et al.
9/10 2026-01-22 cs.CV PDF
近期的基础视频到视频扩散模型在通过修改外观、运动或相机移动来编辑用户提供的视频方面取得了显著成果。然而,现实中的视频编辑通常是一个迭代过程,用户需要在多轮交互中不断优化结果。在这一多轮设置下,当前的视频编辑器难以保持连续编辑之间的跨一致性。本文首次针对多轮视频编辑中的跨一致性问题进行研究,并引入了Memory-V2V框架,该框架通过显式记忆机制增强现有的视频到视频模型。给定一个外部缓存的先前编辑视频库,Memory-V2V采用精确检索和动态标记化策略,使当前编辑步骤基于先前结果进行条件生成。为了进一步减少冗余和计算开销,我们提出了一种可学习的标记压缩器,在DiT主干网络中压缩冗余的条件标记,同时保留关键视觉线索,从而实现整体速度提升30%。我们在具有挑战性的任务(如视频新视角合成和文本条件下的长视频编辑)上验证了Memory-V2V的有效性。大量实验表明,Memory-V2V在最小计算开销下生成的视频显著提高了跨一致性,同时在特定任务性能上与最先进的基线相比保持甚至有所提升。
video editing diffusion models agent memory multi-turn interaction token compression
论文核心提出Memory-V2V框架,明确以Memory机制解决多轮视频编辑中的跨一致性问题。
Code
SemanticALLI: Caching Reasoning, Not Just Responses, in Agentic Systems
Varun Chillara, Dylan Kline, Christopher Alvares, Evan Wooten, Huan Yang et al.
9/10 2026-01-22 cs.AI PDF
智能体AI流程存在一种隐藏的低效问题:即使用户的自然语言表述完全新颖,系统仍会重复生成相同的中间逻辑,如指标归一化或图表构建。传统边界缓存无法捕捉这种低效,因为它将推理视为一个黑箱整体。本文提出SemanticALLI,这是Alli(PMG的营销情报平台)中的一种流程感知架构,旨在实现冗余推理的可操作化。通过将生成过程分解为分析意图解析(AIR)和可视化合成(VS),SemanticALLI将结构化的中间表示(IRs)提升为可缓存的第一类对象。实验表明,在智能体循环中使用缓存具有显著影响。基线单体缓存由于语言变化率限制,命中率最高仅为38.7%。相比之下,本文的结构化方法通过引入可视化合成阶段,实现了83.10%的命中率,避免了4,023次LLM调用,中位延迟仅为2.66毫秒。这种内部重用减少了总token消耗,为AI系统设计提供了实用启示:即使用户很少重复自己,流程本身却常常在稳定、结构化的检查点上重复,而这些正是缓存最可靠的地方。
Agent Memory 缓存优化 智能体系统 中间表示 结构化推理
论文核心聚焦于Agent系统中的记忆机制,提出了一种结构化缓存中间推理结果的方法。
AgentSM: Semantic Memory for Agentic Text-to-SQL
Asim Biswal, Chuan Lei, Xiao Qin, Aodong Li, Balakrishnan Narayanaswamy et al.
Asim Biswal△∘, Chuan Lei∗⋄, Xiao Qin∗□, Aodong Li∘,Balakrishnan Narayanaswamy∘, Tim Kraska∘ (∘\circAmazon Web Services△\triangleUniversity of California, Berkeley⋄\diamondOracle Corporation□\BoxSnowflake Inc.)
9/10 2026-01-22 cs.AI PDF
基于LLM的文本到SQL方法在BIRD和Spider等基准测试中取得了显著进展。然而,这些系统在现实企业环境中面临挑战,如大型复杂模式、多样化的SQL方言以及昂贵的多步骤推理。新兴的智能体方法虽具有自适应推理潜力,但常因效率低下和不稳定而受限,例如重复与数据库交互、输出不一致或无法生成有效答案。为解决这些问题,本文提出了Agent Semantic Memory(AgentSM),一种构建和利用可解释语义记忆的智能体框架。该框架通过结构化程序捕获或合成先前执行轨迹,直接指导未来推理,从而实现推理路径的系统性复用,使智能体能够高效可靠地处理更大规模的模式、更复杂的问题和更长的推理轨迹。在Spider 2.0基准测试中,AgentSM相比现有最佳系统平均减少了25%的token使用量和35%的轨迹长度,并在Spider 2.0 Lite基准测试中实现了44.8%的最先进准确率。
Agent Memory Text-to-SQL Semantic Memory LLM Agent
论文明确提出并设计了Agent Semantic Memory机制,作为系统的核心组件。
Memory Retention Is Not Enough to Master Memory Tasks in Reinforcement Learning
Oleg Shchendrigin, Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov
9/10 2026-01-21 cs.LG PDF
现实世界中的有效决策依赖于既稳定又适应性的记忆:环境随时间变化,智能体需要在长时域内保留相关信息,同时在情况变化时更新或覆盖过时内容。现有的强化学习(RL)基准和增强记忆的智能体主要关注记忆保留,而对同样关键的记忆重写能力研究较少。为弥补这一不足,我们引入了一个明确测试部分可观测环境下持续记忆更新的基准,并用其比较循环网络、基于Transformer和结构化记忆架构的表现。实验表明,尽管经典循环模型结构简单,但其在记忆重写任务中表现出更高的灵活性和鲁棒性,而现代结构化记忆和基于Transformer的智能体仅在特定条件下有效,且常在复杂任务中失败。这些发现揭示了当前方法的根本局限性,并强调了需要平衡稳定保留与适应性更新的记忆机制。本工作突出了这一被忽视的挑战,引入了评估基准,并为设计具有显式可训练遗忘机制的未来RL智能体提供了见解。
强化学习 记忆更新 结构化记忆 Transformer 记忆重写
论文核心聚焦于强化学习中的记忆更新机制,直接探讨记忆保留与重写能力的平衡问题。
Code
SpatialMem: Unified 3D Memory with Metric Anchoring and Fast Retrieval
Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng et al.
9/10 2026-01-21 cs.CV PDF
本文提出了一种以记忆为中心的系统SpatialMem,将三维几何、语义和语言统一为可查询的表示形式。该系统从随意捕获的第一人称RGB视频开始,重建出符合度量尺度的室内环境,并检测结构化的三维锚点(如墙壁、门、窗)作为第一层框架,同时构建一个分层记忆系统,其中包含开放词汇的对象节点,将证据片段、视觉嵌入和双层文本描述链接到三维坐标中,实现紧凑存储和快速检索。这一设计支持对空间关系(如距离、方向、可见性)的可解释推理,并支持无需专用传感器的语言引导导航和对象检索任务。实验表明,在三种真实室内场景中,即使在杂乱和遮挡增加的情况下,SpatialMem仍能保持较高的锚点-描述级导航完成率和分层检索准确性,提供了一个高效且可扩展的具身空间智能框架。
Agent Memory 3D Reconstruction Language-Visual Alignment Hierarchical Memory
论文核心围绕SpatialMem记忆系统,统一3D几何、语义和语言,强调记忆存储与检索机制。
HiNS: Hierarchical Negative Sampling for More Comprehensive Memory Retrieval Embedding Model
Motong Tian, Allen P. Wong, Mingjun Mao, Wangchunshu Zhou
9/10 2026-01-21 cs.CL PDF
增强记忆的语言代理依赖于嵌入模型实现有效的记忆检索。然而,现有训练数据构建忽视了一个关键限制:负样本的层次化难度及其在人机交互中的自然分布。实际上,一些负样本是语义上相近的干扰项,而另一些则是明显无关的,自然对话中这两类样本的比例具有结构性特征。当前使用合成或均匀采样的负样本方法无法反映这种多样性,限制了嵌入模型学习精细判别能力,从而影响记忆检索的鲁棒性。本文提出了一种基于原理的数据构建框架HiNS,显式建模负样本的难度层级,并结合从对话数据中得出的经验性负样本比例,使嵌入模型在记忆密集型任务中显著提升了检索精度和泛化能力。实验结果表明,在LoCoMo和PERSONAMEM数据集上均取得了显著提升。
Agent Memory 嵌入模型 负样本采样 记忆检索
论文直接针对Agent Memory中的嵌入模型优化,提出改进的负样本采样方法以提升记忆检索效果。
OP-Bench: Benchmarking Over-Personalization for Memory-Augmented Personalized Conversational Agents
Yulin Hu, Zimo Long, Jiahe Guo, Xingyu Sui, Xing Fu et al.
9/10 2026-01-20 cs.CL PDF
记忆增强型对话代理通过长期用户记忆实现个性化交互,已受到广泛关注。然而现有基准主要关注代理是否能回忆并应用用户信息,而忽视了这种个性化是否恰当使用。实际上,代理可能过度使用个人信息,导致回应显得生硬、侵入性或不适当。本文将此问题定义为“过度个性化”,并将其形式化为三种类型:无关性、重复性和奉承性。为此,我们构建了一个包含1700个经过验证实例的基准测试集OP-Bench,基于长期对话历史进行构建。利用OP-Bench,我们评估了多个大语言模型和记忆增强方法,发现引入记忆后过度个性化现象普遍存在。进一步分析表明,代理倾向于在不必要的场景下检索并过度关注用户记忆。为解决这一问题,我们提出了Self-ReCheck,一种轻量级、模型无关的记忆过滤机制,在保持个性化性能的同时缓解过度个性化问题。本研究为记忆增强对话系统中更可控和适当的个性化提供了初步探索。
Agent Memory Over-Personalization Dialogue Systems Benchmark Memory Filtering
论文核心聚焦于记忆增强对话代理中的过度个性化问题,提出OP-Bench和Self-ReCheck方法,直接涉及Agent Memory机制。
LLM-as-RNN: A Recurrent Language Model for Memory Updates and Sequence Prediction
Yuxing Lu, J. Ben Tamo, Weichen Zhao, Nan Sun, Yishan Zhong et al.
9/10 2026-01-19 cs.CL PDF
大型语言模型是强大的序列预测器,但标准推理依赖于不可变的上下文历史。在生成步骤t出现错误后,模型缺乏可更新的记忆机制以改进步骤t+1的预测。我们提出LLM-as-RNN,一个仅用于推理的框架,通过将隐藏状态表示为自然语言记忆,将冻结的LLM转化为循环预测器。该状态以结构化系统提示摘要的形式实现,并通过反馈驱动的文本重写在每个时间步进行更新,从而实现在不更新参数的情况下学习。在固定的token预算下,LLM-as-RNN能够纠正错误并保留任务相关模式,有效通过语言进行在线学习。我们在医疗、气象和金融领域的三个序列基准上评估了该方法,在Llama、Gemma和GPT模型家族中显著优于零样本、全历史和MemPrompt基线,平均提高了6.5%的预测准确性,同时生成了标准上下文积累所缺失的可解释、可读的学习轨迹。
Agent Memory LLM推理 序列预测 在线学习 自然语言记忆
论文核心聚焦于LLM的可更新记忆机制,提出基于语言的记忆状态更新方法,直接关联Agent Memory。
Gated Differentiable Working Memory for Long-Context Language Modeling
Lingrui Mei, Shenghua Liu, Yiwei Wang, Yuyao Ge, Baolong Bi et al.
9/10 2026-01-19 cs.CL PDF
长上下文对Transformer模型提出了挑战:注意力分数在数千个token上稀释,关键信息常在中间部分丢失,且模型难以在推理时适应新模式。近期研究通过维护一种工作记忆(即在当前上下文中更新的临时参数)来解决这一问题,但现有方法依赖于统一的写入策略,导致计算资源浪费在低效区域,并在语义异构上下文中梯度方差较高。本文将测试时自适应重新定义为预算受限的记忆巩固问题,关注在有限计算条件下应巩固上下文的哪些部分。我们提出Gdwm(门控可微工作记忆),引入一个写控制器以门控巩固过程。该控制器估计上下文效用,这是一种衡量长距离上下文依赖的信息论指标,并据此分配梯度步骤,同时保持全局覆盖。在ZeroSCROLLS和LongBench v2上的实验表明,Gdwm在使用4倍更少梯度步骤的情况下实现了与均匀基线相当或更优的性能,确立了测试时自适应的新效率-性能帕累托前沿。
工作记忆 测试时自适应 长上下文建模 梯度优化 门控机制
论文核心聚焦于工作记忆机制,提出Gdwm框架用于长上下文语言建模中的测试时自适应。
Who Does This Name Remind You of ? Nationality Prediction via Large Language Model Associative Memory
Keito Inoshita
9/10 2026-01-19 cs.CL PDF
大型语言模型(LLMs)拥有广泛的世界知识,但有效提取这些知识的方法仍较少被研究。国籍和区域预测任务需要理解语言特征以及文化和历史背景,这使得LLM的世界知识特别有价值。然而,传统LLM提示方法依赖直接推理,难以应用抽象的语言规则。本文提出LLM联想记忆代理(LAMA),一种利用LLM世界知识作为联想记忆的新框架。LAMA不直接从名字推断国籍,而是通过回忆同名的著名人物并聚合其国籍来实现间接推理。该框架采用包含人物代理和媒体代理的双代理架构,并行召回名人信息,通过投票生成Top-1预测,通过条件补全生成Top-K预测。在99个国家的国籍预测任务中,LAMA达到0.817的准确率,显著优于传统LLM提示方法和神经网络模型。实验表明,LLM在回忆具体实例方面比抽象推理更可靠,基于回忆的方法对低频国籍具有鲁棒性,且双代理架构能够互补协同产生协同效应。这些结果证明了通过检索和聚合LLM知识而非提示推理的新多代理系统的有效性。
Agent Memory 多代理系统 国籍预测 联想记忆 LLM知识检索
论文核心提出LLM Associative Memory Agents框架,明确以记忆机制为核心,用于国籍预测任务。
Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering
Xinyu Zhu, Yuzhu Cai, Zexi Liu, Bingyang Zheng, Cheng Wang et al.
9/10 2026-01-15 cs.AI PDF
当前人工智能向智能体科学的发展受限于超长周期自主性——即在持续数天或数周的实验周期中维持战略连贯性与迭代修正的能力。尽管大语言模型(LLMs)在短周期推理中表现优异,但在高维、延迟反馈的真实科研环境中易被执行细节淹没,难以将稀疏反馈整合为长期指导。本文提出ML-Master 2.0,一种掌握超长周期机器学习工程(MLE)的自主智能体。通过将上下文管理重构为认知积累过程,引入受计算机系统启发的分层认知缓存(HCC)架构,实现经验在时间维度上的结构化区分。HCC动态将瞬时执行轨迹提炼为稳定知识与跨任务智慧,使智能体解耦即时执行与长期实验策略,有效突破静态上下文窗口的扩展限制。在OpenAI MLE-Bench上24小时预算内,ML-Master 2.0达到56.44%的最先进奖牌率。
Agent Memory Long-horizon Autonomy
提出分层认知缓存机制,核心解决长期记忆与知识积累问题。
Digital Metabolism: Decoupling Logic from Facts via Regenerative Unlearning -- Towards a Pure Neural Logic Core
Mengmeng Peng, Zhenyu Fang, He Sun
9/10 2026-01-15 cs.LG PDF
当前大语言模型(LLMs)存在参数纠缠问题,即通用推理能力(逻辑)与具体事实知识(事实)在共享权重中处于叠加态,导致“记忆墙”现象,浪费计算资源并引发幻觉。本文提出“数字代谢”假说,认为定向遗忘是提炼纯神经逻辑核心的必要过程。为此,我们设计了再生性逻辑核心协议(RLCP),一种双流训练框架,通过深层梯度反转使特定事实依赖在线性层面不可解码。在Qwen2.5-0.5B上的实验显示,模型对目标事实的保留率趋近于零(准确率<7%),同时呈现出“结构结晶化”效应。GSM8K测试表明,该“代谢”模型自发采用思维链(CoT)推理,以补偿直接联想回忆的缺失(从O(1)回忆转向O(N)推理)。该研究为模块化“神经CPU+符号RAM”架构奠定基础。
Agent Memory Neural Logic Core
提出“数字代谢”机制,通过定向遗忘解耦逻辑与事实记忆,直接研究Agent Memory核心架构。
PersonalAlign: Hierarchical Implicit Intent Alignment for Personalized GUI Agent with Long-Term User-Centric Records
Yibo Lyu, Gongwei Chen, Rui Shao, Weili Guan, Liqiang Nie
9/10 2026-01-14 cs.AI PDF
尽管GUI智能体在显式和完成型指令下表现优异,但实际部署需对齐用户更复杂的隐式意图。本文提出“个性化GUI智能体的分层隐式意图对齐”(PersonalAlign)新任务,要求智能体利用长期用户记录作为持久上下文,解析模糊指令中省略的偏好,并基于用户状态预判潜在例行行为以提供主动协助。为此,我们构建了AndroidIntent基准,包含从2万条长期记录中标注的775项用户偏好与215个例行流程。同时,我们提出分层意图记忆智能体(HIM-Agent),持续更新个人记忆并分层组织偏好与例行行为以实现个性化。在AndroidIntent上的评估表明,HIM-Agent相较GPT-5、Qwen3-VL和UI-TARS等模型,在执行与主动性能上分别提升15.7%和7.3%。
Agent Memory Personalization
论文核心提出基于长期用户记录的分层意图记忆机制,明确构建个性化记忆系统。
Where Knowledge Collides: A Mechanistic Study of Intra-Memory Knowledge Conflict in Language Models
Minh Vu Pham, Hsuvas Borkakoty, Yufang Hou
9/10 2026-01-14 cs.CL PDF
在语言模型(LMs)中,当关于同一事件的不一致信息被编码到模型的参数化知识中时,会引发内部记忆知识冲突。以往工作主要通过微调或知识编辑等方法解决模型内部知识与外部资源之间的冲突,但对预训练阶段在模型内部表征中产生的冲突定位问题尚未探索。本文基于机制可解释性方法构建框架,识别预训练数据中的冲突知识在语言模型中的编码位置与方式。研究发现,模型特定内部组件负责编码预训练中的冲突知识,并展示了如何利用机制可解释性方法在推理阶段对冲突知识进行因果干预与控制。
机制可解释性 知识冲突
聚焦语言模型内部记忆中知识冲突的机制与定位,属核心记忆研究。
MemRec: Collaborative Memory-Augmented Agentic Recommender System
Weixin Chen, Yuhan Zhao, Jingyuan Huang, Zihe Ye, Clark Mingxuan Ju et al.
9/10 2026-01-13 cs.IR PDF
随着推荐系统的发展,偏好存储已从评分矩阵和密集嵌入转向语义记忆。然而现有智能体依赖孤立记忆,忽略了关键的协作信号。为解决这一问题,本文提出MemRec框架,通过架构上分离推理与记忆管理,实现高效的协作增强。MemRec引入了一个专用且成本效益高的LM_Mem模块,用于管理动态协作记忆图,并向下游LLM_Rec提供高信号上下文。该框架采用高效检索和异步图传播的实用流程,在后台演化记忆。在四个基准上的实验表明,MemRec取得了最先进的性能。此外,架构分析证实了其灵活性,支持多种部署方式,包括本地开源模型。
Agent Memory 推荐系统 图神经网络 协作学习
论文标题和内容明确聚焦于Agent Memory机制,提出MemRec框架以改进协作记忆管理。
Code
PrivGemo: Privacy-Preserving Dual-Tower Graph Retrieval for Empowering LLM Reasoning with Memory Augmentation
Xingyu Tan, Xiaoyang Wang, Qing Liu, Xiwei Xu, Xin Yuan et al.
9/10 2026-01-13 cs.CL PDF
知识图谱(KGs)为大型语言模型(LLMs)在知识密集型问答中的推理提供了结构化证据。然而,许多实际应用中的KG是私有的,将检索到的三元组或探索轨迹发送给闭源LLM API会带来信息泄露风险。现有隐私处理方法主要集中在实体名称的掩码上,但仍面临语义掩码下的结构泄露、远程交互不可控、多跳和多实体推理脆弱以及经验重用受限等四个问题。为此,我们提出PrivGemo,一种隐私保护的检索增强框架,通过记忆引导的暴露控制实现基于KG的推理。PrivGemo采用双塔设计,在本地保留原始KG知识的同时,通过匿名视图进行远程推理,超越名称掩码以限制语义和结构暴露。PrivGemo支持多跳、多实体推理,通过检索连接所有主题实体的匿名长跳路径,并在本地KG上进行接地和验证。一个分层控制器和隐私感知的经验记忆进一步减少不必要的探索和远程交互。在六个基准上的全面实验表明,PrivGemo总体达到最先进的效果,比最强基线高出17.1%。此外,PrivGemo使较小模型(如Qwen3-4B)能够实现与GPT-4-Turbo相当的推理性能。
Agent Memory Privacy-Preserving Knowledge Graph Retrieval-Augmented Reasoning LLM
论文核心聚焦于基于记忆增强的隐私保护检索框架,明确涉及Agent Memory机制与系统设计。
Fine-Mem: Fine-Grained Feedback Alignment for Long-Horizon Memory Management
Weitao Ma, Xiaocheng Feng, Lei Huang, Xiachong Feng, Zhanyu Ma et al.
9/10 2026-01-13 cs.CL PDF
有效的记忆管理对于大型语言模型代理完成长时程任务至关重要。近期研究尝试使用强化学习开发专门的记忆管理代理,但现有方法依赖最终任务性能作为主要奖励,导致奖励稀疏且信用分配无效,难以指导具体记忆操作。为此,我们提出Fine-Mem,一个统一的细粒度反馈对齐框架。首先,我们引入块级步奖励,通过辅助的块特定问答任务提供即时监督;其次,设计基于证据的奖励归因机制,通过将信用锚定到关键记忆操作来重新分配全局奖励。这些组件共同实现了稳定的策略优化,并使局部记忆操作与记忆的长期效用保持一致。在Memalpha和MemoryAgentBench上的实验表明,Fine-Mem在各种子任务中均优于强基线,具有良好的适应性和泛化能力。
Agent Memory Reinforcement Learning Feedback Alignment Long-Horizon Task Memory Management
论文明确聚焦于长时记忆管理,提出Fine-Mem框架解决记忆操作的反馈对齐问题,属于Agent Memory核心研究。
Mem2ActBench: A Benchmark for Evaluating Long-Term Memory Utilization in Task-Oriented Autonomous Agents
Yiting Shen, Kun Li, Wei Zhou, Songlin Hu
9/10 2026-01-13 cs.CL PDF
基于大语言模型(LLM)的智能体越来越多地被部署在需要复杂工具操作的任务中,其中长期记忆对于驱动行动至关重要。然而,现有基准主要测试智能体在回答显式问题时被动检索孤立事实的能力,未能评估其主动应用记忆执行任务的关键能力。为弥补这一不足,本文提出Mem2ActBench,一个用于评估智能体是否能主动利用长期记忆选择适当工具并进行参数定位的基准。该基准模拟了持续的助手使用场景,用户在长时间、中断的交互中提及相同主题,并期望之前建立的偏好和任务状态被隐式应用。数据集通过自动化流程构建,整合了多个异构来源(ToolACE、BFCL、Oasst1),并通过一致性建模解决冲突,合成2029个会话,平均包含12轮用户-助手-工具交互。从这些记忆链中,反向生成方法生成400个工具使用任务,人工评估确认其中91.3%具有高度依赖记忆的特性。实验表明,当前系统在主动利用记忆进行参数定位方面仍存在不足,突显了改进记忆应用评估与优化的必要性。
Agent Memory Benchmark Task-Oriented Agents Long-Term Memory Tool Use
论文直接聚焦于长期记忆在任务导向智能体中的应用,提出专门的基准测试Mem2ActBench。
Embedded AI Companion System on Edge Devices
Rahul Gupta, Stephen D. H. Hsu
9/10 2026-01-13 cs.AI PDF
由于边缘设备计算资源受限,开发具有令人满意的用户体验的完全嵌入式AI伴侣系统面临挑战。现有文献中关于AI伴侣和记忆系统的方案因缺乏计算资源和延迟问题无法直接应用。本文提出了一种交替运行的内存范式:在用户活跃阶段,系统通过轻量级检索实现低延迟、实时对话;在用户不活跃阶段,则进行更复杂的记忆提取、整合与维护。该设计在嵌入式硬件严格限制下最小化了延迟并保持长期个性化。我们还引入了一个AI伴侣基准测试,用于全面评估其对话质量和记忆能力。实验表明,使用Qwen2.5-7B-Instruct量化模型的系统在多数指标上优于无记忆的原始LLM,并可与GPT-3.5(16k上下文窗口)媲美。
边缘计算 AI伴侣 记忆系统 低延迟对话 嵌入式系统
论文核心提出了一种针对边缘设备的Agent Memory机制,明确涉及记忆的主动与非主动阶段设计。
MemoBrain: Executive Memory as an Agentic Brain for Reasoning
Hongjin Qian, Zhao Cao, Zheng Liu
9/10 2026-01-12 cs.AI PDF
在工具增强的智能体框架中,复杂推理过程具有长期性,导致推理轨迹和临时工具产物不断累积,超出大语言模型的有限工作上下文容量。缺乏显式记忆机制时,这种累积会破坏逻辑连续性并削弱任务对齐性。本文将记忆视为维持长期连贯、目标导向推理的核心组件,而非辅助效率问题。我们提出了MemoBrain,一种用于工具增强智能体的执行记忆模型,其通过构建依赖感知的记忆,在推理步骤中捕捉关键中间状态及其逻辑关系。MemoBrain作为推理智能体的协作者,组织推理进展而不阻断执行,并主动管理工作上下文。具体而言,它修剪无效步骤、折叠已完成的子轨迹,并在固定上下文预算下保留一个紧凑且高显著性的推理主干。这些机制共同实现了对推理轨迹的显式认知控制,而非被动的上下文积累。我们在具有挑战性的长期推理基准(如GAIA、WebWalker和BrowseComp-Plus)上评估了MemoBrain,结果表明其在强基线之上表现一致提升。
Agent Memory Long-Horizon Reasoning Context Management Tool-Augmented Agents
论文核心聚焦于Agent Memory机制,提出MemoBrain作为执行记忆模型,直接针对长时推理中的上下文管理问题。
ES-Mem: Event Segmentation-Based Memory for Long-Term Dialogue Agents
Huhai Zou, Tianhao Sun, Chuanjiang He, Yu Tian, Zhenyang Li et al.
9/10 2026-01-12 cs.CL PDF
记忆对于对话代理在长期交互中保持连贯性和实现持续适应至关重要。尽管现有的记忆机制提供了基本的存储和检索能力,但它们受到两个主要限制:(1)固定的记忆粒度常常破坏语义完整性,导致碎片化和不连贯的记忆单元;(2)普遍的扁平检索范式仅依赖于表面语义相似性,忽视了用于导航和定位特定情景上下文所需的语篇结构线索。为缓解这些限制,受事件分割理论启发,我们提出了ES-Mem,一个包含两个核心组件的框架:(1)动态事件分割模块,将长期交互划分为具有明确边界的语义连贯事件;(2)分层记忆架构,构建多层级记忆,并利用边界语义锚定特定情景记忆以实现精确的情景定位。在两个记忆基准测试中的评估表明,ES-Mem在基线方法上实现了稳定的性能提升。此外,所提出的事件分割模块在对话分割数据集上表现出良好的适用性。
Agent Memory Event Segmentation Dialogue Systems Hierarchical Memory
论文核心聚焦于对话代理的长期记忆机制,提出基于事件分割的记忆框架ES-Mem。
Learning How to Remember: A Meta-Cognitive Management Method for Structured and Transferable Agent Memory
Sirui Liang, Pengfei Cao, Jian Zhao, Wenhao Teng, Xiangwen Liao et al.
Pengfei Cao (Institute of Automation, Chinese Academy of Sciences)
9/10 2026-01-12 cs.AI PDF
大型语言模型(LLM)智能体在解决长期决策任务时越来越依赖积累的记忆。然而,现有方法通常以固定表示形式存储记忆,并在单一或隐含的抽象层次上重用,这限制了泛化能力,并在分布偏移时导致负迁移。本文提出了一种元认知记忆抽象方法(MCMA),将记忆抽象视为一种可学习的认知技能,而非固定设计选择。MCMA通过结合冻结的任务模型和学习的记忆协作者,将任务执行与记忆管理解耦。记忆协作者通过直接偏好优化进行训练,决定记忆应如何结构化、抽象化和重用。进一步地,记忆被组织为多个抽象层次,实现基于任务相似性的选择性重用。当没有可迁移记忆时,MCMA通过迁移记忆协作者来传递抽象和管理记忆的能力。在ALFWorld、ScienceWorld和BabyAI上的实验表明,该方法在性能、分布外泛化和跨任务迁移方面均优于多个基线方法。
Agent Memory Meta-Cognition Memory Abstraction Transfer Learning
论文核心聚焦于Agent Memory的抽象与管理机制,提出可学习的记忆抽象方法。
Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
Xin Cheng, Wangding Zeng, Damai Dai, Qinyu Chen, Bingxuan Wang et al.
9/10 2026-01-12 cs.CL PDF
尽管混合专家(MoE)通过条件计算扩展了模型容量,但Transformer缺乏原生的知识检索机制,迫使它们通过计算低效地模拟检索。为了解决这一问题,我们引入了条件记忆作为补充的稀疏轴,并通过Engram模块实现,该模块现代化了经典的N-gram嵌入以实现O(1)查找。通过建立稀疏性分配问题,我们发现了一种U型扩展规律,优化了神经计算(MoE)与静态记忆(Engram)之间的权衡。在该规律指导下,我们将Engram扩展至270亿参数,在保持参数和FLOPs相同的情况下优于基线模型。实验表明,Engram不仅提升了知识检索能力,还在一般推理、代码和数学领域表现出显著提升。分析显示,Engram减轻了主干网络早期层的静态重构负担,有效加深了网络结构,同时释放了注意力资源用于全局上下文处理,显著提升了长上下文检索性能。此外,Engram还具备运行时预取能力,开销极小。
Agent Memory Sparse Models Knowledge Retrieval Efficient Lookup
论文核心提出条件记忆机制,直接针对LLM的Memory系统设计,具有明确的创新性和相关性。
Active Context Compression: Autonomous Memory Management in LLM Agents
Nikhil Verma
9/10 2026-01-12 cs.AI PDF
大型语言模型(LLM)代理在长期软件工程任务中面临“上下文膨胀”问题,导致计算成本激增、延迟增加和推理能力下降。现有解决方案通常依赖被动的外部摘要机制,而无法由代理自主控制。本文提出Focus架构,受黏菌(Physarum polycephalum)生物探索策略启发,代理可自主决定何时将关键学习内容整合为持久化的“知识”块,并主动删除原始交互历史。通过优化的工业级框架(持久化bash + 字符串替换编辑器),使用Claude Haiku 4.5对SWE-bench Lite中的5个上下文密集型实例进行评估。在频繁压缩的提示下,Focus实现了22.7%的token减少(14.9M → 11.5M tokens),同时保持相同准确率(3/5 = 60%)。每个任务平均执行6次自主压缩,单个实例最多节省57%的token。研究表明,当提供适当工具和提示时,有能力的模型可以自主调节其上下文,为不牺牲任务性能的成本感知代理系统开辟新路径。
Agent Memory Context Compression Autonomous Management LLM Optimization
论文核心研究LLM Agent的自主记忆管理机制,提出Focus架构解决Context Bloat问题。
Amory: Building Coherent Narrative-Driven Agent Memory through Agentic Reasoning
Yue Zhou, Xiaobo Guo, Belhassen Bayar, Srinivasan H. Sengamedu
9/10 2026-01-09 cs.CL PDF
长期对话代理面临一个根本的可扩展性挑战:随着交互时间的延长,重复处理整个对话历史变得计算上不可行。当前方法主要通过将对话片段分解为孤立的嵌入或图表示,并以RAG风格检索相关部分来解决这一问题。尽管这些方法在计算效率上较高,但通常对记忆形成处理较为简单,难以捕捉人类记忆的细微和连贯性。本文提出Amory,一种工作记忆框架,通过增强离线时间的智能体推理主动构建结构化记忆表示。Amory将对话片段组织成情节叙事,利用动量进行记忆巩固,并将外围事实语义化为语义记忆。在检索时,系统采用基于连贯性的叙事结构推理。在LOCOMO长期推理基准测试中,Amory相比之前最先进的方法有显著提升,性能与完整上下文推理相当,同时将响应时间减少了50%。分析表明,动量感知的记忆巩固显著提升了响应质量,而连贯性驱动的检索相比基于嵌入的方法提供了更优的记忆覆盖。
Agent Memory Narrative-Driven Memory Long-Term Reasoning Semantic Memory
论文核心聚焦于构建Agent Memory机制,提出Amory框架并强调记忆的连贯性和结构化。
StackPlanner: A Centralized Hierarchical Multi-Agent System with Task-Experience Memory Management
Ruizhe Zhang, Xinke Jiang, Zhibang Yang, Zhixin Zhang, Jiaran Gao et al.
9/10 2026-01-09 cs.AI PDF
基于大语言模型的多智能体系统,尤其是集中式架构,在复杂和知识密集型任务中展现出强大潜力。然而,中央智能体常因缺乏记忆管理而面临长期协作不稳定的问题,导致上下文膨胀、错误累积和跨任务泛化能力差。为了解决任务级记忆效率低下及无法复用协调经验的问题,本文提出StackPlanner,一种具有显式记忆控制的分层多智能体框架。该框架通过将高层协调与子任务执行解耦,并结合主动任务级记忆控制,以及结构化经验记忆与强化学习来检索和利用可复用的协调经验,从而有效应对上述挑战。在多个深度搜索和多智能体系统基准测试中的实验表明,该方法能够实现可靠长期的多智能体协作。
多智能体系统 记忆管理 强化学习 任务分解
论文明确提出任务经验记忆管理,核心解决记忆控制与复用问题,属于Agent Memory机制研究。
Generation-Based and Emotion-Reflected Memory Update: Creating the KEEM Dataset for Better Long-Term Conversation
Jeonghyun Kang, Hongjin Kim, Harksoo Kim
9/10 2026-01-09 cs.CL PDF
在本研究中,我们引入了保持情感与关键记忆(KEEM)数据集,这是一个新颖的基于生成的方法设计的数据集,旨在增强长期对话系统中的记忆更新能力。不同于现有依赖简单累积或操作方法的方案,这些方法常导致信息冲突并难以准确跟踪用户的当前状态,KEEM通过动态生成整合性记忆来解决这些问题。该过程不仅保留了关键的事实信息,还融入了情感背景和因果关系,从而更细致地理解用户交互。通过无缝更新系统中包含情感和关键数据的记忆,我们的方法促进了更深层次的共情,并增强了系统在开放领域对话中做出有意义回应的能力。
Agent Memory 对话系统 情感计算 数据集构建
论文核心聚焦于基于生成的Agent Memory更新机制,提出KEEM数据集以提升长期对话中的记忆管理。
FlashMem: Distilling Intrinsic Latent Memory via Computation Reuse
Yubo Hou, Zhisheng Chen, Tao Wan, Zengchang Qin
9/10 2026-01-09 cs.CL PDF
大型语言模型的无状态架构本质上缺乏保存动态上下文的机制,迫使代理重复处理历史信息以维持长期自主性。尽管潜在记忆提供了解决方案,但现有方法因架构分离而受限,依赖于将记忆与推理主干解耦的辅助编码器。本文提出FlashMem框架,通过计算复用从瞬时推理状态中提炼内在记忆。利用内部表示唯一编码输入轨迹的特性,FlashMem识别最后一个隐藏状态作为交互历史的充分统计量。这使得共享键值整合器能够直接关注主干的冻结缓存来合成记忆,消除了冗余参数化。此外,一个无需参数的认知监控器利用注意力熵在检测到高认识不确定性时自适应触发整合。实验表明,FlashMem在保持重型基线性能的同时,将推理延迟降低了5倍,有效弥合了效率与持续认知之间的差距。
Agent Memory LLM Computation Reuse Latent Memory
论文直接针对Agent Memory机制,提出FlashMem框架以优化记忆存储与推理效率。
MemBuilder: Reinforcing LLMs for Long-Term Memory Construction via Attributed Dense Rewards
Zhiyu Shen, Ziming Wu, Fuming Lai, Shaobing Lian, Yanghui Rao
Zhiyu Shen (Sun Yat-Sen University)
9/10 2026-01-09 cs.CL PDF
在长期对话中保持一致性仍然是LLM的一个基本挑战,因为标准检索机制通常无法捕捉历史状态的时间演变。虽然记忆增强框架提供了一种结构化的替代方案,但现有系统依赖于封闭源模型的静态提示或受到稀疏奖励训练范式的限制。我们引入了MemBuilder,一种强化学习框架,用于训练模型通过属性密集奖励协调多维记忆构建。MemBuilder解决了两个关键挑战:(1)稀疏轨迹级奖励:我们采用合成会话级问题生成,在扩展轨迹中提供密集的中间奖励;(2)多维记忆归因:我们引入了基于贡献感知梯度加权的方法,根据每个组件的下游影响进行策略更新。实验结果表明,MemBuilder使一个4B参数模型能够超越最先进的封闭源基线,在长期对话基准测试中表现出强大的泛化能力。
LLM Memory Construction Reinforcement Learning Dialogue Systems
论文直接聚焦于LLM的长期记忆构建,提出MemBuilder框架,属于Agent Memory核心研究。
MineNPC-Task: Task Suite for Memory-Aware Minecraft Agents
Tamil Sudaravan Mohan Doss, Michael Xu, Sudha Rao, Andrew D. Wilson, Balasaravanan Thoravi Kumaravel
Tamil Sudaravan Mohan Doss (Microsoft) | Michael Xu (Microsoft ResearchUnited States) | Sudha Rao (Microsoft ResearchUnited States)
9/10 2026-01-08 cs.AI PDF
本文提出MineNPC-Task,一个由用户构建的基准与评估框架,用于在开放世界《我的世界》中测试具备记忆能力、支持混合主动性的大语言模型智能体。任务源自与专家玩家的协作游戏,经规范化为带显式前提条件与依赖结构的参数化模板,并配以机器可验证的校验器,遵循禁止利用外部知识的有限知识策略。该框架记录计划/行动/记忆事件(包括计划预览、定向澄清、记忆读写、前提检查与修复尝试),并基于游戏内证据统计子任务完成情况。初步实验使用GPT-4o,在8名资深玩家参与下评估了216个子任务,揭示了代码执行、物品/工具操作、引用与导航中的常见失败模式,以及依赖混合主动性澄清和轻量记忆的恢复机制。参与者对交互质量与界面可用性给予积极评价,同时指出跨任务记忆持久性的不足。作者开源完整任务套件、验证器、日志与评估框架,以支持未来具身记忆智能体的透明、可复现评估。
Agent Memory Embodied AI
论文聚焦于评估具有记忆能力的LLM智能体,明确设计记忆读写、持久性等机制。
Agentic Memory Enhanced Recursive Reasoning for Root Cause Localization in Microservices
Lingzhe Zhang, Tong Jia, Yunpeng Zhai, Leyi Pan, Chiming Duan et al.
Lingzhe Zhang (Peking UniversityBeijingChina) | Tong Jia∗ (Peking UniversityBeijingChina) | Yunpeng Zhai (Alibaba GroupChina)
9/10 2026-01-06 cs.SE PDF
随着微服务系统日益复杂,故障频发,准确的根因定位对保障系统可靠性至关重要。现有LLM方法常受限于浅层症状推理和缺乏跨告警复用,导致精度低、延迟高。本文通过调研多位站点可靠性工程师(SRE)的根因分析实践,提炼出递归性、多维扩展性和跨模态推理三大特征,并据此提出AMER-RCL框架。该框架结合递归推理引擎与智能体记忆(Agentic Memory),前者对每个告警进行递归细化候选根因,后者在时间窗口内累积并复用历史推理结果,减少冗余探索。实验表明,AMER-RCL在定位准确率和推理效率上均优于现有最先进方法。
Agent Memory Root Cause Localization
论文提出Agentic Memory机制,作为核心组件用于跨告警推理复用,显著提升效率与准确性。
Memory Bank Compression for Continual Adaptation of Large Language Models
Thomas Katraouras, Dimitrios Rafailidis
9/10 2026-01-02 cs.LG PDF
大语言模型(LLMs)在日常应用中广泛使用,但其知识易随数据演化而过时。持续学习旨在更新模型知识而不遗忘旧信息,但全量微调计算成本高且易导致灾难性遗忘。现有记忆增强方法通过外部记忆库存储信息,但在真实场景中面临记忆库无限增长的问题。本文提出MBC模型,通过码本优化策略在线压缩记忆库,并引入在线重置机制防止码本坍塌。同时,在LLM注意力层采用键值低秩适配(Key-Value LoRA),高效利用压缩后的记忆表示。实验表明,MBC在保持高保留准确率的同时,将记忆库规模压缩至最强基线的0.3%。
记忆压缩 持续学习
论文聚焦于LLM外部记忆库的压缩机制,直接研究Agent Memory核心问题。
Code
Interpersonal Memory Matters: A New Task for Proactive Dialogue Utilizing Conversational History
Bowen Wu, Wenqing Wang, Haoran Li, Ying Li, Jingsong Yu et al.
9/10 2025-03-07 cs.CL PDF
主动对话系统旨在使聊天机器人具备引导对话朝特定目标推进的能力,以提升用户参与度与服务自主性。现有系统通常仅关注预定义关键词或实体,忽视了对话历史中隐含的用户属性与偏好,难以建立长期用户亲密度。为此,本文提出将主动对话系统与长期记忆机制融合的统一框架,定义了名为“记忆感知主动对话”(MapDia)的新任务,并构建了首个中文记忆感知主动对话数据集(ChMapData)。此外,设计了一个基于检索增强生成(RAG)的联合框架,包含话题摘要、话题检索及主动话题转换检测与生成三个模块,以在适当时机引导对话回归相关历史话题。通过自动与人工评估验证了数据集与模型的有效性。
Agent Memory Proactive Dialogue
论文核心聚焦于将长期记忆融入主动对话系统,明确提出记忆感知任务。
Code
OpenSage: Self-programming Agent Generation Engine
Hongwei Li, Zhun Wang, Qinrun Dai, Yuzhou Nie, Jinjun Peng et al.
8/10 2026-02-18 cs.AI PDF
代理开发工具包(ADKs)为构建代理提供了有效的平台和工具,其设计对代理性能至关重要,尤其是代理拓扑、工具和记忆功能。然而,当前ADKs要么缺乏足够的功能支持,要么依赖人工手动设计这些组件,限制了代理的泛化能力和整体性能。我们提出了OpenSage,这是首个使LLM能够自动创建具有自生成拓扑和工具集的代理,并提供全面且结构化的记忆支持的ADK。OpenSage为代理创建和管理自己的子代理和工具包提供了有效功能,并具备一种分层的图基记忆系统以实现高效管理,以及专门针对软件工程任务的工具包。在三个最先进的基准测试中进行的广泛实验表明,OpenSage优于现有的ADK。我们还进行了严格的消融研究,以证明每个组件设计的有效性。我们认为,OpenSage可以为下一代代理开发铺平道路,将重点从以人为中心的范式转向以AI为中心的范式。
Agent Memory LLM ADK Self-programming Agent Graph-based Memory
论文提出基于LLM的ADK,明确包含结构化记忆系统,是核心研究内容。
Training Large Reasoning Models Efficiently via Progressive Thought Encoding
Zeliang Zhang, Xiaodong Liu, Hao Cheng, Hao Sun, Chenliang Xu et al.
8/10 2026-02-18 cs.LG PDF
大型推理模型(LRMs)在复杂问题上表现出色,但面临效率瓶颈:基于强化学习的训练需要长序列展开以获取结果奖励,而自回归解码主导了时间和内存使用。尽管滑动窗口缓存策略可以限制内存,但会破坏长上下文推理并降低性能。本文提出渐进式思维编码(Progressive Thought Encoding),一种参数高效的微调方法,使LRMs能够在固定大小缓存下有效推理。通过逐步将中间推理过程编码为固定大小的向量表示,该方法消除了对完整缓存展开进行反向传播的需求,从而减少内存使用,并在推理过程中保持恒定内存。在Qwen2.5-3B-Instruct、Qwen2.5-7B-Instruct和DeepSeek-R1-Distill-Llama-8B等三个模型上进行实验,针对六个广泛使用的数学基准测试显示一致的提升效果:该方法在LoRA微调基础上平均提高19.3%,在未微调的LRMs基础上平均提高29.9%,在AIME2024/2025数据集上最高准确率提升达23.4%。这些结果表明,渐进式思维编码不仅提高了推理准确性,还在现实世界内存约束下显著提升了LRMs的强化学习训练效率和可扩展性。
Agent Memory LLM训练优化 缓存管理 推理效率
论文核心聚焦于通过固定大小缓存提升推理效率,直接涉及Agent Memory机制与优化。
Reinforced Fast Weights with Next-Sequence Prediction
Hee Seung Hwang, Xindi Wu, Sanghyuk Chun, Olga Russakovsky
8/10 2026-02-18 cs.CL PDF
快速权重架构为长上下文建模提供了一种有前景的替代方案,其内存开销与上下文长度无关。然而,其潜力受到下一个标记预测(NTP)训练范式的限制。NTP优化单个标记预测,忽略了前缀后多个标记的语义一致性。因此,快速权重模型通过动态更新参数存储上下文信息,学习到的表示无法捕捉长期依赖关系。本文引入REFINE(基于下一段预测的强化快速权重),一种强化学习框架,在下一段预测(NSP)目标下训练快速权重模型。REFINE基于预测熵选择信息量大的标记位置,生成多标记展开,分配自监督序列级奖励,并使用组相对策略优化(GRPO)优化模型。REFINE适用于预训练语言模型的整个训练周期:中期训练、后期训练和测试时训练。我们在LaCT-760M和DeltaNet-1.3B上的实验表明,REFINE在针尖定位检索、长上下文问答以及LongBench中的多样化任务上始终优于基于NTP的监督微调。REFINE为改进快速权重架构中的长上下文建模提供了有效且通用的框架。
快速权重 长上下文建模 强化学习 序列预测
论文核心研究快速权重架构在长上下文建模中的记忆机制,提出改进方法REFINE以优化长期依赖。
Learning Personalized Agents from Human Feedback
Kaiqu Liang, Julia Kruk, Shengyi Qian, Xianjun Yang, Shengjie Bi et al.
8/10 2026-02-18 cs.AI PDF
现代AI代理虽然功能强大,但往往难以与用户的个性化、动态变化的偏好保持一致。现有方法通常依赖静态数据集,通过交互历史训练隐式偏好模型或在外部存储中编码用户画像,但这些方法在面对新用户和随时间变化的偏好时表现不佳。本文提出了一种名为PAHF(从人类反馈中学习个性化代理)的框架,用于实现持续个性化,代理通过显式的每用户记忆在线学习实时交互数据。PAHF包含一个三步循环:(1)在行动前寻求澄清以解决歧义;(2)根据从记忆中检索出的偏好来指导行动;(3)通过行动后的反馈更新记忆以适应偏好的变化。为评估该能力,作者开发了一个四阶段协议及两个基准测试,分别应用于具身操作和在线购物场景。这些基准测试量化了代理从零开始学习初始偏好并随后适应角色转变的能力。理论分析与实验结果表明,将显式记忆与双通道反馈相结合至关重要:PAHF显著加快了学习速度,并且始终优于无记忆和单通道基线方法,减少了初始个性化误差并实现了对偏好变化的快速适应。
Agent Memory 个性化学习 人机交互 持续学习
论文核心围绕基于显式用户记忆的个性化代理框架,明确涉及Agent Memory机制与更新。
When Remembering and Planning are Worth it: Navigating under Change
Omid Madani, J. Brian Burns, Reza Eghbali, Thomas L. Dean
8/10 2026-02-17 cs.AI PDF
本文研究了不同类型和用途的记忆如何帮助智能体在不断变化的不确定环境中进行空间导航。在所研究的简单觅食任务中,智能体每天需要从其家园穿过障碍物找到食物。世界是非平稳的,障碍物和食物的位置可能每天变化,且智能体的感知信息(如位置)具有不确定性和局限性。任何模型构建(如地图)和使用(如规划)都必须应对这些挑战,并且如果学习有用,必须足够快速。我们考察了多种策略,从简单到复杂,涉及不同的记忆和学习方式。我们发现,一种能够整合多种策略的架构是处理不同性质子任务的关键,尤其是在探索和搜索未知食物位置时,以及在规划通往已记住的(可能)食物位置的路径时。利用非平稳概率学习技术不断更新其(情景记忆)并使用这些记忆构建地图和实时规划(不完美的地图,即嘈杂且受限于智能体经验)的智能体,在任务难度(如目标距离)增加时,相较于简单的(低记忆)智能体,效率显著提高,只要定位和变化带来的不确定性不是太大。
Agent Memory Spatial Navigation Non-stationary Environments Probabilistic Learning Path Planning
论文核心研究记忆在动态环境中的应用,探讨记忆机制对导航和规划的影响。
HyperRAG: Reasoning N-ary Facts over Hypergraphs for Retrieval Augmented Generation
Wen-Sheng Lien, Yu-Kai Chan, Hao-Lung Hsiao, Bo-Kai Ruan, Meng-Fen Chiang et al.
Wen-Sheng Lien (National Yang Ming Chiao Tung UniversityHsinchuTaiwan) | Yu-Kai Chan (National Yang Ming Chiao Tung UniversityHsinchuTaiwan) | Hao-Lung Hsiao (National Yang Ming Chiao Tung UniversityHsinchuTaiwan)
8/10 2026-02-16 cs.CL PDF
基于图的检索增强生成(RAG)方法通常依赖于具有二元关系事实的知识图谱,在多跳开放域问答任务中表现出一定潜力。然而,其固定的检索方案和密集相似性搜索常引入无关上下文、增加计算开销并限制关系表达能力。相比之下,n元超图能够编码更高阶的关系事实,捕捉更丰富的实体间依赖关系,并实现更浅层、更高效的推理路径。为解决这一问题,本文提出HyperRAG,一种针对n元超图设计的RAG框架,包含两种互补的检索变体:HyperRetriever通过结构-语义推理构建查询条件下的关系链,支持准确的事实追踪、自适应高阶遍历和可解释的多跳推理;HyperMemory则利用LLM的参数化记忆指导束搜索,动态评分n元事实与实体以实现查询感知的路径扩展。在WikiTopics(11个封闭域数据集)和三个开放域问答基准(HotpotQA、MuSiQue和2WikiMultiHopQA)上的广泛评估验证了HyperRAG的有效性。HyperRetriever在整体答案准确性上表现最佳,平均MRR提升2.95%,Hits@10提升1.23%。定性分析进一步表明,HyperRetriever通过自适应且可解释的n元链构建弥合了推理差距,对开放域和封闭域问答均有帮助。
Agent Memory RAG 知识图谱 超图推理 多跳问答
论文核心提出HyperMemory,基于LLM参数记忆进行路径扩展,属于Agent Memory机制的核心研究。
CORPGEN: Simulating Corporate Environments with Autonomous Digital Employees in Multi-Horizon Task Environments
Abubakarr Jaye, Nigel Boachie Kumankumah, Chidera Biringa, Anjel Shaileshbhai Patel, Sulaiman Vesal et al.
8/10 2026-02-15 cs.AI PDF
长期任务推理是自主代理的关键挑战,但现有基准仅评估单个任务。实际组织工作需要管理多个并发的长期任务,涉及交错、依赖和重新优先级。本文提出多时间跨度任务环境(MHTEs),要求在持续执行上下文中协调数十个交错任务(45+,500-1500+步骤)。我们识别出四种导致基线CUA完成率从16.7%下降到8.7%的失败模式,并提出CorpGen框架,通过分层规划、子代理隔离、分级记忆(工作、结构化、语义)和自适应摘要解决这些问题。CorpGen通过具有持久身份和现实日程的数字员工模拟企业环境,在OSWorld Office上实现比基线3.5倍的性能提升。
Agent Memory Multi-Horizon Tasks Digital Employees Hierarchical Planning Memory Architecture
论文核心研究多时间跨度任务环境中的记忆机制与架构设计,明确涉及Memory相关问题。
MAGE: All-[MASK] Block Already Knows Where to Look in Diffusion LLM
Omin Kwon, Yeonjae Kim, Doyeon Kim, Minseo Kim, Yeonhong Park et al.
8/10 2026-02-15 cs.LG PDF
块扩散语言模型(Block diffusion LLMs)作为语言生成的新兴范式,其使用键值(KV)缓存导致在长上下文场景下内存访问成为主要瓶颈。尽管动态稀疏注意力已被广泛探索,但现有针对自回归LLM的方法依赖于近似重要性估计,在适应块扩散模型时表现不佳。本文识别出块扩散模型的一个关键机会:在首次All-[MASK]去噪步骤中的注意力能够可靠地预测重要的KV条目和预算需求,使MAGE能够在每个块上执行一次精确的注意力传递,并将其用于无训练的稀疏去噪。在LongBench和Needle-in-a-Haystack等长上下文基准测试中,MAGE在仅使用少量KV预算的情况下实现了接近无损的精度,并带来了高达3-4倍的端到端加速,持续优于基于自回归的稀疏注意力基线。一种轻量级的微调策略进一步强化了[MASK]引导的模式,成本极低,仅需在单个NVIDIA H100 GPU上进行数小时的训练即可适用于1.5B和7B模型。
KV缓存 稀疏注意力 块扩散模型 长上下文处理 Agent Memory
论文聚焦于块扩散LLM中的KV缓存瓶颈,提出MAGE方法优化内存访问,属于Agent Memory核心研究。
Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality
Nitay Calderon, Eyal Ben-David, Zorik Gekhman, Eran Ofek, Gal Yona
Nitay Calderon (Technion) | Zorik Gekhman (Google Research, Technion - Israel Institute of technology)
8/10 2026-02-15 cs.CL PDF
标准的事实性评估将所有错误视为相同,掩盖了失败是源于知识缺失(空货架)还是对已编码事实的访问受限(丢失的钥匙)。本文提出一种行为框架,从事实层面而非问题层面分析事实知识,通过是否编码以及可访问性(无法回忆、可直接回忆或需推理计算回忆)进行分类。为支持此类分析,我们引入WikiProfile基准,该基准通过基于网络搜索的提示LLM自动构建。在13个LLM的400万次响应中发现,前沿模型在本基准上编码几乎饱和,GPT-5和Gemini-3编码了95%-98%的事实。然而,回忆仍是主要瓶颈:许多原本归因于知识缺失的错误实际上源于无法访问已有知识。这些失败具有系统性,且特别影响长尾事实和反向问题。最后,我们表明推理可以提高回忆能力,并能恢复大量错误,表明未来进展可能更多依赖于提升模型利用已有编码知识的方法,而非单纯扩展规模。
LLM Factuality Memory Recall Benchmarking Knowledge Encoding
论文聚焦于LLM中事实记忆的编码与召回机制,直接涉及Agent Memory的核心问题。
Asynchronous Verified Semantic Caching for Tiered LLM Architectures
Asmit Kumar Singh, Haozhe Wang, Laxmi Naga Santosh Attaluri, Tak Chiam, Weihua Zhu
8/10 2026-02-13 cs.IR PDF
大型语言模型(LLMs)现在处于搜索、辅助和智能体工作流的关键路径上,因此语义缓存对于降低推理成本和延迟至关重要。生产部署通常采用分层静态-动态设计:静态缓存由从日志中挖掘并经过离线验证的精选响应组成,动态缓存则在线填充。实践中,两个层级通常由单一嵌入相似度阈值控制,导致保守阈值会错过安全重用机会,而激进阈值可能带来语义错误响应的风险。本文提出了一种名为Krites的异步、由LLM判断的缓存策略,能够在不改变服务决策的前提下扩展静态覆盖范围。在关键路径上,Krites的行为与标准静态阈值策略完全一致。当提示符的最近静态邻居刚好低于静态阈值时,Krites异步调用LLM判断器以验证静态响应是否适用于新提示。通过验证的匹配项将被提升至动态缓存,使未来的重复和改写请求能够复用精选的静态答案,并随着时间推移扩大静态覆盖范围。在基于跟踪的模拟实验中,Krites相比调优基线,在对话流量和搜索类查询中将使用精选静态答案的请求数量提高了最多3.9倍,且关键路径延迟保持不变。
语义缓存 LLM代理 缓存优化 分层架构
论文核心研究语义缓存机制,属于Agent Memory系统设计范畴,直接优化静态与动态缓存策略。
Human-Inspired Continuous Learning of Internal Reasoning Processes: Learning How to Think for Adaptive AI Systems
Hong Su
8/10 2026-02-12 cs.AI PDF
学习内部推理过程对于开发能够在动态现实环境中持续适应的AI系统至关重要。然而,现有方法主要强调任务特定输出或静态知识表示,忽视了内部推理结构、行动调度策略和学习机制本身的持续优化。本文提出了一种受人类启发的连续学习框架,通过并行学习增强的顺序推理模型,统一了推理、行动、反思和验证过程。该框架将内部思维过程视为主要的学习对象,并系统地记录内部推理轨迹和环境交互作为结构化学习材料,使系统不仅优化任务级内容,还能优化推理活动的组织、调度和演化。该设计实现了处理与学习的同步,使认知结构在执行过程中得到提升。此外,框架支持预定义逻辑的受控替换,并引入了一个分层的学习机制,联合调整任务级参数和学习策略。实验结果表明,在温度传感器异常检测任务中,结合内部过程学习可使平均运行时间减少23.9%。
Agent Memory 持续学习 认知架构 推理过程 自适应AI
论文核心聚焦于内部推理过程的持续学习,涉及认知结构的优化与记忆轨迹的记录,属于Agent Memory机制的核心研究。
Canvas-of-Thought: Grounding Reasoning via Mutable Structured States
Lingzhuang Sun, Yuxia Zhu, Ruitong Liu, Hao Liang, Zheng Sun et al.
8/10 2026-02-11 cs.CL PDF
尽管Chain-of-Thought(CoT)提示方法显著提升了多模态大语言模型(MLLMs)的推理能力,但仅依赖线性文本序列在复杂任务中存在瓶颈。我们发现,即使引入辅助视觉元素,它们通常也被视为一维、无结构推理链中的静态快照。我们认为现有方法将推理历史视为不可变流:纠正局部错误需要生成冗长的后续修正或重新生成整个上下文,迫使模型隐式维护和跟踪状态更新,显著增加计算开销和认知负担。这一限制在高维领域(如几何和SVG设计)尤为明显,因为CoT的文本表达缺乏显式的视觉指导,进一步限制了推理精度。为弥补这一差距,我们提出了Canvas-of-Thought(Canvas-CoT)。通过利用HTML Canvas作为外部推理基板,Canvas-CoT使模型能够执行基于DOM的原子CRUD操作。该架构允许在不破坏周围上下文的情况下进行原地状态修订,使模型能够显式维护“真实状态”。此外,我们集成了基于渲染的批评循环,作为硬约束验证器,提供显式视觉反馈以解决难以仅用文本描述的复杂任务。在VCode、RBench-V和MathVista上的大量实验表明,Canvas-CoT显著优于现有基线,确立了一种新的上下文高效多模态推理范式。
Agent Memory Multimodal Reasoning Canvas-based System State Management
论文提出Canvas-CoT,通过外部HTML Canvas实现状态维护与更新,直接涉及Agent Memory机制。
Near-Oracle KV Selection via Pre-hoc Sparsity for Long-Context Inference
Yifei Gao, Lei Wang, Rong-Cheng Tu, Qixin Zhang, Jun Cheng et al.
8/10 2026-02-09 cs.LG PDF
大语言模型(LLM)推理中的核心瓶颈是随着键值(KV)缓存增长带来的计算成本。尽管近似最优的top-k KV选择可以在保持密集注意力质量的同时显著减少计算和带宽需求,但现有稀疏方法通常依赖后验启发式策略,即基于观察到的注意力或代理分数进行选择。这种条件引入了后验偏差,容易扭曲真实token的重要性并遗漏关键token,从而影响长距离推理能力。为解决这一问题,本文提出预稀疏(PrHS)方法,在注意力评分之前选择KV条目,并提供显式的精度控制。通过边际到互信息分析,推导出仅依赖丢弃质量的互信息损失上界,解释了后验启发式的失效模式,并通过提前控制丢弃质量实现可验证的保证。在PrHS中,沿时间、深度和层三个维度实例化了三种正交的预稀疏选择器。在LLaMA和Mistral系列上的大量实验验证了PrHS的有效性。在GSM8K和CoQA数据集上,PrHS将检索开销减少了90%以上,在匹配或更优精度下实现了比HShare高3倍的检索稀疏度。其在LongBench上的平均性能下降低于1%,相比先前稀疏基线减少了约15%的注意力FLOPs,并在NVIDIA A100-80GB GPU上实现了比密集基线快9.9倍的注意力操作延迟和2.8倍的吞吐量。
KV缓存优化 稀疏注意力 长上下文推理 LLM推理效率
论文聚焦于KV缓存选择机制,直接涉及Agent Memory中的关键问题,提出预稀疏方法优化长上下文推理。
Free(): Learning to Forget in Malloc-Only Reasoning Models
Yilun Zheng, Dongyang Ma, Tian Liang, Jiahao Xu, Xinting Huang et al.
8/10 2026-02-08 cs.AI PDF
推理模型通过扩展测试时计算能力来增强问题解决能力,但面临一个关键悖论:过多的思考标记往往会降低性能。我们将其归因于架构上的根本缺陷:标准LLMs作为“仅malloc”的引擎,持续累积有效和冗余步骤,而没有机制来修剪过时信息。为打破这一循环,我们提出了Free()LM,该模型通过可插拔的LoRA适配器Free-Module引入内在的自我遗忘能力。通过在推理和清理模式之间迭代切换,Free()LM动态识别并修剪无用上下文块,从而保持紧凑且无噪声的状态。大量实验表明,Free()LM在所有模型规模(8B到685B)上均取得一致改进,平均比顶级推理基线提升3.3%,甚至在IMOanswerBench上使用DeepSeek V3.2-Speciale实现了新的SOTA。特别值得注意的是,在标准Qwen3-235B-A22B模型在长周期任务中完全崩溃(0%准确率)的情况下,Free()LM将性能恢复至50%。我们的发现表明,可持续智能需要与思考能力一样强大的遗忘自由。
LLM Agent Memory Self-forgetting LoRA Reasoning Optimization
论文核心提出了一种自遗忘机制,直接针对LLM推理过程中信息冗余和无效内容积累的问题,属于Agent Memory机制的核心研究。
MIND: Benchmarking Memory Consistency and Action Control in World Models
Yixuan Ye, Xuanyu Lu, Yuxin Jiang, Yuchao Gu, Rui Zhao et al.
8/10 2026-02-08 cs.CV PDF
世界模型旨在理解、记忆并预测动态视觉环境,但目前缺乏一个统一的基准来评估其基本能力。为弥补这一不足,我们引入了MIND,这是首个用于评估世界模型中记忆一致性与动作控制的开放领域闭环重访基准。MIND包含250个高质量1080p和24 FPS视频,涵盖共享动作空间下的100个第一人称和100个第三人称视频片段,以及覆盖八个不同场景的25+25个跨动作空间片段。我们设计了一个高效的评估框架,用于衡量两个核心能力:记忆一致性和动作控制,捕捉不同视角下的时间稳定性和上下文连贯性。此外,我们设计了多种动作空间,包括不同的角色移动速度和相机旋转角度,以评估在共享场景下跨动作空间的动作泛化能力。为了便于未来在MIND上的性能基准测试,我们引入了MIND-World,一种新颖的交互式视频到世界的基线方法。大量实验表明了MIND的完整性,并揭示了当前世界模型中的关键挑战,包括长期记忆一致性维护和跨动作空间泛化的困难。
世界模型 记忆一致性 动作控制 基准测试 动作泛化
论文明确聚焦于世界模型中的记忆一致性与动作控制,是Agent Memory机制的核心研究。
Code
LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth
Weihao Zeng, Yuzhen Huang, Junxian He
Yuzhen Huang (Hong Kong University of Science and Technology)
8/10 2026-02-08 cs.AI PDF
大型语言模型(LLMs)在执行长期、现实任务方面的能力不断增强。然而,随着上下文长度的增加,其可靠性往往会下降,这种现象被称为“上下文腐化”。现有的长上下文基准主要关注单步设置,评估模型从长片段中检索信息的能力。但在实际场景中,LLMs通常需要作为代理,在动态增长的上下文中探索环境、遵循指令和计划、提取有用信息并预测正确操作。为此,我们引入了LOCA-bench(用于长上下文代理的基准)。给定一个任务提示,LOCA-bench利用对环境状态的自动化和可扩展控制来调节代理的上下文长度。该设计使LOCA-bench能够在受控方式下将上下文长度潜在地扩展到无限,同时保持底层任务语义不变。LOCA-bench评估语言代理,包括模型和辅助结构的组合,涵盖各种上下文管理策略。尽管随着环境状态变得复杂,代理性能通常会下降,但先进的上下文管理技术可以显著提高整体成功率。我们开源了LOCA-bench,以提供一个平台,用于评估长上下文、代理场景中的模型和辅助结构。
Agent Memory Long-Context Benchmark Language Agents Context Management
论文聚焦于长上下文场景下的Agent性能评估,涉及上下文管理策略,与Agent Memory机制密切相关。
Code
Attn-GS: Attention-Guided Context Compression for Efficient Personalized LLMs
Shenglai Zeng, Tianqi Zheng, Chuan Tian, Dante Everaert, Yau-Shian Wang et al.
8/10 2026-02-08 cs.CL PDF
将大型语言模型(LLMs)个性化到特定用户需要整合大量的交互历史和用户资料,但由于输入令牌限制,这在实际中因高推理延迟和API成本而难以实现。现有方法依赖启发式策略,如选择近期交互或提示摘要模型压缩用户资料,但这些方法将上下文视为整体,未能考虑LLMs如何内部处理和优先化不同资料组件。本文研究LLMs的注意力模式是否能有效识别重要的个性化信号以进行智能上下文压缩。通过代表性个性化任务的初步研究,发现(a)LLMs的注意力模式自然揭示重要信号,(b)微调增强了LLMs区分相关信息与无关信息的能力。基于这些发现,本文提出Attn-GS框架,利用标记模型的注意力反馈来标记重要的个性化句子,然后指导压缩模型生成任务相关且高质量的压缩用户上下文。大量实验表明,Attn-GS在不同任务、令牌限制和设置下显著优于各种基线方法,在保持接近完整上下文性能的同时,将令牌使用量减少了50倍。
LLM Attention Mechanism Context Compression Personalization Memory Optimization
论文核心研究基于LLM注意力机制的上下文压缩,直接关联Agent Memory的优化与实现。
ParisKV: Fast and Drift-Robust KV-Cache Retrieval for Long-Context LLMs
Yanlin Qi, Xinhang Chen, Huiqiang Jiang, Qitong Wang, Botao Peng et al.
8/10 2026-02-07 cs.LG PDF
KV缓存检索对于长上下文LLM的推理至关重要,但现有方法在大规模场景下面临分布漂移和高延迟问题。本文提出ParisKV,一种基于碰撞候选选择和量化内积重排序估计器的、具有抗漂移特性的GPU原生KV缓存检索框架。对于百万token的上下文,ParisKV通过统一虚拟寻址(UVA)支持CPU卸载的KV缓存,并实现按需top-k获取,开销极小。ParisKV在长输入和长生成基准测试中匹配或优于全注意力机制的质量。其在长上下文解码效率方面达到最先进水平:在批量大小为1时,其速度可匹敌甚至超过全注意力机制;在全注意力可运行范围内,吞吐量最高可达其2.8倍;并能扩展到全注意力无法处理的百万token上下文。在百万token规模上,ParisKV相比MagicPIG和PQCache两种最先进的KV缓存Top-k检索基线,分别将解码延迟降低了17倍和44倍。
KV-cache 长上下文 LLM推理优化 内存管理 高效检索
论文聚焦KV-cache检索,直接涉及长上下文LLM的内存管理与优化,是Agent Memory机制的核心研究。
TKG-Thinker: Towards Dynamic Reasoning over Temporal Knowledge Graphs via Agentic Reinforcement Learning
Zihao Jiang, Miao Peng, Zhenyan Shan, Wenjie Xu, Ben Liu et al.
Miao Peng (Wuhan University)
8/10 2026-02-05 cs.AI PDF
时序知识图谱问答(TKGQA)旨在利用时序知识库回答时间敏感的问题。尽管大语言模型(LLMs)在TKGQA中展现出巨大潜力,但当前的提示策略在两个方面限制了其效果:首先,在复杂的时间约束下容易产生推理幻觉;其次,静态提示限制了模型的自主性和泛化能力,因为缺乏与时序知识图谱(TKGs)环境的动态交互优化。为了解决这些限制,我们提出了TKG-Thinker,一种具备自主规划和自适应检索能力的新颖智能体,用于在时序知识图谱上进行推理。具体而言,TKG-Thinker通过双训练策略与TKGs进行深度时序推理,包括多轮动态交互。我们首先使用链式思维数据进行监督微调(SFT),以培养核心规划能力,随后通过强化学习(RL)阶段利用多维奖励来优化复杂时间约束下的推理策略。实验结果表明,TKG-Thinker在三个开源大语言模型上的基准数据集上实现了最先进的性能,并在复杂的TKGQA设置中表现出强大的泛化能力。
Agent Memory Temporal Knowledge Graphs Reinforcement Learning Reasoning
论文核心研究基于Agent的动态记忆与推理机制,提出TKG-Thinker系统以增强模型对时序知识图谱的记忆和推理能力。
Pruning Minimal Reasoning Graphs for Efficient Retrieval-Augmented Generation
Ning Wang, Kuanyan Zhu, Daniel Yuehwoon Yee, Yitang Gao, Shiying Huang et al.
8/10 2026-02-04 cs.DB PDF
检索增强生成(RAG)已成为知识密集型LLM任务的标准方法,但现有系统通常将每个查询视为独立处理,导致重复检索和推理,增加计算成本。本文提出AutoPrunedRetriever,一种基于图结构的RAG系统,通过持久化早期问题构建的最小推理子图,并逐步扩展以处理后续问题。该系统使用紧凑的ID索引代码本存储实体和关系,将问题、事实和答案表示为边序列,从而在符号结构上进行检索和提示。为了保持图的紧凑性,采用两层整合策略(快速ANN/KNN别名检测和达到内存阈值后的选择性k-means),并修剪低价值结构,同时保留重叠代表和真正的新证据。实验表明,在GraphRAG-Benchmark(医学和新领域)上,两种变体均达到最先进的复杂推理准确率,优于HippoRAG2约9-11分,并在上下文摘要和生成任务中保持竞争力。在更难的STEM和TV基准测试中,AutoPrunedRetriever再次排名第一,且使用的token数量比基于图的基线少两个数量级,使其成为长期会话、动态语料库和多代理流水线的实用基础。
Agent Memory RAG Graph Structure Efficient Retrieval Multi-Agent Systems
论文提出了一种基于图结构的RAG系统,核心是通过持久化和扩展最小推理子图实现高效记忆管理。
Internalizing LLM Reasoning via Discovery and Replay of Latent Actions
Zhenning Shi, Yijia Zhu, Junhan Shi, Xun Zhang, Lei Wang et al.
8/10 2026-02-04 cs.LG PDF
将推理过程内化为隐藏状态已成为提高测试时计算效率的重要范式。然而现有激活引导方法依赖静态控制向量,难以适应复杂推理任务的非平稳演变。为此,我们提出STIR(用于内部推理的自蒸馏工具),将推理增强重新表述为动态潜在轨迹控制问题。STIR引入了一个协同的三阶段流程:(1)差分内在动作诱导提取潜在推理成功案例以固化引导原语;(2)稀疏控制基构建精选出一个紧凑且几何多样化的工具库;(3)价值调制轨迹干预通过锚点门控动态注入上下文相关的脉冲。在四个代表性模型上的六个算术和逻辑基准测试中,STIR在保持平均准确率提升1.9%至7.5%的同时,减少了高达35%的平均token消耗。这些结果表明,通过动态潜在轨迹控制可以实现显式推理链的好处,在不显式生成的情况下实现更高的保真度。
LLM Agent Memory 潜在轨迹控制 推理优化 动态控制
论文聚焦于LLM推理过程的隐状态控制,涉及动态轨迹管理与记忆机制,属于Agent Memory核心研究。
Code
Simulated Adoption: Decoupling Magnitude and Direction in LLM In-Context Conflict Resolution
Long Zhang, Fangwei Lin
8/10 2026-02-04 cs.LG PDF
大型语言模型(LLMs)经常优先考虑上下文中的冲突信息而非预设参数记忆,这一现象通常被称为顺从或迎合行为。然而,这种行为的机制尚不明确,特别是模型如何通过顺从解决这些知识冲突,以及这种抑制是由于残差流中信号幅度稀释还是方向性几何改变所致。为此,我们对Qwen-4B、Llama-3.1-8B和GLM-4-9B进行了逐层几何分析,将反事实上下文引起的残差流更新分解为径向(基于范数)和角度(基于余弦)成分。实证结果否定了“流形稀释”假设的普遍性,因为其中两种架构在事实查询性能显著下降的情况下仍保持了稳定的残差范数。相反,我们观察到顺从行为始终表现为“正交干扰”,即冲突上下文注入了一个近似正交于真实方向的引导向量,有效旋转了隐藏状态表示。这表明模型并未“遗忘”或抑制内部真相的幅度,而是采用了几何位移机制绕过正确的解码向量,从而在保留原始结构幅度的同时模拟采纳行为。这些发现挑战了标量置信度指标检测幻觉的能力,并强调了需要向量监控以区分真实知识整合与表面化的上下文模仿。
LLM Agent Memory Residual Stream In-Context Learning Geometric Analysis
论文核心研究LLM在上下文冲突中的记忆机制,涉及残差流几何分析与知识冲突解决。
Towards Structured, State-Aware, and Execution-Grounded Reasoning for Software Engineering Agents
Tse-Hsun, Chen
Tse-Hsun (Peter) Chen (Software PErformance, Analysis, and Reliability (SPEAR) labConcordia UniversityMontrealQCCanada)
8/10 2026-02-04 cs.SE PDF
软件工程(SE)代理在支持各种软件工程任务方面展现出良好的能力。然而,当前的SE代理本质上是反应式的,主要基于对话历史和最新响应进行决策。这种设计缺乏显式的结构或持久的状态,使得长期推理变得困难。因此,SE代理难以在推理步骤中保持连贯的理解,无法根据新证据调整假设,也无法将执行反馈整合到系统状态的心理推理模型中。本文认为,为了进一步推动SE代理的发展,需要超越反应式行为,转向结构化、状态感知和执行基础的推理。我们概述了如何通过显式结构、持久且动态变化的状态以及执行基础反馈的整合,帮助SE代理在长期任务中实现更连贯和可靠的推理,并提出了下一代SE代理的初步发展路线图。
Agent Memory Software Engineering Agents Long-Horizon Reasoning State-Aware Systems
论文核心讨论SE代理的记忆结构与状态感知,强调长期推理中记忆机制的重要性。
Can Vision Replace Text in Working Memory? Evidence from Spatial n-Back in Vision-Language Models
Sichu Liang, Hongyu Zhu, Wenwen Wang, Deyu Zhou
Sichu Liang (Southeast University) | Hongyu Zhu11footnotemark:1 (Shanghai Jiao Tong University) | Wenwen Wang (Carnegie Mellon University)
8/10 2026-02-04 cs.CL PDF
工作记忆是智能行为的核心组成部分,为维持和更新任务相关信息提供动态的工作空间。近期的研究利用n-back任务来探测大型语言模型中的类似工作记忆行为,但尚不清楚当信息以视觉形式而非文本形式呈现时,是否会产生相似的计算过程。本文在控制条件下对Qwen2.5和Qwen2.5-VL模型进行了空间n-back任务测试,分别以文本渲染和图像渲染的网格形式呈现。结果显示,无论何种条件,模型在处理文本时的准确率和d'值均显著高于视觉输入。通过逐次试验的对数概率分析发现,名义上的2/3-back任务往往未能反映指定的延迟,而是与最近锁定比较对齐。此外,网格大小的变化影响了刺激流中的重复结构,从而改变了干扰和错误模式。这些结果促使我们对多模态工作记忆进行计算敏感的解释。
working memory vision-language models n-back task multimodal processing
论文直接探讨了视觉语言模型中的工作记忆机制,使用n-back任务进行评估,属于Agent Memory核心研究。
MemCast: Memory-Driven Time Series Forecasting with Experience-Conditioned Reasoning
Xiaoyu Tao, Mingyue Cheng, Ze Guo, Shuo Yu, Yaguo Liu et al.
8/10 2026-02-03 cs.LG PDF
时间序列预测(TSF)在许多现实应用的决策中起着关键作用。近年来,基于大语言模型(LLM)的预测方法取得了显著进展。尽管这些方法有效,但现有方法往往缺乏显式的经验积累和持续进化能力。本文提出MemCast,一种学习到记忆的框架,将TSF重新表述为经验条件推理任务。具体而言,我们从训练集中学习经验并将其组织成层次化记忆结构,通过总结预测结果为历史模式、提炼推理轨迹为推理智慧、归纳提取的时间特征为一般规律来实现。在推理过程中,利用历史模式引导推理过程,使用推理智慧选择更优路径,而一般规律则作为反思迭代的标准。此外,为了实现持续进化,我们设计了一种动态置信度适应策略,在不泄露测试集分布的前提下更新单个条目的置信度。在多个数据集上的广泛实验表明,MemCast始终优于先前方法,验证了本方法的有效性。
时间序列预测 记忆驱动 经验条件推理 LLM
论文核心围绕Memory机制设计,提出基于记忆的时序预测框架,明确涉及记忆组织与推理过程。
Code
General Agents Contain World Models, even under Partial Observability and Stochasticity
Santiago Cifuentes
8/10 2026-02-03 cs.AI PDF
判断一个智能体是否具备其周围世界的模型,是理解其能力与局限性的关键步骤。在[10]中,研究者证明,在特定框架下,每个几乎最优且通用的智能体都拥有足够的环境知识,可以通过将其作为黑箱查询来近似重建环境。该结论依赖于智能体是确定性的且环境完全可观测的假设。本文通过将定理扩展到在部分可观测环境中运行的随机智能体,去除了这两个假设。这表明,随机智能体无法避免通过使用随机化来学习其环境。此外,通过弱化“通用性”的概念,进一步加强了结果,证明更弱的智能体也已经包含了其操作环境的世界模型。
世界模型 部分可观测 随机智能体 智能体记忆 理论分析
论文探讨了智能体在部分可观测和随机环境中是否包含世界模型,直接涉及Agent Memory的核心机制。
DeALOG: Decentralized Multi-Agents Log-Mediated Reasoning Framework
Abhijit Chakraborty, Ashish Raj Shekhar, Shiven Agarwal, Vivek Gupta
8/10 2026-02-01 cs.CL PDF
跨文本、表格和图像的复杂问答任务需要整合多样化的信息源,亟需一种支持专业化处理、协调性与可解释性的框架。本文提出DeALOG,一种用于多模态问答的去中心化多智能体框架。该框架包含表格、上下文、视觉、摘要与验证等专用智能体,通过共享的自然语言日志进行通信,该日志作为持久记忆载体。这种基于日志的方法在无中心控制的情况下实现协同错误检测与验证,提升系统鲁棒性。在FinQA、TAT-QA、CRT-QA、WikiTableQuestions、FeTaQA和MultiModalQA等多个基准上的评估表明其性能具有竞争力。分析证实共享日志、智能体专业化与验证机制对准确率至关重要。DeALOG通过模块化组件与自然语言通信提供了一种可扩展的解决方案。
多智能体系统 记忆机制
提出基于共享日志的持久记忆机制,是多智能体协作的核心组件。
MonoScale: Scaling Multi-Agent System with Monotonic Improvement
Shuai Shao, Yixiang Liu, Bingwei Lu, Weinan Zhang
8/10 2026-01-30 cs.MA PDF
近年来,基于大语言模型的多智能体系统(MAS)快速发展,通常利用路由器分解任务并分配给专用智能体。直接扩展智能体池易因路由器对新增异构、不可靠智能体的冷启动而导致性能崩溃。本文提出MonoScale,一种面向扩展的更新框架,主动生成少量智能体条件化熟悉任务,从成功与失败交互中收集证据,并将其提炼为可审计的自然语言记忆以指导后续路由。我们将顺序增强形式化为上下文赌博机问题,并采用信任区域记忆更新策略,确保在各轮次接入过程中性能单调非递减。在GAIA和Humanity's Last Exam上的实验表明,随着智能体池扩大,系统性能稳定提升,优于朴素扩展及固定池强路由器基线。
Agent Memory Multi-Agent Systems
提出可审计的自然语言记忆机制用于路由决策,是系统核心组件。
Do Not Waste Your Rollouts: Recycling Search Experience for Efficient Test-Time Scaling
Xinglin Wang, Jiayi Shi, Shaoxiong Feng, Peiwen Yuan, Yiwei Li et al.
8/10 2026-01-29 cs.CL PDF
测试时扩展通过分配额外的推理计算资源来增强大语言模型的推理能力,但现有搜索策略通常将推理轨迹视为一次性样本,导致宝贵的中间洞察被丢弃,造成大量计算冗余。为此,本文提出“回收搜索经验”(RSE),一种无需训练的自引导策略,将测试时搜索从孤立尝试转变为累积过程。RSE通过将原始推理轨迹提炼为共享经验库,正向复用中间结论以跳过冗余推导,负向复用失败模式以剪枝已知死胡同。理论分析证明了RSE在复杂推理任务中相较独立采样的效率优势;在HMMT24、HMMT25、IMO-Bench和HLE上的实验表明,RSE在相近计算成本下显著优于强基线,达到最先进的扩展效率。
Agent Memory Test-Time Scaling
提出经验复用机制,构建共享记忆库以避免重复推理,核心涉及Agent记忆机制。
RecNet: Self-Evolving Preference Propagation for Agentic Recommender Systems
Bingqian Li, Xiaolei Wang, Junyi Li, Weitao Li, Long Zhang et al.
Bingqian Li∗ (GSAI, Renmin University of ChinaBeijingChina) | Xiaolei Wang∗ (GSAI, Renmin University of ChinaBeijingChina) | Junyi Li (Department of Data Science, City University of Hong KongHong KongChina)
8/10 2026-01-29 cs.AI PDF
智能体推荐系统利用大语言模型(LLMs)建模复杂用户行为并支持个性化决策。然而,现有方法主要依赖稀疏、噪声大的显式用户-物品交互数据,难以捕捉用户与物品间的实时相互影响。为此,本文提出RecNet——一种自演化的偏好传播框架,主动在相关用户与物品间传播实时偏好更新。RecNet包含两个互补阶段:前向阶段通过中心化偏好路由机制,利用路由智能体整合并动态传播偏好至最相关智能体,并引入个性化偏好接收机制,结合消息缓冲区与可优化的规则记忆模块,基于过往经验与兴趣选择性吸收偏好;后向阶段则采用反馈驱动的传播优化机制,模拟多智能体强化学习框架,利用LLM进行信用分配、梯度分析与模块级优化,实现传播策略的持续自演化。大量实验验证了RecNet在建模推荐系统偏好传播中的有效性。
Agent Memory Preference Propagation
提出基于记忆机制的偏好传播框架,核心包含可优化的规则记忆模块。
Beyond Retention: Orchestrating Structural Safety and Plasticity in Continual Learning for LLMs
Fei Meng
8/10 2026-01-26 cs.LG PDF
大型语言模型(LLMs)的持续学习面临稳定性和可塑性的平衡挑战。尽管经验回放(ER)是防止灾难性遗忘的标准方法,但其在不同任务上的影响尚未被充分研究。本文发现ER在稳健、非结构化任务上具有正向迁移效果,但在脆弱、结构化领域如代码生成中却导致严重负迁移。为解决这一问题,本文提出正交子空间唤醒(OSW)方法,通过短暂的“唤醒”阶段识别先前任务的关键参数子空间,并对新任务进行正交更新,从而提供数学支持的“安全性保证”。实验结果表明,OSW在保留脆弱编码能力方面优于传统回放方法,同时保持对新任务的高可塑性。研究强调了在LLM持续学习中评估结构安全的重要性。
持续学习 结构安全 参数子空间 经验回放 LLM记忆
论文聚焦于LLM持续学习中的记忆稳定性与可塑性平衡,提出OSW方法以保障结构安全,属于Agent Memory核心研究。
Randomization Boosts KV Caching, Learning Balances Query Load: A Joint Perspective
Fangzhou Wu, Sandeep Silwal, Qiuyi, Zhang
8/10 2026-01-26 cs.LG PDF
KV缓存是一种通过重用先前查询的键值对来加速大语言模型(LLM)推理的基本技术,但其在有限内存下的有效性高度依赖于驱逐策略。默认的最近最少使用(LRU)驱逐算法难以应对动态在线查询到达的问题,尤其在多LLM服务场景中,平衡工作节点上的查询负载与最大化每个节点的缓存命中率是固有的冲突目标。本文首次提出一个统一的数学模型,捕捉KV缓存驱逐与查询路由之间的核心权衡关系。分析揭示了现有方法的理论局限性,并提出了结合可证明竞争性随机化KV缓存驱逐与基于学习的方法的算法,以自适应地处理具有演变模式的查询,从而实现查询负载与缓存命中率的平衡。理论结果通过4个基准和3种前缀共享设置的大量实验验证,展示了在缓存命中率、延迟、首词生成时间(TTFT)和吞吐量方面的显著提升。
KV缓存 查询路由 缓存命中率 LLM推理优化 随机化算法
论文核心研究KV缓存机制及与内存管理相关的策略优化,属于Agent Memory机制的核心内容。
Code
Mechanistic Analysis of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning
Olaf Yunus Laitinen Imanov
Olaf Yunus Laitinen Imanov (Department of Applied Mathematics and Computer Science (DTU Compute), Technical University of Denmark, 2800 Kongens Lyngby, Denmark)
8/10 2026-01-26 cs.LG PDF
大型语言模型通过预训练和微调范式在各种任务中表现出色。然而,在连续任务上的微调会导致灾难性遗忘,即新知识干扰已学能力。尽管该现象广泛存在,但其机制理解仍有限。本文对基于Transformer的LLM在连续微调过程中的灾难性遗忘进行了全面的机制分析。通过跨多个模型规模(109B到400B总参数)和任务序列的系统实验,我们识别出三个主要导致遗忘的机制:注意力权重中的梯度干扰、中间层的表示漂移以及损失景观的平坦化。我们证明遗忘严重程度与任务相似性(Pearson r = 0.87)和梯度对齐指标密切相关。分析显示,在微调过程中约有15至23%的注意力头受到严重干扰,底层更容易受到影响。这些发现为开发针对性的缓解策略奠定了机制基础。
灾难性遗忘 连续学习 注意力机制 梯度干扰 模型微调
论文深入探讨了连续微调中灾难性遗忘的机制,直接涉及Agent Memory的核心问题。
RAG-GFM: Overcoming In-Memory Bottlenecks in Graph Foundation Models via Retrieval-Augmented Generation
Haonan Yuan, Qingyun Sun, Jiacheng Tao, Xingcheng Fu, Jianxin Li
8/10 2026-01-21 cs.LG PDF
图基础模型(GFMs)作为图学习的前沿方向,旨在实现跨任务的可迁移表示。然而,GFMs受到内存瓶颈的限制,其试图将知识编码到模型参数中,导致语义容量受限、信息丢失严重以及图表示与知识纠缠,影响了模型的可扩展性和可解释性。本文提出RAG-GFM,一种基于检索增强生成的图基础模型,通过将知识从参数中卸载并补充参数化学习来缓解这一问题。为外部化图知识,构建了一个双模态统一检索模块,包括基于前缀结构文本的语义存储和基于中心性基元的结构存储。为保留异构信息,设计了双视角对齐目标,对比两种模态以捕捉内容和关系模式。为实现高效的下游适应,采用上下文增强方法,利用检索到的文本和基元作为上下文证据丰富支持实例。在五个基准图数据集上的实验表明,RAG-GFM在跨领域节点和图分类任务中始终优于13种最先进的基线方法,表现出优越的有效性和效率。
图基础模型 检索增强生成 内存瓶颈 知识外部化 双模态检索
论文核心解决GFMs中的in-memory瓶颈问题,提出RAG-GFM通过检索增强生成机制优化记忆存储与使用。
CodeDelegator: Mitigating Context Pollution via Role Separation in Code-as-Action Agents
Tianxiang Fei, Cheng Chen, Yue Pan, Mao Zheng, Mingyang Song
8/10 2026-01-21 cs.CL PDF
近年来,大语言模型(LLMs)的进步使得代理能够将动作表示为可执行代码,相较于传统的工具调用方式具有更高的表达能力。然而,现实任务通常需要战略规划和详细实现。使用单一代理完成这两项任务会导致调试痕迹和中间失败的上下文污染,从而影响长期性能。我们提出了CodeDelegator,一种通过角色专业化分离规划与实现的多代理框架。一个持久的Delegator通过分解任务、编写规范和监控进度来保持战略监督,而不执行代码。对于每个子任务,会实例化一个新的Coder代理,其上下文中仅包含其规范,从而避免受到先前失败的影响。为了协调代理之间的工作,我们引入了短暂-持久状态分离(EPSS),隔离每个Coder的执行状态,同时保持全局一致性,防止调试痕迹污染Delegator的上下文。在多个基准测试上的实验表明,CodeDelegator在各种场景中均表现出有效性。
Agent Memory 多代理系统 上下文污染 代码执行 任务分解
论文提出通过角色分离解决上下文污染问题,涉及Agent Memory的核心机制。
HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding
Haowei Zhang, Shudong Yang, Jinlan Fu, See-Kiong Ng, Xipeng Qiu
8/10 2026-01-21 cs.CV PDF
近年来,多模态大语言模型(MLLMs)在离线视频理解方面取得了显著进展。然而,将其扩展到视频流输入仍面临挑战,现有模型难以同时保持稳定的理解性能、实时响应和低GPU内存开销。为解决这一问题,本文提出HERMES,一种无需训练的实时且准确理解视频流的新架构。基于对注意力机制的机理研究,我们将KV缓存概念化为一个分层记忆框架,用于封装多粒度的视频信息。在推理过程中,HERMES复用紧凑的KV缓存,在资源受限条件下实现高效的视频流理解。值得注意的是,HERMES在用户查询到达时不需要辅助计算,从而保证了连续视频流交互的实时响应,相比之前最先进的方法,其首次令牌延迟(TTFT)提高了10倍。即使将视频token数量减少多达68%(与均匀采样相比),HERMES在所有基准测试中仍实现了优于或相当的准确性,在流式数据集上最高提升了11.4%。
KV缓存 视频流理解 分层记忆 LLM推理优化
论文核心提出KV缓存作为分层记忆框架,直接针对Agent Memory机制进行创新设计。
Toward Efficient Agents: Memory, Tool learning, and Planning
Xiaofang Yang, Lijun Li, Heng Zhou, Tong Zhu, Xiaoye Qu et al.
8/10 2026-01-20 cs.AI PDF
近年来,大型语言模型向智能体系统的扩展引起了广泛关注。尽管智能体的有效性持续提升,但对实际部署至关重要的效率问题却常被忽视。本文从智能体的三个核心组件——记忆、工具学习和规划出发,探讨了包括延迟、令牌数、步骤数等成本因素在内的效率问题。我们回顾了多种近期方法,这些方法在实现上有所不同,但在高层原则上趋于一致,如通过压缩和管理限制上下文、设计强化学习奖励以减少工具调用、采用受控搜索机制提高效率等。我们从两个互补的角度定义了效率:在固定成本预算下比较有效性,以及在相似有效性的前提下比较成本。这种权衡也可通过有效性与成本之间的帕累托前沿来理解。此外,我们还总结了评估这些组件的协议,并整合了基准测试和方法论研究中常见的效率指标。最后,我们讨论了关键挑战和未来方向,旨在提供有前景的见解。
Agent Memory Efficiency Optimization Tool Learning Planning Reinforcement Learning
论文明确将Memory作为智能体效率研究的核心组成部分,深入探讨了其优化方法。
AgentEHR: Advancing Autonomous Clinical Decision-Making via Retrospective Summarization
Yusheng Liao, Chuan Xuan, Yutong Cai, Lina Yang, Zhe Chen et al.
8/10 2026-01-20 cs.CL PDF
大型语言模型在医疗领域展现出巨大潜力,但其在自主电子健康记录(EHR)导航中的应用仍受限于对精选输入和简化检索任务的依赖。为弥合理想化实验环境与真实临床环境之间的差距,本文提出了AgentEHR基准测试,挑战智能体执行复杂的决策任务,如诊断和治疗计划,这些任务需要在原始且高噪声的数据库中进行长距离交互推理。在解决这些任务时,我们发现现有摘要方法不可避免地导致关键信息丢失和推理连续性断裂。为此,我们提出RetroSum,一种新颖的框架,将回顾性摘要机制与演进的经验策略相结合。通过动态重新评估交互历史,回顾性机制防止了长上下文信息丢失并确保逻辑连贯性。此外,演进策略通过从记忆库中检索积累的经验来弥合领域差距。广泛的实证评估表明,RetroSum相比竞争基线实现了高达29.16%的性能提升,并显著减少了高达92.3%的总交互错误。
Agent Memory 医疗AI EHR导航 回顾性摘要 智能体决策
论文核心提出RetroSum框架,结合回顾性摘要与经验演化策略,直接涉及Agent Memory机制。
Towards robust long-context understanding of large language model via active recap learning
Chenyu Hui
8/10 2026-01-20 cs.CL PDF
本文提出了一种主动回顾学习(Active Recap Learning, ARL)框架,旨在提升大语言模型(LLM)对长上下文的理解能力。ARL通过在持续预训练阶段构建目标序列,并在推理阶段进行回顾性摘要生成,使模型能够重新审视并总结早期内容。首先,基于长、短前向上下文之间的损失差异识别关键标记,并找到最相关的先前段落,然后利用LLM对其进行摘要。其次,ARL使模型能够在推理过程中自主生成并使用这些回顾性摘要,从而建立跨段落的递归记忆机制。实验结果表明,ARL在RULER和LongBench数据集上分别取得了26.8%和9.44%的显著提升。总体而言,ARL提供了一种简单而有效的持续预训练方法,以增强长上下文理解能力,推动了LLM可扩展的记忆增强技术。
长上下文理解 递归记忆机制 持续预训练 LLM优化
论文核心聚焦于增强LLM的长上下文理解,提出递归记忆机制,与Agent Memory直接相关。
HeteroCache: A Dynamic Retrieval Approach to Heterogeneous KV Cache Compression for Long-Context LLM Inference
Zhiyuan Shi, Qibo Qiu, Feng Xue, Zhonglin Jiang, Li Yu et al.
8/10 2026-01-20 cs.CL PDF
KV缓存的线性内存增长是长上下文任务中LLM推理的重要瓶颈。现有静态压缩方法往往无法保留全局重要信息,主要因为它们忽略了注意力漂移现象,即标记的重要性随时间动态变化。尽管最近的动态检索方法试图解决这一问题,但通常受到粗粒度缓存策略的影响,并因频繁的数据传输而产生较高的I/O开销。为克服这些限制,我们提出HeteroCache,一种无需训练的动态压缩框架。我们的方法基于两个关键洞察:注意力头表现出不同的时间异质性,同一层内的头之间存在显著的空间冗余。根据这些洞察,HeteroCache根据稳定性和冗余性对头进行分类,随后应用细粒度加权策略,将较大的缓存预算分配给注意力快速变化的头以捕捉上下文变化,从而解决粗粒度策略的低效问题。此外,我们采用分层存储机制,其中一部分代表性头监控注意力变化,并触发从CPU的异步按需检索,有效隐藏I/O延迟。最后,实验表明,HeteroCache在多个长上下文基准测试中实现了最先进的性能,并在224K上下文中相比原始模型加速了高达3倍的解码速度。
KV缓存 动态压缩 长上下文推理 注意力机制 I/O优化
论文核心研究KV缓存压缩,直接涉及LLM推理中的内存管理机制。
Investigating Tool-Memory Conflicts in Tool-Augmented LLMs
Jiali Cheng, Rui Pan, Hadi Amiri
8/10 2026-01-14 cs.SE PDF
工具增强的大语言模型(LLMs)已推动众多应用发展,但可能面临知识冲突问题。本文提出一种新型知识冲突——工具-记忆冲突(Tool-Memory Conflict, TMC),即模型内部参数化知识与外部工具知识相互矛盾。研究发现,现有大语言模型在STEM相关任务中尤为容易受TMC影响。此外,不同条件下工具知识与参数化知识的优先级存在差异。作者评估了包括基于提示和RAG在内的现有冲突解决方法,结果表明这些方法均无法有效缓解工具-记忆冲突。
工具增强 知识冲突 参数化记忆 外部工具
聚焦工具知识与参数化记忆的冲突,属Agent Memory核心问题。
To Retrieve or To Think? An Agentic Approach for Context Evolution
Rubing Chen, Jian Wang, Wenjie Li, Xiao-Yong Wei, Qing Li
8/10 2026-01-13 cs.CL PDF
当前的上下文增强方法(如检索增强生成)对于解决知识密集型推理任务至关重要。然而,这些方法通常采用僵化的策略,在每一步都执行检索操作,导致不必要的计算成本并引入无关噪声。为了解决这些问题,本文提出了一种名为Agentic Context Evolution (ACE) 的框架,该框架受人类元认知启发,能够动态决定是获取新证据还是基于现有知识进行推理。ACE通过中央协调代理进行战略决策,并在检索代理和推理代理之间切换,以减少冗余检索步骤,从而保持上下文的简洁性和演化性。在多个具有挑战性的多跳问答基准测试中,ACE在准确率方面显著优于竞争基线,并实现了高效的token消耗。本研究为复杂、知识密集型任务的上下文演化生成提供了有价值的见解。
Agent Memory Context Evolution Retrieval-Augmented Generation Reasoning Agent
论文提出ACE框架,动态决定是否检索或推理,直接涉及Agent Memory的机制与优化。
When KV Cache Reuse Fails in Multi-Agent Systems: Cross-Candidate Interaction is Crucial for LLM Judges
Sichu Liang, Zhenglin Wang, Jiajia Chu, Pengfei Xia, Hui Zang et al.
8/10 2026-01-13 cs.MA PDF
多智能体LLM系统通常生成多个候选响应,并由LLM裁判进行聚合。为减少预填充阶段的主导成本,近期工作提倡在部分共享上下文中复用KV缓存,并报告了生成代理的显著加速效果。本文表明,这些效率提升并未均匀地转移到以裁判为中心的推理中。在GSM8K、MMLU和HumanEval数据集上,我们发现对执行代理有效的复用策略可能会严重干扰裁判行为:最终任务准确率可能看似稳定,但裁判的选择与密集预填充结果高度不一致。我们通过裁判一致性率(JCR)量化了这一风险,并提供了诊断结果,显示复用系统性地削弱了跨候选注意力,尤其是对后期候选块的影响较大。我们的消融实验进一步证明,显式的跨候选交互对于保留密集预填充决策至关重要。总体而言,我们的结果识别出KV缓存复用的一个先前被忽视的失效模式,并突出了以裁判为中心的推理作为一个需要专门、风险意识系统设计的独特领域。
KV缓存 多智能体系统 LLM裁判 注意力机制 系统设计
论文核心研究KV缓存复用在多智能体系统中的失效问题,直接涉及Agent Memory机制。
An Axiomatic Approach to General Intelligence: SANC(E3) -- Self-organizing Active Network of Concepts with Energy E3
Daesuk Kwon, Won-gi Paeng
8/10 2026-01-13 cs.AI PDF
一般智能必须在有限资源下将经验重新组织为内部结构,以实现预测和行动。现有系统隐含地假设了固定的原始单元,从而回避了表征单元如何自身产生和稳定的问题。本文提出了SANC(E3),一个公理化框架,其中表征单元并非先验给定,而是在有限激活容量下通过竞争选择、重建和压缩过程产生的稳定结果,并由显式的能量函数E3最小化所控制。SANC(E3)明确区分了系统标记(如{这里,现在,我}和感官源)与通过共发事件自组织产生的标记。五个核心公理形式化了有限容量、共现关联、相似性竞争、置信度稳定以及重建-压缩-更新权衡。其关键特征是伪内存映射I/O机制,通过该机制,内部重放的格式塔(Gestalt)与外部感官输入一样,均通过相同的公理化路径处理。因此,感知、想象、预测、计划和行动被统一在一个单一的表示和能量过程中。从这些公理中推导出十二个命题,表明类别形成、层次组织、无监督学习和高级认知活动都可以被理解为在E3最小化下的格式塔完成实例。
Agent Memory Self-organization Energy Minimization Gestalt Completion General Intelligence
论文提出SANC(E3)框架,包含伪内存映射I/O机制,统一感知、想象与行动,核心涉及记忆机制。
OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent
Bowen Yang, Kaiming Jin, Zhenyu Wu, Zhaoyang Liu, Qiushi Sun et al.
8/10 2026-01-12 cs.MA PDF
尽管视觉语言模型(VLMs)显著推动了计算机使用代理(CUAs)的发展,但当前框架在长周期工作流程中的鲁棒性和新领域中的泛化能力仍存在不足。这些限制源于对历史视觉上下文管理缺乏精细控制以及缺乏视觉感知的教程检索。为弥补这些缺陷,本文提出了OS-Symphony,一个综合框架,包含一个协调两个关键创新的调度器:(1)利用里程碑驱动的长期记忆的反思-记忆代理,实现轨迹级别的自我修正,有效缓解长周期任务中的视觉上下文丢失问题;(2)多功能工具代理,采用多模态搜索器通过SeeAct范式在基于浏览器的沙箱中导航,合成实时、视觉对齐的教程,从而解决未见过场景中的保真度问题。实验结果表明,OS-Symphony在不同模型规模下均取得显著性能提升,在三个在线基准测试中取得了新的最先进结果,特别是在OSWorld上达到了65.84%。
Agent Memory Computer-Using Agent Vision-Language Model Tutorial Retrieval Long-Horizon Task
论文核心提出Reflection-Memory Agent和视觉感知教程检索,直接涉及Agent Memory机制与系统设计。
KVzap: Fast, Adaptive, and Faithful KV Cache Pruning
Simon Jegou, Maximilian Jeblick
8/10 2026-01-12 cs.LG PDF
随着基于Transformer的语言模型上下文长度的增长,键值(KV)缓存已成为推理过程中的关键瓶颈。尽管已有许多KV缓存剪枝方法被提出,但由于速度与精度之间的权衡,这些方法尚未被主流推理引擎广泛采用。本文引入了KVzap,这是一种快速且输入自适应的KV缓存剪枝方法,适用于预填充和解码阶段。在Qwen3-8B、Llama-3.1-8B-Instruct和Qwen3-32B等模型上,KVzap在长上下文和推理任务中实现了2至4倍的KV缓存压缩,几乎不损失精度,并在KVpress排行榜上取得了最先进的性能。代码和模型可在https://github.com/NVIDIA/kvpress获取。
KV缓存 模型压缩 推理优化 LLM推理
论文聚焦KV缓存压缩,直接涉及Agent Memory机制,是推理效率的关键优化。
Code
Distilling Feedback into Memory-as-a-Tool
Víctor Gallego
8/10 2026-01-09 cs.CL PDF
本文提出一种框架,通过文件化记忆系统和代理控制的工具调用,将瞬时批评转化为可检索的指导方针,从而降低推理时的计算成本。我们在基于评分标准的反馈基准数据集上评估了该方法。实验表明,增强后的LLM能够快速达到测试时优化流程的性能水平,同时显著减少推理成本。
Agent Memory 反馈蒸馏 推理优化 工具调用
论文核心提出基于记忆系统的反馈蒸馏框架,明确涉及Agent Memory机制与系统设计。
ACR: Adaptive Context Refactoring via Context Refactoring Operators for Multi-Turn Dialogue
Jiawei Shen, Jia Zhu, Hanghui Guo, Weijie Shi, Yue Cui et al.
Hanghui Guo (Southeast University)
8/10 2026-01-09 cs.CL PDF
大型语言模型(LLMs)在多轮对话中表现出色,但在长期交互中仍难以保持与先前内容的一致性,避免事实错误。现有方法主要依赖扩展上下文窗口、引入外部记忆或进行上下文压缩,但存在上下文惯性和状态漂移等局限。为此,本文提出ACR框架,通过动态监控和重构对话历史,主动缓解上述问题。该框架基于一组上下文重构操作符,并采用教师引导的自我演化训练范式,学习何时干预以及如何重构上下文,从而将上下文管理与推理过程解耦。实验表明,该方法在多轮对话任务中显著优于现有基线,同时减少了token消耗。
Agent Memory 上下文管理 多轮对话 状态漂移 自适应重构
论文提出ACR框架,直接针对对话中的上下文惯性和状态漂移问题,属于Agent Memory机制的核心研究。
AgentOCR: Reimagining Agent History via Optical Self-Compression
Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu et al.
8/10 2026-01-08 cs.LG PDF
大型语言模型(LLM)的最新进展支持基于强化学习训练的多轮交互智能体系统,但其实际部署受限于不断增长的文本历史记录,导致令牌预算和内存消耗激增。本文提出AgentOCR框架,利用视觉令牌更高的信息密度,将累积的观察-动作历史压缩为紧凑的渲染图像。为实现可扩展的多轮推理,AgentOCR引入分段光学缓存机制,通过将历史分解为可哈希片段并维护视觉缓存,避免冗余重渲染。此外,该框架还提出智能体自压缩机制,使智能体能主动输出压缩率,并通过压缩感知奖励进行训练,以自适应平衡任务成功率与令牌效率。在ALFWorld和基于搜索的问答等挑战性基准上的实验表明,AgentOCR在保持超过95%文本智能体性能的同时,显著降低令牌消耗(>50%),并实现一致的令牌与内存效率提升。
Agent Memory Memory Compression
提出视觉化压缩历史记忆机制,直接优化Agent Memory效率。
Modality-Dependent Memory Mechanisms in Cross-Modal Neuromorphic Computing
Effiong Blessing, Chiung-Yi Tseng, Somshubhra Roy, Junaid Rehman, Isaac Nkrumah
8/10 2025-12-21 cs.LG PDF
增强记忆的脉冲神经网络(SNNs)有望实现高能效的神经形态计算,但其在不同感官模态间的泛化能力尚未探索。本文首次对SNN中的记忆机制开展全面的跨模态消融研究,评估Hopfield网络、分层门控循环网络(HGRN)和监督对比学习(SCL)在视觉(N-MNIST)与听觉(SHD)神经形态数据集上的性能。结果揭示显著的模态依赖性:Hopfield网络在视觉任务上达97.68%准确率,但在听觉任务仅76.15%;SCL则表现更均衡。研究证明记忆机制具有任务特异性而非普适性,并通过多模态联合训练验证了统一部署的有效性。定量记忆痕迹分析显示跨模态对齐较弱(相似度0.038),支持并行架构设计。该工作首次为神经形态系统中模态特异性记忆优化提供实证依据,能效比传统神经网络提升603倍。
神经形态计算 脉冲神经网络
聚焦记忆机制在神经形态计算中的跨模态表现,属核心记忆研究。
排序:
每页显示: