Memory Bank by lightsmile

LLM/Agent Memory 论文追踪报告 - 2026-02-20 10:36

论文总数

已分析

高相关

Memory核心

每日新增论文趋势 (近30天)

Mnemis：基于分层图的双路径检索用于LLM长期记忆

Mnemis: Dual-Route Retrieval on Hierarchical Graphs for Long-Term LLM Memory

Zihao Tang, Xin Yu, Ziyu Xiao, Zengxuan Wen, Zelin Li et al.

10/10 2026-02-17 cs.CL PDF

AI记忆，特别是模型如何组织和检索历史信息，对大型语言模型（LLMs）变得越来越重要。然而，现有方法（如RAG和Graph-RAG）主要依赖相似性检索机制，难以应对需要全局推理或全面覆盖相关信息的场景。本文提出Mnemis，一种新型的记忆框架，结合了System-1相似性搜索与互补的System-2机制——全局选择。Mnemis将记忆组织为一个基础图用于相似性检索，并构建一个分层图以实现自上而下的语义层次遍历。通过结合两种检索路径的优势，Mnemis能够检索出在语义和结构上均相关的信息项。在长期记忆基准测试中，Mnemis取得了最先进的性能，在LoCoMo上得分为93.9，在LongMemEval-S上得分为91.6（使用GPT-4.1-mini）。

LLM Memory Hierarchical Graph Dual-Route Retrieval Global Selection

论文直接聚焦于LLM的长期记忆机制，提出新的框架并进行实验验证，属于核心Memory研究。

选择如何记忆：面向LLM代理的自适应记忆结构

Choosing How to Remember: Adaptive Memory Structures for LLM Agents

Mingfei Lu, Mengjia Wu, Feng Liu, Jiawei Xu, Weikai Li et al.

10/10 2026-02-15 cs.AI PDF

记忆对于基于大语言模型（LLM）的代理在长期交互中保持行为一致性至关重要。然而，现有的代理记忆系统存在两个关键缺陷：它们依赖单一的记忆结构，并未将记忆结构的选择建模为上下文自适应的决策，这限制了其处理异构交互模式的能力并导致性能不佳。本文提出了一种统一的框架FluxMem，使LLM代理能够实现自适应记忆组织。该框架为代理配备了多种互补的记忆结构，并根据交互级特征显式学习在这些结构之间进行选择，使用来自下游响应质量和记忆利用情况的离线监督。为了支持稳健的长期记忆演化，我们进一步引入了一个三级记忆层次结构以及基于Beta混合模型的概率门控机制，用于分布感知的记忆融合，以替代脆弱的相似性阈值。在两个长期基准测试PERSONAMEM和LoCoMo上的实验表明，我们的方法平均分别提升了9.18%和6.14%。

LLM Agent 自适应记忆结构记忆融合长期交互

论文标题和内容直接聚焦于LLM Agent的自适应记忆结构，提出新的框架和方法。

HyMem：具有动态检索调度的混合记忆架构

HyMem: Hybrid Memory Architecture with Dynamic Retrieval Scheduling

Xiaochen Zhao, Kaikai Wang, Xiaowen Zhang, Chen Yao, Aili Wang

10/10 2026-02-15 cs.AI PDF

大型语言模型（LLM）代理在短文本场景中表现出色，但在长对话中常因低效的记忆管理而表现不佳。现有方法面临效率与效果之间的根本性权衡：记忆压缩可能导致复杂推理所需的关键细节丢失，而保留原始文本则会为简单查询引入不必要的计算开销。问题的核心在于单一化的记忆表示和静态检索机制无法模拟人类灵活且主动的记忆调度能力，从而难以适应多样化的场景。受认知经济原则启发，本文提出HyMem，一种通过多粒度记忆表示实现动态按需调度的混合记忆架构。HyMem采用双粒度存储方案与动态两级检索系统：轻量级模块构建摘要级上下文以提高响应生成效率，而基于LLM的深度模块仅在复杂查询时被选择性激活，并辅以反思机制用于迭代推理优化。实验表明，HyMem在LOCOMO和LongMemEval基准测试中均取得优异性能，优于全上下文方法，同时将计算成本降低了92.6%，在长期记忆管理中实现了效率与性能的最先进平衡。

LLM Agent Memory Architecture Dynamic Retrieval Cognitive Economy

论文核心聚焦于LLM Agent的混合记忆架构与动态检索调度，直接针对Agent Memory机制进行创新。

Hippocampus：一种高效且可扩展的智能体记忆模块

Hippocampus: An Efficient and Scalable Memory Module for Agentic AI

Yi Li, Lianjie Cao, Faraz Ahmed, Puneet Sharma, Bingzhe Li

10/10 2026-02-14 cs.AI PDF

智能体AI需要持久记忆来存储超出LLM上下文窗口的用户特定历史。现有记忆系统使用密集向量数据库或知识图谱遍历（或混合），导致检索延迟高且存储扩展性差。本文提出Hippocampus，一种基于紧凑二进制签名进行语义搜索、利用无损token-ID流进行精确内容重建的智能体记忆管理系统。其核心是动态小波矩阵（DWM），用于压缩并联合索引两种流，从而在压缩域内实现超快速搜索，避免了代价高昂的密集向量或图计算。该设计随内存规模线性扩展，适用于长期智能体部署。实验表明，Hippocampus将端到端检索延迟降低至原来的1/31，并减少每个查询的token占用量达14倍，同时在LoCoMo和LongMemEval基准测试中保持准确性。

Agent Memory Memory Compression Semantic Search Efficient Retrieval LLM Agent

论文标题和内容均明确聚焦于Agent Memory系统的设计与优化，是核心研究。

MemAdapter：通过生成子图检索实现Agent记忆范式间的快速对齐

MemAdapter: Fast Alignment across Agent Memory Paradigms via Generative Subgraph Retrieval

Xin Zhang, Kailai Yang, Chenyue Li, Hao Li, Qiyu Wei et al.

Xin Zhang (The University of ManchesterUnited Kingdom) | Kailai Yang (The University of ManchesterUnited Kingdom) | Chenyue Li (Stanford UniversityUnited States)

10/10 2026-02-09 cs.AI PDF

记忆机制是基于LLM的智能体系统中的核心组件，能够支持长时序上下文下的推理和知识发现。现有的智能体记忆系统通常在孤立的范式（如显式、参数化或潜在记忆）中设计，并采用紧密耦合的检索方法，这限制了跨范式的泛化与融合能力。本文首次尝试在单一记忆系统中统一异构的记忆范式，提出MemAdapter这一记忆检索框架，实现不同记忆范式之间的快速对齐。该框架采用两阶段训练策略：首先从统一的记忆空间中训练一个生成子图检索器，其次通过对比学习训练一个轻量级对齐模块，以适应未见过的记忆范式。实验表明，该方法在三个公开基准测试中显著优于五种强大的记忆系统，并且能够在单块GPU上以不到5%的训练计算量完成跨范式对齐，同时实现了零样本跨范式融合，展示了其作为智能体记忆系统的即插即用解决方案的潜力。

Agent Memory Memory Alignment Generative Retrieval Cross-Paradigm Fusion

论文核心聚焦于Agent Memory的跨范式对齐与统一，提出MemAdapter框架，属于Agent Memory机制的核心研究。

通过元学习代理记忆设计实现持续学习

Learning to Continually Learn via Meta-learning Agentic Memory Designs

Yiming Xiong, Shengran Hu, Jeff Clune

10/10 2026-02-08 cs.AI PDF

基础模型的状态无关性限制了代理系统持续学习的能力，这是长期推理和适应的核心能力。为解决这一问题，代理系统通常引入记忆模块以保留和重用过去经验，从而实现在测试时的持续学习。然而，现有记忆设计多为人工制定且固定，难以适应现实任务的多样性和非平稳性。本文提出ALMA（用于代理系统的自动化元学习记忆设计），通过元学习替代手工设计的记忆模块，减少人工干预，使代理系统能够在多个领域中成为持续学习者。该方法采用一个元代理，在开放环境中搜索以可执行代码表示的记忆设计，理论上允许发现任意记忆结构及其检索和更新机制。在四个顺序决策领域的广泛实验表明，所学记忆设计在所有基准测试中比最先进的手工设计记忆模块更有效、更高效地从经验中学习。当安全开发和部署时，ALMA代表了迈向自我改进AI系统的重要一步，这些系统能够学习成为自适应、持续学习的代理。

持续学习元学习代理系统记忆设计自动化学习

论文核心聚焦于Agent Memory设计，提出自动化学习记忆机制以实现持续学习。

AgentSys：通过显式分层内存管理实现安全且动态的LLM代理

AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management

Ruoyao Wen, Hao Li, Chaowei Xiao, Ning Zhang

10/10 2026-02-07 cs.CR PDF

间接提示注入威胁LLM代理，通过在外部内容中嵌入恶意指令，导致未经授权的操作和数据泄露。LLM代理通过上下文窗口维护工作内存，存储交互历史以辅助决策。传统代理无差别地累积所有工具输出和推理轨迹，造成两个关键漏洞：（1）注入的指令在整个工作流中持续存在，为攻击者提供多次操控行为的机会；（2）冗长、非必要的内容损害了决策能力。现有防御方法将臃肿的内存视为既定事实，专注于保持系统韧性，而非减少不必要的积累以防止攻击。本文提出了AgentSys框架，通过显式内存管理来防御间接提示注入。受操作系统进程内存隔离的启发，AgentSys采用分层结构组织代理：主代理生成用于工具调用的工作者代理，每个工作者代理在独立上下文中运行，并可生成子工作者处理子任务。外部数据和子任务轨迹不会进入主代理的内存；只有经过模式验证的返回值可以通过确定性的JSON解析跨边界传输。实验表明，仅隔离机制即可将攻击成功率降至2.19%，再加上验证器/清理器进一步提升防御效果，其开销随操作数量而非上下文长度增长。在AgentDojo和ASB上，AgentSys分别实现了0.78%和4.25%的攻击成功率，同时略微提升了良性任务的效用。它对自适应攻击者和多种基础模型均表现出鲁棒性，证明显式内存管理能够实现安全、动态的LLM代理架构。

LLM Agent Memory Management Security Prompt Injection Hierarchical Architecture

论文核心聚焦于LLM Agent的显式分层内存管理，直接针对内存安全问题提出解决方案。

Code

基于图的智能体记忆：分类、技术与应用

Graph-based Agent Memory: Taxonomy, Techniques, and Applications

Chang Yang, Chuang Zhou, Yilin Xiao, Su Dong, Luyao Zhuang et al.

10/10 2026-02-05 cs.AI PDF

记忆是基于大语言模型（LLM）的智能体在处理长期复杂任务（如多轮对话、游戏对战、科学发现）中的核心模块，能够实现知识积累、迭代推理和自我进化。在多种范式中，图结构因其建模关系依赖、组织层次信息和支持高效检索的内在能力而成为智能体记忆的强大工具。本文从图的角度对智能体记忆进行了全面综述。首先，我们介绍了智能体记忆的分类，包括短期与长期记忆、知识与经验记忆、非结构化与结构化记忆，并从实现角度探讨了基于图的记忆。其次，根据智能体记忆的生命周期，系统分析了基于图的智能体记忆的关键技术，涵盖数据内容提取、高效存储、相关内容检索以及记忆内容更新。第三，我们总结了支持自进化智能体记忆开发与评估的开源库和基准测试，并探讨了多样化的应用场景。最后，我们识别了关键挑战和未来研究方向。本综述旨在为更高效、可靠的基于图的智能体记忆系统的发展提供可行见解。所有相关资源，包括研究论文、开源数据和项目，均收集在https://github.com/DEEP-PolyU/Awesome-GraphMemory。

Agent Memory Graph-based Memory Survey LLM Agents Knowledge Accumulation

论文标题和内容明确聚焦于Agent Memory，特别是基于图的内存机制、技术及应用。

Code

Memora：一种平衡抽象与具体性的谐波记忆表示

Memora: A Harmonic Memory Representation Balancing Abstraction and Specificity

Menglin Xia, Xuchao Zhang, Shantanu Dixit, Paramaguru Harimurugan, Rujia Wang et al.

10/10 2026-02-03 cs.AI PDF

智能体记忆系统需要在信息持续增长的同时支持高效、上下文感知的检索以服务于下游任务。抽象对于扩展智能体记忆至关重要，但往往牺牲了具体性，导致有效推理所需的细节被掩盖。本文提出Memora，一种结构上平衡抽象与具体性的谐波记忆表示。Memora通过其主要抽象来索引具体的记忆值，并将相关更新整合为统一的记忆条目，同时通过提示锚点扩展对记忆不同方面的检索访问并连接相关记忆。基于这一结构，我们采用了一种主动利用这些记忆连接的检索策略，以检索超出直接语义相似性的相关信息。理论上，我们证明标准的检索增强生成（RAG）和知识图谱（KG）记忆系统是本框架的特例。实证表明，Memora在LoCoMo和LongMemEval基准测试中建立了新的最先进水平，展示了随着记忆规模扩大时更好的检索相关性和推理效果。

Agent Memory Memory Representation Retrieval-Augmented Generation Knowledge Graph Harmonic Memory

论文直接聚焦于Agent Memory机制，提出Memora结构，平衡抽象与具体性，属于核心Memory研究。

LatentMem: 为多智能体系统定制潜在记忆

LatentMem: Customizing Latent Memory for Multi-Agent Systems

Muxin Fu, Guibin Zhang, Xiangyuan Xue, Yafu Li, Zefeng He et al.

10/10 2026-02-03 cs.CL PDF

基于大语言模型的多智能体系统展现出显著的集体智能，其中多智能体记忆是持续适应的关键机制。然而，现有设计存在两个根本瓶颈：一是缺乏角色感知的定制导致记忆同质化；二是过于细粒度的记忆条目引发信息过载。为此，我们提出了LatentMem，一种可学习的多智能体记忆框架，能够在标记效率高的情况下定制特定智能体的记忆。该框架包含一个存储原始交互轨迹的轻量级经验库，以及一个根据检索经验和智能体特定上下文合成紧凑潜在记忆的记忆合成器。此外，我们引入了潜在记忆策略优化（LMPO），通过潜在记忆将任务级别的优化信号传递给合成器，鼓励其生成紧凑且高效的记忆表示。在多个基准和主流多智能体框架上的广泛实验表明，LatentMem相比基础设置性能提升了高达19.36%，并始终优于现有记忆架构，且无需对底层框架进行任何修改。

multi-agent systems memory customization latent memory LLM agent

论文标题和内容均明确聚焦于多智能体系统的记忆机制，提出了一种可学习的记忆框架。

MemSkill：面向自演化智能体的记忆技能学习与演进

MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents

Haozhen Zhang, Quanyu Long, Jianzhu Bao, Tao Feng, Weizhi Zhang et al.

10/10 2026-02-02 cs.CL PDF

当前大多数大语言模型（LLM）智能体的记忆系统依赖少量静态、人工设计的操作来提取记忆，这些固定流程将人类先验硬编码为存储与更新规则，在多样交互模式下表现僵化，且难以处理长历史。为此，本文提出MemSkill，将记忆操作重构为可学习、可演化的记忆技能——即从交互轨迹中提取、整合与剪枝信息的结构化可复用例程。受智能体技能设计理念启发，MemSkill采用一个控制器学习选择相关技能，并由基于LLM的执行器生成技能引导的记忆。此外，系统引入一个设计师模块，周期性审查技能失效的困难案例，并通过提出改进或新技能来演化技能集。该闭环机制同时优化技能选择策略与技能本身。在LoCoMo、LongMemEval、HotpotQA和ALFWorld上的实验表明，MemSkill显著优于强基线并具有良好泛化能力。

LLM Agent Memory Skills Self-Evolving Memory Memory Management

论文核心聚焦于LLM Agent记忆机制的可学习与自演化架构。

Infinite-World：通过无姿态分层记忆将交互式世界模型扩展至千帧时域

Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

Ruiqi Wu, Xuanhua He, Meng Cheng, Tianyu Yang, Yong Zhang et al.

10/10 2026-02-02 cs.CV PDF

本文提出Infinite-World，一种能在复杂现实环境中维持超过1000帧连贯视觉记忆的鲁棒交互式世界模型。针对现有模型在真实视频中因姿态估计噪声和视角重访稀疏而难以训练的问题，作者引入分层无姿态记忆压缩器（HPMC），递归地将历史隐变量压缩为固定容量表示，并与生成主干联合优化，使模型能以有界计算成本锚定远期过去状态，无需显式几何先验。此外，提出不确定性感知动作标注模块，将连续运动离散化为三态逻辑，提升原始视频数据利用率并避免噪声轨迹污染动作空间。结合回访密集微调策略，在30分钟紧凑数据集上高效激活模型长程闭环能力。实验表明，该方法在视觉质量、动作可控性与空间一致性方面表现优越。

Agent Memory World Model

论文核心提出分层无姿态记忆压缩器，直接研究Agent长期视觉记忆机制。

Live-Evo：基于持续反馈的智能体记忆在线演化

Live-Evo: Online Evolution of Agentic Memory from Continuous Feedback

Yaolun Zhang, Yiran Wu, Yijiong Yu, Qingyun Wu, Huazheng Wang

10/10 2026-02-02 cs.AI PDF

大语言模型（LLM）智能体日益配备记忆机制，以存储经验并提供可复用的指导，从而提升任务求解性能。现有自演化系统多基于静态训练/测试划分，难以应对真实分布偏移和持续反馈场景。本文提出Live-Evo——一种在线自演化记忆系统，通过“经验库”与“元指导库”解耦“发生了什么”与“如何使用”，为每个任务动态生成适应性指导。系统根据反馈在线调整经验权重：有效经验被强化并频繁检索，误导或过时经验则被降权并逐渐遗忘，模拟人类记忆的强化与衰减机制。在为期10周的Prophet Arena在线基准上，Live-Evo将Brier评分提升20.8%，市场回报提高12.9%，并在深度研究任务中持续优于强基线。

在线学习记忆演化

论文核心聚焦于Agent Memory的在线演化机制，提出明确的双库架构与记忆更新策略。

Code

超越RAG的智能体记忆：解耦与聚合式检索

Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation

Zhanghao Hu, Qinglin Zhu, Hanqi Yan, Yulan He, Lin Gui

10/10 2026-02-02 cs.CL PDF

智能体记忆系统常采用标准的检索增强生成（RAG）流程，但其底层假设在此场景下并不适用。RAG面向大型异构语料库，而智能体记忆是有限、连贯且高度相关的对话流，常含重复片段。固定top-k相似性检索易返回冗余上下文，事后剪枝可能删除推理所需的时序前提。本文主张检索应超越相似匹配，转而操作潜在语义成分，遵循“解耦—聚合”范式：将记忆解耦为语义单元，组织成层次结构，并以此驱动检索。所提xMemory通过稀疏性—语义目标引导记忆的拆分与合并，构建忠实且可检索的高层节点结构。推理时采用自上而下策略，为多事实查询选择紧凑多样的主题与语义，仅在降低阅读器不确定性时才展开至具体事件或原始消息。在LoCoMo和PerLTQA上的实验表明，该方法在三大最新LLM上均显著提升回答质量与token效率。

Agent Memory Retrieval-Augmented Generation

论文聚焦Agent Memory机制，提出超越RAG的新架构。

ProcMEM：通过非参数化PPO从经验中学习可复用的程序性记忆以用于大语言模型智能体

ProcMEM: Learning Reusable Procedural Memory from Experience via Non-Parametric PPO for LLM Agents

Qirui Mi, Zhijian Ma, Mengyue Yang, Haoxuan Li, Yisen Wang et al.

10/10 2026-02-02 cs.AI PDF

大语言模型驱动的智能体在序列决策任务中表现优异，但常依赖即时推理，在重复场景中反复重新推导解决方案，导致计算冗余与执行不稳定。为解决此问题，本文提出ProcMEM框架，使智能体能在无需参数更新的情况下，从交互经验中自主学习程序性记忆。通过构建技能马尔可夫决策过程（Skill-MDP），ProcMEM将被动的情节叙述转化为具备激活、执行与终止条件的可执行技能。为确保可靠复用且不降低能力，引入非参数化PPO方法，利用语义梯度生成高质量候选技能，并通过PPO门控机制进行鲁棒验证。结合基于评分的记忆维护策略，ProcMEM维持紧凑而高质量的程序性记忆库。实验表明，该方法在域内、跨任务及跨智能体场景下均实现高复用率、显著性能提升与极致记忆压缩。

程序性记忆大语言模型智能体

论文核心聚焦于LLM Agent的程序性记忆机制构建与复用。

CoMeT：用于高效长上下文建模的协作记忆Transformer

CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling

Runsong Zhao, Shilei Liu, Jiwei Tang, Langming Liu, Haibin Chen et al.

10/10 2026-02-02 cs.LG PDF

标准Transformer的二次复杂度及不断增长的键值（KV）缓存严重阻碍了长上下文处理。为此，本文提出协作记忆Transformer（CoMeT），一种新型架构，使大语言模型能以恒定内存占用和线性时间复杂度处理任意长度序列。CoMeT作为即插即用模块，仅需少量微调即可集成至预训练模型。其采用双记忆系统：基于FIFO队列的临时记忆存储近期事件，带门控更新规则的全局记忆捕获长程依赖，并共同构成下一数据块的动态软提示。为支持超长上下文高效微调，作者还提出层间流水并行策略。实验表明，经32k上下文微调的CoMeT模型可在百万token序列中精准检索任意位置的密钥，在SCROLLS摘要任务上媲美全注意力基线，并在真实Agent与用户行为问答任务中验证了实用性。

长上下文建模记忆架构

论文核心提出协作记忆机制，直接解决Agent长期上下文记忆问题。

EverMemBench：大语言模型长期交互记忆评测基准

EverMemBench: Benchmarking Long-Term Interactive Memory in Large Language ModelsEverMemBench: Benchmarking Long-Term Interactive Memory in Large Language Models

Chuanrui Hu, Tong Li, Xingze Gao, Hongda Chen, Dannong Xu et al.

Chuanrui Hu (EverMind, Shanda Group) | Tong Li (EverMind, Shanda Group) | Xingze Gao (EverMind, Shanda Group)

10/10 2026-02-01 cs.CL PDF

基于大语言模型的智能助手亟需长期对话记忆能力，但现有评测基准局限于双人单话题对话，难以反映真实场景的复杂性。本文提出EverMemBench，一个包含多方、多群组对话的评测基准，涵盖超百万token的对话内容，具备时序演化的信息、跨话题交织及角色特定人格特征。该基准通过1000余个问答对，从细粒度回忆、记忆意识和用户画像理解三个维度评估记忆系统。实验揭示了当前方法的关键局限：多跳推理在多方场景中失效；时序推理尚未解决，需超越时间戳匹配的版本语义；记忆意识受限于检索机制，现有基于相似性的方法难以弥合查询与隐含相关记忆间的语义鸿沟。EverMemBench为下一代记忆架构提供了具有挑战性的测试平台。

长期记忆评测基准

论文聚焦LLM长期交互记忆的评测，核心研究Agent Memory机制。

PersistBench：大语言模型应在何时遗忘长期记忆？

PersistBench: When Should Long-Term Memories Be Forgotten by LLMs?

Sidharth Pulipaka, Oliver Chen, Manas Sharma, Taaha S Bajwa, Vyas Raina et al.

10/10 2026-02-01 cs.AI PDF

对话助手正越来越多地将长期记忆与大语言模型（LLM）结合，以提升个性化体验（如记住用户为素食者）。然而，这种记忆持久性也可能带来被忽视的安全风险。为此，本文提出PersistBench基准，用于评估两类长期记忆特有风险：跨域泄露（LLM不当注入长期记忆上下文）和记忆诱导的谄媚行为（存储的记忆隐秘强化用户偏见）。作者在18个前沿及开源LLM上进行评测，发现模型在跨域样本上的中位失败率达53%，在谄媚样本上高达97%。该基准旨在推动更鲁棒、更安全的长期记忆机制在对话系统中的发展。

长期记忆安全风险

论文聚焦LLM长期记忆的安全风险，直接研究记忆机制的核心问题。

PolarMem：一种无需训练的极化潜在图记忆，用于可验证的多模态智能体

PolarMem: A Training-Free Polarized Latent Graph Memory for Verifiable Multimodal Agents

Zhisheng Chen, Tingyu Wu, Zijie Zhou, Zhengwei Xie, Ziyan Weng et al.

10/10 2026-01-31 cs.AI PDF

随着多模态智能体从被动观察者演变为长期决策者，其记忆系统不仅需提供信息可用性，还需支持逻辑可验证性。当前架构的根本局限在于概率性视觉-语言模型与稠密联想记忆中存在的认知不对称：它们将语义相似性与事实存在性混淆，且无法结构化地编码否定约束。为此，本文提出PolarMem——一种无需训练的极化潜在图记忆系统，通过非参数分布划分将模糊感知似然转化为离散逻辑约束，并采用具有正交抑制连接的极化图拓扑，显式将已验证的否定作为基本认知状态进行存储。推理阶段采用逻辑主导的检索范式，抑制违反否定约束的幻觉模式。在八个冻结视觉-语言模型和六个基准上的广泛实验表明，PolarMem可作为稳健的认知系统，为可验证多模态智能体奠定基础。

Agent Memory Multimodal Agents

论文提出新型记忆系统PolarMem，核心聚焦可验证的Agent记忆机制。

Code

Mem-T：面向长视野记忆智能体的奖励稠密化方法

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

Yanwei Yue, Guibin Zhang, Boci Peng, Xuanbo Fan, Jiaxin Guo et al.

10/10 2026-01-30 cs.LG PDF

记忆智能体通过内生方式管理记忆的处理、存储与检索，展现出高度的自主性与适应性。然而，现有训练范式受限于稀疏且延迟的奖励信号，难以实现端到端的记忆管理策略优化。为此，本文提出Mem-T——一种可与轻量级分层记忆数据库交互的自主记忆智能体，支持对流式输入进行动态更新与多轮检索。为有效训练其长视野记忆管理能力，进一步提出MoT-GRPO框架，该树引导强化学习方法通过记忆操作树反向传播与事后信用分配，将稀疏终端反馈转化为稠密的逐步监督信号，联合优化记忆构建与检索。实验表明，Mem-T在性能上超越A-Mem和Mem0达14.92%，同时在准确率-效率帕累托前沿上表现优异，相较GAM减少约24.45%的推理token消耗而不损失性能。

记忆智能体强化学习

论文聚焦于自主记忆智能体的记忆管理机制与训练方法，核心研究Agent Memory。

达尔文式记忆：一种无需训练的自调节记忆系统用于GUI智能体演化

Darwinian Memory: A Training-Free Self-Regulating Memory System for GUI Agent Evolution

Hongze Mi, Yibo Feng, WenJie Lu, Song Cao, Jinyuan Li et al.

10/10 2026-01-30 cs.AI PDF

多模态大语言模型（MLLM）智能体在图形用户界面（GUI）自动化中面临长周期、跨应用任务的挑战，主要受限于上下文窗口。现有记忆系统难以适应动态GUI环境，存在高层意图与底层执行间的粒度不匹配及上下文污染问题。为此，本文提出达尔文式记忆系统（DMS），将记忆构建为遵循“适者生存”法则的动态生态系统。DMS将复杂轨迹分解为独立可复用单元，并通过效用驱动的自然选择机制追踪记忆单元的生存价值，主动剪枝次优路径并抑制高风险计划。在真实多应用基准上的实验表明，DMS无需训练成本或架构改动即可显著提升通用MLLM性能，平均成功率提高18.0%，执行稳定性提升33.9%，同时降低任务延迟。

Agent Memory GUI Automation

论文提出新型自进化记忆系统DMS，核心聚焦Agent Memory机制。

E-mem：基于多智能体的情节上下文重构用于大语言模型智能体记忆

E-mem: Multi-agent based Episodic Context Reconstruction for LLM Agent Memory

Kaixiang Wang, Yidan Lin, Jiong Lou, Zhaojiacheng Zhou, Bunyod Suvonov et al.

10/10 2026-01-29 cs.AI PDF

随着大语言模型（LLM）智能体向系统2推理演进，其需在长时间跨度内维持严谨的逻辑完整性。然而，现有记忆预处理范式常因破坏性去上下文化而损害深层推理所需的上下文完整性。为此，本文提出E-mem框架，将范式从记忆预处理转向情节上下文重构。受生物记忆印迹（engrams）启发，E-mem采用异构分层架构：多个辅助智能体维护未压缩的记忆上下文，主控智能体负责全局规划。该机制使辅助智能体能在激活片段内进行局部推理，提取上下文感知证据后再聚合。在LoCoMo基准上的评估表明，E-mem的F1得分超过54%，较当前最优方法GAM提升7.75%，同时降低70%以上的token开销。

LLM Agent Memory Episodic Memory Multi-agent System Context Preservation

论文标题与内容均聚焦于LLM Agent记忆机制，提出新型记忆架构E-mem。

ShardMemo：面向分片化智能体大语言模型记忆的掩码混合专家路由机制

ShardMemo: Masked MoE Routing for Sharded Agentic LLM Memory

Yang Zhao, Chengxiao Dai, Yue Xiu, Mengying Kou, Yuliang Zheng et al.

10/10 2026-01-29 cs.AI PDF

智能体大语言模型（LLM）系统依赖外部记忆以支持长时程状态维护与多智能体并发执行，但随着记忆规模和并行访问量增长，集中式索引与启发式分区成为性能瓶颈。本文提出ShardMemo——一种预算受限的分层记忆服务，包含A层（每智能体工作状态）、B层（带本地近似最近邻索引的分片证据）和C层（版本化技能库）。B层采用“作用域优先路由”策略，通过结构化资格约束在路由或ANN搜索前屏蔽无效分片，并将分片探测建模为对合格分片的掩码混合专家（MoE）路由，支持Top-B或自适应Top-P采样。路由器基于证据到分片的监督信号训练。实验表明，ShardMemo在LoCoMo上显著优于最强基线，在固定预算下提升F1分数并降低检索开销与延迟。

Agent Memory Memory Sharding

论文标题与内容均聚焦于LLM Agent的分层外部记忆系统设计，核心解决记忆扩展与路由问题。

MemOCR：面向高效长程推理的布局感知视觉记忆

MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen et al.

10/10 2026-01-29 cs.AI PDF

长程智能体推理需将不断增长的交互历史有效压缩至有限上下文窗口中。现有记忆系统多将历史序列化为文本，其token级开销均匀且随长度线性增长，常将稀缺预算浪费于低价值细节。为此，本文提出MemOCR——一种多模态记忆智能体，通过视觉布局实现自适应信息密度分配，在严格上下文预算下提升长程推理能力。MemOCR维护结构化富文本记忆（如标题、高亮），并将其渲染为图像供智能体查阅，视觉上突出关键证据，同时大幅压缩辅助细节。为确保在不同记忆预算下的鲁棒性，采用强化学习在预算感知目标下训练模型，使其适应多样压缩水平。在长上下文多跳与单跳问答基准上，MemOCR优于强文本基线，并在极端预算下实现更高效的上下文利用。

视觉记忆上下文压缩

论文提出MemOCR，核心聚焦于Agent Memory的视觉化压缩与布局感知机制。

AMA：基于多智能体协作的自适应记忆

AMA: Adaptive Memory via Multi-Agent Collaboration

Weiquan Huang, Zixuan Wang, Hehai Lin, Sudong Wang, Bo Xu et al.

10/10 2026-01-28 cs.AI PDF

大语言模型（LLM）智能体的快速发展对支持长期交互与复杂推理的鲁棒记忆系统提出了迫切需求。现有方法通常采用僵化的检索粒度、冗余的信息累积策略和粗粒度的更新机制，导致存储内容与任务推理需求不匹配，并随时间积累逻辑不一致。为此，本文提出基于多智能体协作的自适应记忆框架（AMA），通过协调多个智能体实现多粒度记忆管理。AMA采用分层记忆结构，动态匹配检索粒度与任务复杂度：Constructor与Retriever协同构建多粒度记忆并自适应路由查询；Judge验证检索内容的相关性与一致性，必要时触发迭代检索或调用Refresher；Refresher则通过定向更新或删除过时条目维护记忆一致性。在长上下文基准上的实验表明，AMA显著优于当前最优方法，且相比全上下文方法减少约80%的token消耗。

LLM Agent Memory System

论文核心聚焦于LLM Agent记忆机制的设计与优化，标题明确包含memory。

MemCtrl：利用多模态大语言模型作为具身智能体的主动记忆控制器

MemCtrl: Using MLLMs as Active Memory Controllers on Embodied Agents

Vishnu Sashank Dorbala, Dinesh Manocha

10/10 2026-01-28 cs.AI PDF

基础模型依赖上下文学习进行个性化决策，但受限于上下文窗口大小，需借助如RAG等记忆压缩与检索系统。然而，现有系统常将记忆视为离线大容量存储，不适用于资源受限的在线具身智能体。本文提出MemCtrl，一种利用多模态大语言模型（MLLMs）在线剪枝记忆的新框架。该框架引入可训练的记忆头μ，作为门控机制，在探索过程中动态决定保留、更新或丢弃哪些观察或反思。实验通过离线专家和在线强化学习两种方式训练μ，在EmbodiedBench多个子集上显著提升任务完成能力，平均提升约16%，部分指令子集提升超20%。定性分析表明，μ增强的MLLM在处理长且复杂指令时表现更优。

Agent Memory 多模态大语言模型

论文核心提出MemCtrl框架，直接研究Agent在线记忆控制机制。

BMAM：脑启发的多智能体记忆框架

BMAM: Brain-inspired Multi-Agent Memory Framework

Yang Li, Jiaxiang Liu, Yusong Wang, Yujie Wu, Mingkun Xu

10/10 2026-01-28 cs.CL PDF

基于语言模型的智能体在长期交互中面临时序信息保持与跨会话行为一致性的挑战，作者称之为“灵魂侵蚀”。本文提出BMAM（脑启发的多智能体记忆框架），一种通用记忆架构，将智能体记忆建模为多个功能特化的子系统，而非单一非结构化存储。受认知记忆系统启发，BMAM将记忆分解为情景记忆、语义记忆、显著性感知记忆和控制导向记忆，各子系统在互补的时间尺度上运作。为支持长时程推理，BMAM沿显式时间线组织情景记忆，并通过融合多种互补信号进行检索。在LoCoMo基准上的实验表明，BMAM在标准长时程评估设置下达到78.45%的准确率，消融分析证实受海马体启发的情景记忆子系统对时序推理至关重要。

情景记忆多智能体系统

论文核心提出脑启发的多智能体记忆架构BMAM，明确聚焦Agent Memory机制。

MemWeaver：编织混合记忆以实现可追溯的长期代理推理

MemWeaver: Weaving Hybrid Memories for Traceable Long-Horizon Agentic Reasoning

Juexiang Ye, Xue Li, Xinyu Yang, Chengkai Huang, Lanshun Nie et al.

10/10 2026-01-26 cs.CL PDF

基于大型语言模型的代理在长期交互中需要支持时间一致性、多跳推理和跨会话证据重用的记忆系统。现有方法主要依赖非结构化检索或粗略抽象，常导致时间冲突、脆弱推理和有限的可追溯性。本文提出MemWeaver，一种统一的记忆框架，将长期代理经验整合为三个相互关联的组件：一个基于时间的图记忆用于结构化关系推理，一个经验记忆用于从重复观察中抽象出重复的交互模式，以及一个保留原始文本证据的段落记忆。MemWeaver采用双通道检索策略，联合检索结构化知识和支持证据，构建紧凑而信息密集的推理上下文。在LoCoMo基准上的实验表明，MemWeaver显著提高了多跳和时间推理的准确性，同时相比长上下文基线减少了超过95%的输入上下文长度。

Agent Memory Long-Horizon Reasoning Hybrid Memory System Multi-Hop Retrieval

论文标题和内容明确聚焦于Agent Memory机制，提出MemWeaver框架以解决长期交互中的记忆问题。

FadeMem：受生物学启发的遗忘机制用于高效代理记忆

FadeMem: Biologically-Inspired Forgetting for Efficient Agent Memory

Lei Wei, Xu Dong, Xiao Peng, Niantao Xie, Bin Wang

10/10 2026-01-26 cs.AI PDF

作为自主代理部署的大语言模型面临关键的记忆限制，缺乏选择性遗忘机制，导致上下文边界处出现灾难性遗忘或内部信息过载。尽管人类记忆通过自适应衰减过程自然平衡保留与遗忘，当前AI系统采用二元保留策略，要么完全保留信息，要么彻底丢失。本文提出FadeMem，一种受生物学启发的代理记忆架构，引入主动遗忘机制以模拟人类认知效率。FadeMem在双层记忆层次结构中实现差异化的衰减率，保留由语义相关性、访问频率和时间模式调节的自适应指数衰减函数控制。通过LLM引导的冲突解决和智能记忆融合，系统整合相关信息并允许无关细节逐渐消失。在Multi-Session Chat、LoCoMo和LTI-Bench上的实验表明，FadeMem在多跳推理和检索方面表现优异，存储量减少45%，验证了生物学启发式遗忘在代理记忆系统中的有效性。

Agent Memory Biologically-Inspired Forgetting Memory Hierarchy Semantic Relevance Exponential Decay

论文直接聚焦于Agent Memory机制，提出FadeMem架构并验证其有效性，是核心研究。

基于上下文意图的智能体记忆锚定

Grounding Agent Memory in Contextual Intent

Ruozhen Yang, Yucheng Jiang, Yueqi Jiang, Priyanka Kargupta, Yunyi Zhang et al.

10/10 2026-01-15 cs.CL PDF

在长周期、目标导向的交互中部署大语言模型仍具挑战，因相同实体和事实在不同潜在目标与约束下反复出现，导致记忆系统检索到上下文不匹配的证据。本文提出STITCH（上下文历史中的结构化意图追踪），一种智能体记忆系统，通过结构化检索线索——上下文意图（包括当前潜在目标、动作类型和关键实体类型）对轨迹每一步进行索引，并依据当前步骤意图匹配历史记忆。推理时，STITCH按意图兼容性筛选并优先排序记忆片段，抑制语义相似但上下文不兼容的历史信息。在新构建的CAME-Bench及LongMemEval基准上，STITCH取得SOTA性能，较最强基线提升35.6%，且随轨迹长度增加优势更显著。

Agent Memory 上下文意图记忆检索长周期推理

论文核心提出新型Agent Memory系统STITCH，聚焦记忆检索与上下文意图对齐。

面向长周期LLM智能体的连续记忆架构

Continuum Memory Architectures for Long-Horizon LLM Agents

Joe Logan

10/10 2026-01-14 cs.AI PDF

检索增强生成（RAG）已成为为大语言模型（LLM）智能体提供上下文知识的默认策略，但其将记忆视为无状态的查找表：信息无限期保留、检索为只读且缺乏时间连续性。本文提出“连续记忆架构”（CMA），一类通过持久存储、选择性保留、关联路由、时间链式连接及向高阶抽象整合来维护并更新交互间内部状态的系统。作者未披露具体实现，而是阐明CMA的架构要求，并在知识更新、时间关联、关联回忆与上下文消歧等任务中验证其相较于RAG在累积、变异与消歧记忆方面的结构性优势，证明CMA是长周期智能体的必要架构原语，同时指出延迟、漂移与可解释性等开放挑战。

Agent Memory Long-Horizon Agents

论文提出连续记忆架构CMA，核心聚焦LLM Agent记忆机制设计。

A³-Bench：通过锚点与吸引子激活对记忆驱动的科学推理进行基准测试

$A^3$-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation

Jian Zhang, Yu He, Zhiyuan Wang, Zhangqi Wang, Kai He et al.

10/10 2026-01-14 cs.AI PDF

科学推理不仅依赖逻辑推断，还需激活先验知识与经验结构。记忆可高效复用知识，提升推理的一致性与稳定性。然而，现有基准主要评估最终答案或逐步连贯性，忽视了人类推理中基于锚点（anchor）与吸引子（attractor）激活并整合至多步推理的记忆驱动机制。为此，本文提出A³-Bench基准，通过双尺度记忆驱动激活评估科学推理能力。首先，采用SAPM流程（主题、锚点与吸引子、问题、记忆发展）标注2,198个跨领域科学推理问题；其次，构建基于锚点与吸引子的双尺度记忆评估框架，并引入AAUI（锚点-吸引子利用率指数）度量记忆激活率；最后，通过多种基础模型与范式的实验验证该基准，并分析记忆激活对推理性能的影响，为记忆驱动的科学推理提供新见解。

Agent Memory Scientific Reasoning

论文聚焦记忆驱动的科学推理机制，明确构建基于锚点与吸引子的记忆激活评估框架。

Code

人工智能海马体：我们距离人类记忆还有多远？

The AI Hippocampus: How Far are We From Human Memory?

Zixia Jia, Jiaqi Li, Yipeng Kang, Yuxuan Wang, Tong Wu et al.

10/10 2026-01-14 cs.AI PDF

记忆在增强现代大语言模型（LLM）及多模态大语言模型（MLLM）的推理能力、适应性与上下文保真度方面起着基础性作用。随着模型从静态预测器向支持持续学习与个性化推理的交互系统演进，记忆机制已成为其架构与功能发展的核心主题。本文对LLM与MLLM中的记忆研究进行了系统性综述，提出包含隐式、显式与智能体记忆三大范式的统一分类体系。隐式记忆指预训练Transformer参数中嵌入的知识；显式记忆利用外部存储实现可查询的动态知识表示；智能体记忆则支持自主智能体的长期规划与多智能体协作。文章还探讨了多模态场景下的记忆整合，并分析了关键架构进展、基准任务及开放挑战。

Agent Memory Large Language Models

论文系统综述LLM与多模态Agent中的记忆机制，明确聚焦记忆架构。

AtomMem：具有原子记忆操作的可学习动态智能体记忆

AtomMem : Learnable Dynamic Agentic Memory with Atomic Memory Operation

Yupeng Huo, Yaxi Lu, Zhong Zhang, Haotian Chen, Yankai Lin

10/10 2026-01-13 cs.AI PDF

为解决现实世界中的长期任务问题，智能体需要具备记忆能力。然而，现有记忆机制多依赖静态且手工设计的工作流程，限制了性能和泛化能力。本文提出AtomMem，将记忆管理重新定义为动态决策问题，将高层次的记忆过程分解为基本的CRUD（创建、读取、更新、删除）操作，并将其转化为可学习的决策过程。通过结合监督微调与强化学习，AtomMem学习到一种自主且任务对齐的策略，以根据具体任务需求协调记忆行为。实验结果表明，在三个长上下文基准测试中，训练后的AtomMem-8B模型始终优于先前基于静态工作流的记忆方法。进一步分析显示，基于学习的方法使智能体能够发现结构化、任务对齐的记忆管理策略，凸显了其相对于预定义流程的优势。

Agent Memory Dynamic Memory Reinforcement Learning Memory Management

论文核心聚焦于Agent Memory机制，提出可学习的动态记忆框架AtomMem，直接针对记忆管理问题。

SwiftMem: 通过查询感知索引实现快速代理记忆

SwiftMem: Fast Agentic Memory via Query-aware Indexing

Anxin Tian, Yiming Li, Xing Li, Hui-Ling Zhen, Lei Chen et al.

10/10 2026-01-13 cs.CL PDF

代理记忆系统已成为使大型语言模型（LLM）代理维持长期上下文并高效检索相关信息的关键技术。然而，现有记忆框架存在一个根本性限制：无论查询特征如何，它们都会对整个存储层进行穷举检索。这种暴力方法在记忆增长时会造成严重的延迟瓶颈，阻碍实时代理交互。我们提出了SwiftMem，一种基于查询感知的代理记忆系统，通过在时间和语义维度上的专用索引实现亚线性检索。我们的时序索引支持时间敏感检索的对数时间范围查询，而语义DAG-Tag索引则通过分层标签结构将查询映射到相关主题。为了解决增长过程中的记忆碎片化问题，我们引入了嵌入-标签协同巩固机制，根据语义聚类重新组织存储以提高缓存局部性。在LoCoMo和LongMemEval基准测试中的实验表明，SwiftMem相比最先进的基线实现了47倍的搜索速度提升，同时保持了竞争力的准确性，使得增强记忆的LLM代理得以实际部署。

agent memory query-aware indexing semantic clustering LLM agents

论文直接针对Agent Memory系统提出改进方法，核心研究内容为记忆检索机制与索引优化。

超越对话时间：面向个性化LLM代理的时间语义记忆

Beyond Dialogue Time: Temporal Semantic Memory for Personalized LLM Agents

Miao Su, Yucan Guo, Zhongni Hou, Long Bai, Zixuan Li et al.

10/10 2026-01-12 cs.AI PDF

记忆使大型语言模型（LLM）代理能够感知、存储并使用过去对话中的信息，这对于个性化至关重要。然而，现有方法在两个方面未能正确建模记忆的时间维度：1）时间不准确：记忆按对话时间而非实际发生时间组织；2）时间碎片化：现有方法关注点状记忆，丢失了捕捉持久状态和演变模式的持续信息。为解决这些限制，我们提出了时间语义记忆（TSM），一种建模点状记忆语义时间并支持构建和利用持续记忆的记忆框架。在记忆构建过程中，它首先建立语义时间线而非对话时间线，然后将时间连续且语义相关的信息整合为持续记忆。在记忆利用过程中，它结合查询在语义时间线上的时间意图，从而检索出时间合适、持续一致的记忆，并提供时间有效、持续一致的上下文以支持响应生成。在LongMemEval和LoCoMo上的实验表明，TSM始终优于现有方法，在准确性上实现了高达12.2%的绝对提升，证明了所提方法的有效性。

Agent Memory Temporal Modeling Semantic Memory LLM Personalization

论文直接聚焦于LLM Agent的Memory机制，提出新的时间语义记忆框架，核心研究内容为Agent Memory。

记忆更为关键：以事件为中心的记忆作为智能体搜索与推理的逻辑图谱

Memory Matters More: Event-Centric Memory as a Logic Map for Agent Searching and Reasoning

Yuyang Hu, Jiongnan Liu, Jiejun Tan, Yutao Zhu, Zhicheng Dou

Jiongnan Liu (GSAI, Renmin University of China) | Jiejun Tan (Renmin University of China)

10/10 2026-01-08 cs.AI PDF

大语言模型（LLMs）正越来越多地被部署为能在环境中推理、规划和交互的智能体。为有效应对长周期任务，此类智能体亟需一种能保留、组织并检索过往经验以支持下游决策的记忆机制。然而，现有方法多以扁平方式组织记忆，并依赖简单的相似性检索；即便引入结构化记忆，也难以显式捕捉经验单元间的逻辑关系，且记忆访问仍脱离结构、依赖浅层语义检索，阻碍了长程逻辑推理。本文提出受事件分割理论启发的事件中心记忆框架CompassMem，通过将经验增量划分为事件并以显式逻辑关系连接，构建事件图作为逻辑图谱，使智能体能超越表层检索，进行结构化、目标导向的记忆导航，逐步聚合关键记忆以支持长程推理。在LoCoMo和NarrativeQA上的实验表明，CompassMem在多种主干模型上均显著提升检索与推理性能。

事件中心记忆逻辑图谱

论文核心提出事件中心的记忆框架CompassMem，直接聚焦Agent Memory机制。

超越静态摘要：面向大语言模型智能体的主动记忆提取

Beyond Static Summarization: Proactive Memory Extraction for LLM Agents

Chengyuan Yang, Zequn Sun, Wei Wei, Wei Hu

10/10 2026-01-08 cs.CL PDF

记忆管理对大语言模型（LLM）智能体实现长期交互与个性化至关重要。现有研究多关注记忆摘要的组织与使用，却忽视了初始记忆提取阶段。本文基于递归加工理论指出，当前基于摘要的方法存在两大局限：一是摘要为“提前进行”的盲目前馈过程，因无法预知未来任务而遗漏关键细节；二是提取通常为“一次性”操作，缺乏事实验证的反馈机制，导致信息损失累积。为此，我们提出主动记忆提取方法（ProMem），将提取视为迭代认知过程，通过自问自答机制构建递归反馈回路，主动探查对话历史以恢复缺失信息并修正错误。实验表明，ProMem显著提升了记忆提取的完整性与问答准确率，并在提取质量与token开销之间实现了更优权衡。

LLM Agent Memory Extraction

论文聚焦LLM Agent记忆提取机制，提出ProMem框架，属核心记忆研究。

由内而外：面向长期个性化对话系统的用户中心化核心记忆树演化方法

Inside Out: Evolving User-Centric Core Memory Trees for Long-Term Personalized Dialogue Systems

Jihao Zhao, Ding Chen, Zhaoxin Fan, Kerun Xu, Mengting Hu et al.

10/10 2026-01-08 cs.CL PDF

现有长期个性化对话系统难以在无限交互流与有限上下文约束之间取得平衡，常导致记忆噪声累积、推理能力退化及角色不一致。本文提出Inside Out框架，利用全局维护的PersonaTree作为长期用户画像载体：通过初始模式约束主干，并动态更新分支与叶节点，实现可控增长，在压缩记忆的同时保持一致性。此外，通过基于过程奖励的强化学习训练轻量级MemListener模型，生成结构化、可执行且可解释的{ADD, UPDATE, DELETE, NO_OP}操作，支持个性化记忆树的动态演化。响应生成时，PersonaTree可直接用于低延迟场景；当需更多细节时，则触发智能体模式按需引入受控细节。实验表明，PersonaTree在抑制上下文噪声和维持角色一致性方面优于全文拼接及其他个性化记忆系统，且小型MemListener在记忆操作决策上性能媲美甚至超越DeepSeek-R1-0528和Gemini-3-Pro等强大推理模型。

核心记忆架构个性化对话系统

论文提出PersonaTree核心记忆架构，直接解决Agent长期记忆建模问题。

可控记忆使用：在长期人机交互中平衡锚定与创新

Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction

Muzhao Tian, Zisu Huang, Xiaohua Wang, Jingwen Xu, Zhengkang Guo et al.

10/10 2026-01-08 cs.AI PDF

随着基于大语言模型的智能体越来越多地应用于长期交互场景，累积记忆对于实现个性化和保持风格一致性至关重要。然而，现有系统多采用“全有或全无”的记忆使用方式：纳入所有相关历史信息易导致“记忆锚定”，使智能体受困于过往交互；而完全排除记忆则造成重要交互历史的丢失。本文提出可建模并由用户显式控制的记忆依赖维度，首先引入衡量记忆依赖程度的行为指标，进而提出可调控记忆智能体（SteeM）框架，允许用户动态调节记忆依赖程度，从鼓励创新的“全新开始”模式到高度忠实于交互历史的“高保真”模式。多场景实验表明，该方法显著优于传统提示和固定记忆屏蔽策略，为个性化人机协作提供了更精细有效的控制手段。

可控记忆记忆锚定长期交互个性化智能体

论文聚焦于LLM Agent中记忆使用的可控性，提出核心记忆调控机制。

Membox：将话题连续性融入大语言模型智能体的长程记忆

Membox: Weaving Topic Continuity into Long-Range Memory for LLM Agents

Dehao Tao, Guoliang Ma, Yongfeng Huang, Minghu Jiang

10/10 2026-01-07 cs.CL PDF

人机对话常表现出话题连续性——即在时间相邻的交互中演化的稳定主题框架，但现有大语言模型（LLM）智能体记忆系统难以保留这一特性。当前方法多采用“碎片化-补偿”范式：先将对话流拆分为孤立语句存储，再通过嵌入检索恢复连贯性，此过程不可逆地破坏叙事与因果流，并偏向词汇相似性。本文提出Membox，一种以“话题织机”（Topic Loom）为核心的分层记忆架构，通过滑动窗口持续监测对话，将连续同主题轮次在存储时聚合成连贯的“记忆盒”；随后由“轨迹编织器”（Trace Weaver）将封存的记忆盒链接为长程事件时间线，恢复跨间断的宏观话题重现。在LoCoMo数据集上的实验表明，Membox在时序推理任务中F1最高提升68%，优于Mem0、A-MEM等基线，且仅使用现有方法一小部分上下文token，显著兼顾效率与效果。

LLM Agent Memory 话题连续性

论文提出Membox架构，核心解决LLM Agent中话题连续性的长期记忆建模问题。

Mem-Gallery：面向MLLM智能体的多模态长期对话记忆评测基准

Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents

Yuanchen Bei, Tianxin Wei, Xuying Ning, Yanjun Zhao, Zhining Liu et al.

10/10 2026-01-07 cs.CL PDF

长期记忆是多模态大语言模型（MLLM）智能体的关键能力，尤其在信息随时间累积和演化的对话场景中。然而，现有评测基准要么仅评估纯文本多轮对话中的记忆能力，要么在局部上下文中考察多模态理解，无法有效衡量多模态记忆在长期对话轨迹中的保存、组织与演化。为此，本文提出Mem-Gallery——一个用于评估MLLM智能体多模态长期对话记忆的新基准。该基准包含基于视觉与文本信息的高质量多轮对话，具有长交互周期和丰富的多模态依赖关系。在此基础上，作者构建了一个系统性评估框架，从记忆提取与测试时适应、记忆推理、记忆知识管理三个功能维度评估关键记忆能力。对十三种记忆系统的广泛评测揭示了当前模型在显式多模态信息保留与组织方面的必要性、记忆推理与知识管理的持续局限，以及效率瓶颈。

多模态记忆长期对话记忆

论文聚焦多模态大语言模型智能体的长期对话记忆机制，提出专门评测基准。

SYNAPSE：通过扩散激活机制赋予大语言模型智能体情景-语义记忆能力

SYNAPSE: Empowering LLM Agents with Episodic-Semantic Memory via Spreading Activation

Hanqi Jiang, Junhao Chen, Yi Pan, Ling Chen, Weihang You et al.

10/10 2026-01-06 cs.CL PDF

尽管大语言模型（LLMs）在通用推理方面表现出色，但现有检索增强方法难以应对智能体长期记忆的碎片化问题。为此，本文提出Synapse（协同联想处理语义编码），一种超越静态向量相似性的统一记忆架构。受认知科学启发，Synapse将记忆建模为动态图结构，其相关性通过扩散激活机制而非预计算链接生成。系统结合侧向抑制与时间衰减机制，动态突出相关子图并抑制干扰信息。我们设计了一种三重混合检索策略，融合几何嵌入与基于激活的图遍历。在LoCoMo基准上的综合评估表明，Synapse在复杂时序与多跳推理任务中显著优于当前最先进方法，有效缓解“上下文隧道”问题。代码与数据将在论文录用后公开。

情景-语义记忆扩散激活

论文提出基于认知科学的动态图记忆架构，核心解决Agent长期记忆问题。

MAGMA：一种基于多图的智能体记忆架构

MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents

Dongming Jiang, Yi Li, Guanpeng Li, Bingzhe Li

10/10 2026-01-06 cs.AI PDF

记忆增强生成（MAG）通过外部记忆扩展大语言模型以支持长上下文推理，但现有方法主要依赖单一记忆库中的语义相似性，将时间、因果和实体信息混杂在一起，限制了可解释性及查询意图与检索证据的一致性，导致推理准确性不足。本文提出MAGMA——一种多图智能体记忆架构，将每个记忆项在正交的语义、时间、因果和实体图中分别表示，并将检索建模为在这些关系视图上的策略引导遍历，实现查询自适应的记忆选择与结构化上下文构建。通过解耦记忆表示与检索逻辑，MAGMA提供透明的推理路径和细粒度的检索控制。在LoCoMo和LongMemEval上的实验表明，MAGMA在长周期推理任务中持续优于当前最先进的智能体记忆系统。

Agent Memory Memory Architecture

论文提出多图结构的Agent记忆架构，核心聚焦记忆表示与检索机制。

MemRL：通过情景记忆上的运行时强化学习实现自进化智能体

MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory

Shengtao Zhang, Jiaqian Wang, Ruiwen Zhou, Junwei Liao, Yuchen Feng et al.

Ruiwen Zhou (National University of Singapore)

10/10 2026-01-06 cs.CL PDF

人类智能的核心在于通过建构性情景模拟——调用过往经验以合成新任务的解决方案——掌握新技能。尽管大语言模型具备强大推理能力，却难以实现此类自进化：微调计算成本高且易灾难性遗忘，现有基于记忆的方法依赖被动语义匹配，常检索到噪声信息。为此，本文提出MemRL框架，使智能体能在情景记忆上进行非参数化强化学习以实现自进化。MemRL明确分离冻结LLM的稳定推理能力与可塑、演化的记忆模块，并采用两阶段检索机制：先按语义相关性筛选候选记忆，再基于学习到的Q值（效用）进行选择。这些效用值通过环境反馈以试错方式持续优化，使智能体能从相似噪声中识别高价值策略。在HLE、BigCodeBench、ALFWorld和Lifelong Agent Bench上的实验表明，MemRL显著优于当前最先进基线。分析实验证实其有效调和了稳定性-可塑性困境，实现无需权重更新的持续运行时改进。

情景记忆强化学习

论文核心提出基于情景记忆的强化学习框架MemRL，直接聚焦Agent Memory机制。

SimpleMem：面向大语言模型智能体的高效终身记忆系统

SimpleMem: Efficient Lifelong Memory for LLM Agents

Jiaqi Liu, Yaofeng Su, Peng Xia, Siwei Han, Zeyu Zheng et al.

Peng Xia (UNC-Chapel Hill)

10/10 2026-01-05 cs.AI PDF

为支持大语言模型（LLM）智能体在复杂环境中进行可靠的长期交互，需构建能高效管理历史经验的记忆系统。现有方法或通过被动扩展上下文保留完整交互历史，导致严重冗余；或依赖迭代推理过滤噪声，带来高昂的token开销。为此，本文提出SimpleMem——一种基于语义无损压缩的高效记忆框架，包含三个阶段：(1) 语义结构化压缩，利用熵感知过滤将非结构化交互提炼为紧凑、多视角索引的记忆单元；(2) 递归记忆整合，异步地将相关单元融合为更高层抽象表示以减少冗余；(3) 自适应查询感知检索，根据查询复杂度动态调整检索范围，高效构建精准上下文。实验表明，该方法在准确率、检索效率和推理成本方面均显著优于基线，F1平均提升26.4%，推理token消耗最多降低30倍。

LLM Agent Memory System

论文聚焦LLM Agent的终身记忆机制，提出高效记忆系统SimpleMem。

Code

智能体记忆：面向大语言模型智能体的统一长短期记忆管理学习框架

Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents

Yi Yu, Liuyi Yao, Yuexiang Xie, Qingquan Tan, Jiaqi Feng et al.

10/10 2026-01-05 cs.CL PDF

大语言模型（LLM）智能体因上下文窗口有限，在长时程推理中面临根本性限制，高效记忆管理至关重要。现有方法通常将长期记忆（LTM）与短期记忆（STM）作为独立组件处理，依赖启发式规则或辅助控制器，限制了适应性与端到端优化。本文提出Agentic Memory（AgeMem），一种将LTM与STM管理直接融入智能体策略的统一框架。AgeMem将记忆操作建模为基于工具的动作，使LLM智能体能自主决定何时及如何存储、检索、更新、摘要或丢弃信息。为训练此类统一行为，作者设计了三阶段渐进式强化学习策略，并提出逐步GRPO算法以应对记忆操作带来的稀疏与不连续奖励。在五个长时程基准上的实验表明，AgeMem在多种LLM主干上均显著优于强基线，提升了任务性能、长期记忆质量及上下文使用效率。

LLM Agent Memory Management

论文标题与内容均聚焦于LLM Agent的统一长短期记忆管理机制。

EverMemOS：面向结构化长程推理的自组织记忆操作系统

EverMemOS: A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning

Chuanrui Hu, Xingze Gao, Zuyi Zhou, Dannong Xu, Yi Bai et al.

10/10 2026-01-05 cs.AI PDF

大型语言模型（LLMs）日益被部署为长期交互式智能体，但其有限的上下文窗口难以维持长时间交互中的一致行为。现有记忆系统通常存储孤立记录并检索片段，难以整合动态演化的用户状态与解决冲突。本文提出EverMemOS——一种受记忆印迹（engram）启发的自组织记忆操作系统。其包含三个核心阶段：情景痕迹形成将对话流转化为包含情景痕迹、原子事实和时限性前瞻信号的MemCells；语义巩固将MemCells组织为主题性MemScenes，提炼稳定语义结构并更新用户画像；重构式回忆基于MemScene引导智能体检索，组合下游推理所需的充分必要上下文。在LoCoMo和LongMemEval上的实验表明，EverMemOS在记忆增强推理任务中达到最先进性能，并通过PersonaMem v2画像研究与案例分析展示了其在用户建模与前瞻能力方面的优势。

Agent Memory Memory Operating System

论文提出专用于LLM Agent的自组织记忆操作系统，核心聚焦记忆机制。

Code

基于超图记忆的多步RAG改进方法用于长上下文复杂关系建模

Improving Multi-step RAG with Hypergraph-based Memory for Long-Context Complex Relational Modeling

Chulun Zhou, Chunkang Zhang, Guoxin Yu, Fandong Meng, Jie Zhou et al.

10/10 2025-12-30 cs.CL PDF

多步检索增强生成（RAG）广泛用于提升大语言模型在需全局理解与深度推理任务中的表现。现有RAG系统虽引入工作记忆模块整合检索信息，但其记忆设计多为被动存储，仅累积孤立事实，忽视高阶关联，导致推理碎片化与全局理解能力弱。本文提出HGMem——一种基于超图的记忆机制，将记忆从静态存储拓展为支持复杂推理的动态表达结构。该机制以超图表示记忆，超边对应记忆单元，逐步构建高阶交互，围绕核心问题融合事实与思考，形成情境化知识结构，为后续推理提供强命题支持。在多个全局理解基准上的实验表明，HGMem显著优于强基线系统。

超图记忆多步RAG

论文核心提出基于超图的Agent记忆机制HGMem，直接聚焦记忆结构创新。

Memento 2：基于状态化反思记忆的学习

Memento 2: Learning by Stateful Reflective Memory

Jun Wang

10/10 2025-12-27 cs.AI PDF

本文研究基于大语言模型（LLM）的智能体如何通过将情景记忆与强化学习相结合实现持续学习。聚焦于“反思”能力——即智能体重访过往经验并调整未来行动选择——作为无需微调模型权重即可持续适应的核心机制。为此，作者提出状态化反思决策过程（SRDP），其中智能体维护并更新情景记忆，并在写入新经验与读取相关案例以指导决策之间交替。该框架将反思记忆动态纳入决策过程本身，使其可被控制与分析。基于此，作者开发了读写反思学习算法，将其记忆检索机制融入软策略迭代过程，并证明其收敛性；同时表明随着记忆增长并更密集覆盖任务环境，所得策略趋近最优。该工作统一了基于记忆的推理与强化学习，为具备持续、经验驱动学习能力的LLM智能体提供了形式化基础。

反思记忆情景记忆

论文核心研究反思性记忆机制及其在LLM智能体中的形式化与学习算法。

超越启发式：一种面向智能体记忆管理的决策理论框架

Beyond Heuristics: A Decision-Theoretic Framework for Agent Memory Management

Changzhi Sun, Xiangyu Chen, Jixiang Luo, Dell Zhang, Xuelong Li

10/10 2025-12-25 cs.CL PDF

外部记忆是现代大语言模型（LLM）系统的关键组件，支持长期交互与个性化。然而，当前记忆管理仍主要依赖人工设计的启发式规则，难以评估记忆决策在长期和不确定性下的影响。本文主张将记忆管理视为一个不确定性下的序贯决策问题，其中记忆效用具有延迟性且依赖于未来交互。为此，作者提出DAM（决策理论智能体记忆）框架，将记忆管理分解为即时信息访问与分层存储维护两部分，并通过价值函数与不确定性估计器评估候选操作，从而基于长期效用与风险制定聚合策略。本文贡献并非新算法，而是一种原则性重构，揭示了启发式方法的局限，并为未来不确定性感知的记忆系统研究奠定基础。

Agent Memory Decision Theory

论文聚焦Agent Memory管理机制，提出决策理论框架，属核心研究。

MemEvolve：智能体记忆系统的元演化

MemEvolve: Meta-Evolution of Agent Memory Systems

Guibin Zhang, Haotian Ren, Chong Zhan, Zhenhong Zhou, Junhao Wang et al.

10/10 2025-12-21 cs.CL PDF

自演化记忆系统正在前所未有地重塑基于大语言模型（LLM）的智能体进化范式。以往工作主要依赖人工设计的记忆架构来存储轨迹、提炼经验并合成可复用工具，使智能体能在环境交互中实时进化。然而，该范式受限于记忆系统本身的静态性：尽管记忆促进智能体层面的演化，其底层架构却无法针对不同任务上下文进行元适应。为此，本文提出MemEvolve——一种元演化框架，联合优化智能体的经验知识与其记忆架构，使其不仅能积累经验，还能持续改进学习方式。为夯实研究基础并推动开放性，我们构建了EvolveLab，一个统一的自演化记忆代码库，将十二种代表性记忆系统抽象为模块化设计空间（编码、存储、检索、管理），提供标准化实现与公平实验平台。在四个具挑战性的智能体基准上的大量实验表明，MemEvolve不仅显著提升性能（如SmolAgent和Flash-Searcher最高提升17.06%），还展现出强大的跨任务与跨LLM泛化能力。

Agent Memory Meta-Evolution

论文核心聚焦于Agent Memory架构的元演化机制，标题与内容均明确围绕记忆系统展开。

CogMem：面向大语言模型持续多轮推理的认知记忆架构

CogMem: A Cognitive Memory Architecture for Sustained Multi-Turn Reasoning in Large Language Models

Yiran Zhang, Jincheng Hu, Mark Dras, Usman Naseem

10/10 2025-12-16 cs.CL PDF

大语言模型（LLMs）在单轮推理中表现优异，但在长时间、多轮交互中常出现准确性与连贯性下降的问题。近期评估基准如TurnBench揭示了反复出现的失败模式，包括推理偏差、任务漂移、幻觉、过度自信和记忆衰减。现有方法通常直接拼接完整对话历史，导致上下文无界增长、计算开销增加及推理效率下降。本文提出CogMem——一种受认知科学启发的记忆增强型LLM架构，通过结构化、持久化的记忆支持持续迭代推理。CogMem包含三层：长期记忆（LTM）用于跨会话推理策略整合；直接访问（DA）记忆维护会话级笔记并检索相关长期记忆；注意力焦点（FoA）机制在每轮动态重构简洁、任务相关的上下文。在TurnBench上的实验表明，该分层设计有效缓解推理失败、控制上下文膨胀，并提升长推理链的一致性，推动LLM实现更可靠、类人的推理能力。

认知记忆多轮推理

论文提出专用于LLM多轮推理的认知记忆架构CogMem，核心聚焦记忆机制设计。

后见之明：构建具备保留、回忆与反思能力的智能体记忆系统

Hindsight is 20/20: Building Agent Memory that Retains, Recalls, and Reflects

Chris Latimer, Nicoló Boschi, Andrew Neeser, Chris Bartholomew, Gaurav Srivastava et al.

10/10 2025-12-14 cs.CL PDF

智能体记忆被视为基于大语言模型应用的重要发展方向，可使智能体积累经验、跨会话适应并超越单次问答。当前记忆系统多将记忆视为外部层，从对话中提取关键片段并存入向量或图数据库，再检索至提示中。然而，这类方法难以区分证据与推断、长期组织信息能力有限，且缺乏对可解释推理的支持。本文提出Hindsight架构，将记忆建模为支持推理的一等结构，划分为事实、经验、实体摘要与信念四个逻辑网络，并支持保留（retain）、回忆（recall）和反思（reflect）三大操作。实验表明，该方法在LongMemEval和LoCoMo等长程记忆基准上显著优于全上下文基线及GPT-4o。

Agent Memory Structured Memory

论文核心聚焦于LLM Agent Memory架构设计与机制创新。

Memoria：面向个性化对话AI的可扩展智能体记忆框架

Memoria: A Scalable Agentic Memory Framework for Personalized Conversational AI

Samarth Sarin, Lovepreet Singh, Bhaskarjit Sarmah, Dhagash Mehta

10/10 2025-12-14 cs.AI PDF

智能体记忆正成为大语言模型（LLM）在长期用户交互中维持连续性、个性化和上下文感知的关键能力，是实现真正交互式与自适应智能体的核心。本文提出Memoria——一种模块化记忆框架，通过持久、可解释且富含上下文的记忆机制增强基于LLM的对话系统。Memoria融合了动态会话级摘要与基于加权知识图谱的用户建模引擎，后者以结构化实体与关系形式增量捕获用户特征、偏好及行为模式。该混合架构在现代LLM的token限制下，兼顾短期对话连贯性与长期个性化。实验表明，Memoria有效弥合了无状态LLM接口与智能体记忆系统之间的鸿沟，为需自适应演进用户体验的工业应用提供了实用方案。

智能体记忆个性化对话系统

论文聚焦于Agent Memory架构设计，标题与内容均以记忆机制为核心。

通过认知记忆架构统一动态工具创建与跨任务经验共享

Unifying Dynamic Tool Creation and Cross-Task Experience Sharing through Cognitive Memory Architecture

Jiarun Liu, Shiyue Xu, Yang Li, Shangkun Liu, Yongli Yu et al.

10/10 2025-12-12 cs.CL PDF

大语言模型智能体在适应新任务时面临工具可用性与经验复用的挑战。现有方法或依赖覆盖有限的预定义工具，或从零构建工具而忽视过往经验，导致探索效率低下与性能欠佳。本文提出SMITH（共享记忆集成工具中心），一种统一的认知架构，通过分层记忆组织无缝整合动态工具创建与跨任务经验共享。SMITH将智能体记忆划分为程序性、语义性和情景性三部分，支持系统化能力扩展并保留成功执行模式。该方法将工具创建形式化为受控沙箱环境中的迭代代码生成，并通过语义相似性匹配的情景记忆检索实现经验共享。此外，作者提出基于智能体集成难度重估的课程学习策略。在GAIA基准上的大量实验表明，SMITH以81.8%的Pass@1准确率显著优于Alita（75.2%）和Memento（70.9%）等前沿基线，为构建能通过工具创建与经验积累持续进化的自适应智能体奠定基础。

认知架构分层记忆

论文提出基于分层记忆架构的认知系统，核心聚焦于Agent Memory机制。

IntentCUA：为计算机使用代理的技能抽象和多代理规划学习意图级表示

IntentCUA: Learning Intent-level Representations for Skill Abstraction and Multi-Agent Planning in Computer-Use Agents

Seoyoung Lee, Seobin Yoon, Seongbeen Lee, Yoojung Chun, Dayoung Park et al.

9/10 2026-02-19 cs.AI PDF

计算机使用代理在噪声感知、多窗口上下文和动态环境状态中执行长期任务。现有方法如基于强化学习的规划器或轨迹检索，往往偏离用户意图并重复解决常规子问题，导致误差累积和效率低下。本文提出IntentCUA，一种多代理计算机使用框架，通过意图对齐的计划记忆稳定长期执行。规划器、计划优化器和批评者通过共享内存协作，将原始交互轨迹抽象为多视角意图表示和可重用技能。运行时，意图原型检索子组对齐的技能并注入部分计划，减少冗余重新规划并缓解桌面应用中的误差传播。端到端评估显示，IntentCUA的任务成功率为74.83%，步骤效率比为0.91，优于基于强化学习和轨迹中心的基线方法。消融实验表明，多视角意图抽象和共享计划记忆共同提升了执行稳定性，合作多代理循环在长期任务中效果最佳。这些结果突显了系统级意图抽象和基于记忆的协调对于大型动态环境中可靠且高效的桌面自动化的重要性。

Agent Memory 多代理系统意图表示桌面自动化

论文核心围绕意图对齐的计划记忆机制，明确涉及Agent Memory的设计与应用。

MemoryArena: 在相互依赖的多会话智能体任务中评估智能体记忆

MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks

Zexue He, Yu Wang, Churan Zhi, Yuanzhe Hu, Tzu-Ping Chen et al.

9/10 2026-02-18 cs.CL PDF

现有对具有记忆能力的智能体的评估通常单独考察记忆和行动。一类基准通过测试过去对话或文本的回忆来评估记忆，但未能体现记忆如何引导未来决策；另一类则专注于单次会话任务，无需长期记忆。然而，在现实场景中，记忆与行动紧密耦合：智能体在与环境交互过程中获取记忆，并依靠该记忆解决后续任务。为此，我们引入了MemoryArena，一个统一的评估框架，用于在多会话的智能体-环境循环中评估智能体的记忆能力。该基准包含由人工设计的智能体任务，其中子任务相互依赖，智能体必须从早期行动和反馈中提取经验并存储到记忆中，再利用这些记忆指导后续行动以完成整体任务。MemoryArena支持网页导航、偏好约束规划、渐进信息搜索和顺序形式推理等任务的评估，并揭示出当前在长上下文记忆基准（如LoCoMo）上表现接近饱和的智能体，在本研究的智能体设置中表现较差，暴露出当前对具有记忆能力的智能体评估的不足。

Agent Memory Benchmark Multi-Session Tasks Long-Context Learning

论文核心聚焦于Agent Memory的评估，提出MemoryArena基准测试，直接针对多会话任务中的记忆机制。

革新人工智能的长期记忆：高容量与高速存储的新视野

Revolutionizing Long-Term Memory in AI: New Horizons with High-Capacity and High-Speed Storage

Hiroaki Yamanaka, Daisuke Miyashita, Takashi Toi, Asuka Maki, Taiga Ikeda et al.

9/10 2026-02-18 cs.AI PDF

本文以“用记忆提升世界”为使命，探讨了实现人工超级智能（ASI）所必需的“记忆”设计概念。不同于提出新方法，我们重点分析了几种潜在有益但尚未充分探索的替代方案。当前主流范式是“先提取后存储”，即从经验中提取被认为有用的信息并仅保存提取内容，但这种方法存在信息丢失的风险。相比之下，我们强调“先存储后按需提取”的方法，旨在保留原始经验，并根据需要灵活应用于不同任务，从而避免信息损失。此外，我们还提出了两个进一步的方法：从大量概率性经验中发现更深层次的见解，以及通过共享存储的经验来提高经验收集效率。尽管这些方法看似有效，我们的简单实验表明确实如此。最后，我们讨论了限制这些有前景方向研究的主要挑战，并提出了相关研究课题。

长期记忆 AI记忆架构经验存储知识提取人工超级智能

论文核心聚焦于长期记忆机制，提出存储后按需提取等创新方法，明确涉及Agent Memory。

僵尸代理：通过自我强化注入实现自我演进LLM代理的持久控制

Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections

Xianglin Yang, Yufei He, Shuo Ji, Bryan Hooi, Jin Song Dong

9/10 2026-02-17 cs.CR PDF

自我演进的LLM代理通过跨会话更新其内部状态，通常通过写入和重用长期记忆来实现。这种设计虽然提升了长时任务的性能，但也带来了安全隐患：在良性会话中观察到的不可信外部内容可能被存储为记忆，并在后续作为指令使用。本文研究了这一风险，并形式化了一种称为“僵尸代理”的持久性攻击，攻击者通过隐蔽植入有效载荷，使其跨会话存活，从而将代理转化为攻击者的傀儡。我们提出了一种仅需通过攻击者控制的网络内容进行间接暴露的黑盒攻击框架。该攻击分为两个阶段：感染阶段中，代理在完成良性任务时读取受污染的源并将其有效载荷写入长期记忆；触发阶段中，有效载荷被检索或携带并导致未经授权的工具行为。我们为常见的记忆实现（如滑动窗口和检索增强型记忆）设计了特定的持久策略，以抵抗截断和相关性过滤。我们在代表性代理设置和任务上评估了该攻击，测量了随时间推移的持久性以及在保持良性任务质量的同时诱导未经授权行为的能力。结果表明，记忆演化可以将一次性间接注入转化为持久性妥协，这表明仅依赖于每会话提示过滤的防御措施对于自我演进代理是不够的。

Agent Memory Security Attack LLM Long-term Memory Persistent Injection

论文核心研究LLM Agent的长期记忆机制及其安全风险，直接涉及Memory的设计与攻击。

VLM-DEWM：面向可验证和鲁棒视觉语言规划的动态外部世界模型

VLM-DEWM: Dynamic External World Model for Verifiable and Resilient Vision-Language Planning in Manufacturing

Guoqin Tang, Qingxuan Jia, Gang Chen, Tong Li, Zeyuan Huang et al.

9/10 2026-02-17 cs.RO PDF

视觉语言模型（VLM）在智能制造中的高层规划中展现出潜力，但其在动态工作单元中的部署面临两个关键挑战：（1）无状态操作，无法持续跟踪视野外的状态，导致世界状态漂移；（2）推理不透明，故障难以诊断，导致代价高昂的盲目重试。本文提出了VLM-DEWM，一种认知架构，通过可持久化、可查询的动态外部世界模型（DEWM）将VLM推理与世界状态管理解耦。每个VLM决策被结构化为一个可外部化的推理轨迹（ERT），包括动作建议、世界信念和因果假设，并在执行前与DEWM进行验证。当发生故障时，预测状态与观测状态之间的差异分析能够实现针对性恢复，而非全局重新规划。我们在多工位装配、大规模设施探索和真实机器人恢复任务中评估了VLM-DEWM。与基线记忆增强型VLM系统相比，VLM-DEWM将状态跟踪准确率从56%提升至93%，恢复成功率从低于5%提升至95%，并通过结构化记忆显著降低了计算开销。这些结果确立了VLM-DEWM作为动态制造环境中长期机器人操作的可验证且鲁棒的解决方案。

Agent Memory Vision-Language Model Dynamic World Modeling Robotic Planning Manufacturing Automation

论文核心提出动态外部世界模型（DEWM）作为记忆系统，用于解决VLM在制造环境中的状态跟踪与恢复问题。

通过人类启发的记忆建模提升具身探索与问答的多模态大语言模型性能

Improving MLLMs in Embodied Exploration and Question Answering with Human-Inspired Memory Modeling

Ji Li, Jing Xia, Mingyi Li, Shiyan Hu

9/10 2026-02-17 cs.RO PDF

将多模态大语言模型（MLLMs）部署为具身智能体的大脑仍面临挑战，尤其是在长期观察和有限上下文预算的情况下。现有基于记忆的方法通常依赖文本摘要，忽略了丰富的视觉和空间细节，并在非平稳环境中表现脆弱。本文提出了一种非参数化的记忆框架，明确区分情景记忆和语义记忆，用于具身探索和问答任务。该方法首先通过语义相似性检索情景经验，并通过视觉推理验证，从而实现无需严格几何对齐的过去观察的鲁棒重用。同时，我们引入一种程序式规则提取机制，将经验转化为结构化的、可复用的语义记忆，促进跨环境泛化。大量实验表明，在具身问答和探索基准测试中，我们的方法取得了最先进的性能，A-EQA上LLM-Match提升了7.3%，LLM MatchXSPL提升了11.4%，GOAT-Bench上的成功率和SPL分别提高了7.7%和6.8%。分析表明，情景记忆主要提升了探索效率，而语义记忆增强了具身智能体的复杂推理能力。

Agent Memory 具身智能体多模态大语言模型语义记忆情景记忆

论文核心聚焦于Agent Memory机制，提出非参数化记忆框架并区分情景记忆与语义记忆。

Panini：通过结构化记忆实现标记空间中的持续学习

Panini: Continual Learning in Token Space via Structured Memory

Shreyas Rajesh, Pavan Holur, Mehmet Yigit Turali, Chenda Duan, Vwani Roychowdhury

9/10 2026-02-16 cs.AI PDF

语言模型越来越多地用于推理其未训练过的内容，如新文档、演变知识和用户特定数据。一种常见方法是检索增强生成（RAG），它将原文档外部存储为块，并在推理时仅检索相关子集供LLM进行推理。然而，这导致测试时计算效率低下（LLM反复推理相同文档）；此外，块检索可能引入无关上下文，增加不支持的生成。我们提出了一种类人非参数持续学习框架，其中基础模型保持不变，学习通过将每个新经验整合到一个外部语义记忆状态中实现，该状态不断积累并巩固自身。我们提出了Panini，通过将文档表示为生成性语义工作区（GSW）——一个实体和事件感知的问题-答案对网络，足以使LLM重建经历的情境并通过基于推理的推理链挖掘潜在知识。给定查询，Panini仅遍历持续更新的GSW（而非原文档或块），并检索最可能的推理链。在六个QA基准测试中，Panini实现了最高的平均性能，比其他竞争基线高出5%-7%，同时使用更少的答案-上下文标记，支持完全开源流程，并减少了在精选不可回答查询上的不支持答案。结果表明，在写入时高效且准确地构建经验（如GSW框架所实现的）在读取时带来了效率和可靠性的提升。

持续学习语义记忆检索增强生成知识推理 LLM系统

论文核心围绕结构化记忆机制展开，提出基于语义记忆的持续学习框架，直接涉及Agent Memory的核心研究。

Code

AnchorWeave：通过检索局部空间记忆实现世界一致性的视频生成

AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories

Zun Wang, Han Lin, Jaehong Yoon, Jaemin Cho, Yue Zhang et al.

9/10 2026-02-16 cs.CV PDF

在长时域可控相机视频生成中，保持空间世界一致性仍是一个核心挑战。现有基于记忆的方法通常依赖于从历史重建的全局3D场景进行锚定视频渲染，但多视角重建不可避免地引入跨视角对齐误差，导致几何噪声并影响生成质量。本文提出AnchorWeave，一种增强记忆的视频生成框架，用多个干净的局部几何记忆替代单一不一致的全局记忆，并学习协调其跨视角不一致性。该方法通过覆盖驱动的局部记忆检索与目标轨迹对齐，并通过多锚点编织控制器整合所选局部记忆。大量实验表明，AnchorWeave显著提升了长期场景一致性，同时保持了高质量的视觉效果，消融分析进一步验证了局部几何条件、多锚点控制和覆盖驱动检索的有效性。

Agent Memory 视频生成局部记忆 3D重建跨视角对齐

论文核心围绕基于记忆的视频生成框架，提出局部几何记忆机制以解决全局一致性问题。

Code

Neuromem：对LLM外部记忆中流式生命周期的粒度分解

Neuromem: A Granular Decomposition of the Streaming Lifecycle in External Memory for LLMs

Ruicheng Zhang, Xinyi Li, Tianyi Xu, Shuhao Zhang, Xiaofei Liao et al.

9/10 2026-02-15 cs.AI PDF

大多数对外部记忆模块的评估假设静态设置：记忆在离线状态下构建，并在固定状态下查询。实际上，记忆是流式的：新事实持续到达，插入与检索交替进行，记忆状态在模型处理查询时不断演变。在这种情况下，准确性和成本由完整的记忆生命周期决定，包括信息的摄入、维护、检索和生成集成。本文提出了Neuromem，一个可扩展的测试平台，用于在交错插入和检索协议下评估外部记忆模块，并将其生命周期分解为五个维度，包括记忆数据结构、归一化策略、巩固策略、查询公式策略和上下文集成机制。通过LOCOMO、LONGMEMEVAL和MEMORYAGENTBENCH三个代表性数据集，Neuromem在共享服务栈中评估了可互换的变体，报告了词级F1和插入/检索延迟。总体来看，我们发现随着轮次增加，记忆性能通常下降，时间相关查询仍是最具挑战性的类别。记忆数据结构在很大程度上决定了可达到的质量边界，而激进的压缩和生成集成机制主要在插入和检索之间转移成本，但准确性提升有限。

LLM External Memory Memory Lifecycle Insertion-Retrieval Protocol Evaluation Framework

论文聚焦于LLM的外部记忆模块，提出Neuromem系统并分析其生命周期，属于Agent Memory核心研究。

AllMem：一种以记忆为中心的高效长上下文建模方法

AllMem: A Memory-centric Recipe for Efficient Long-context Modeling

Ziming Wang, Xiang Wang, Kailong Peng, Lang Qin, Juan Gabriel Kostelec et al.

9/10 2026-02-14 cs.AI PDF

大型语言模型（LLMs）在长序列任务中面临显著的性能瓶颈，这源于自注意力机制固有的计算复杂性和内存开销。为解决这些问题，我们提出了一种新颖且高效的混合架构AllMem，该架构结合了滑动窗口注意力（SWA）与非线性测试时训练（TTT）记忆网络。AllMem使模型能够有效扩展到超长上下文，同时减轻灾难性遗忘问题。这种方法不仅克服了线性记忆模型的表示限制，还显著减少了长序列推理过程中的计算和内存占用。此外，我们实现了一种内存高效的微调策略，用记忆增强的滑动窗口层替换预训练模型中的标准注意力层。这一框架使得任何现成的预训练LLM都能高效地转换为基于AllMem的架构。实证评估表明，我们的4k窗口模型在37k LongBench上几乎无损失，仅比全注意力模型下降0.83。此外，在128k上下文的InfiniteBench上，我们的8k窗口变体优于全注意力模型，验证了我们参数化记忆在降低噪声并保持鲁棒长距离建模方面的有效性，而无需全局注意力的高昂成本。

长上下文建模记忆增强滑动窗口注意力测试时训练模型微调

论文核心聚焦于基于记忆的长上下文建模架构，明确涉及Memory机制与系统设计。

TRACE：通过智能体上下文演化进行流式电子健康记录的时间推理

TRACE: Temporal Reasoning via Agentic Context Evolution for Streaming Electronic Health Records (EHRs)

Zhan Qu, Michael Färber

9/10 2026-02-13 cs.LG PDF

大型语言模型（LLMs）虽然包含丰富的医学知识，但在处理长期患者轨迹时表现不佳，因为临床状态的演变、时间不规则性和异构事件会随着时间推移降低性能。现有的适应策略依赖于微调或检索增强，这引入了计算开销、隐私限制或长上下文下的不稳定性。本文提出TRACE（Temporal Reasoning via Agentic Context Evolution），一种通过显式结构化和维护上下文而非扩展上下文窗口或更新参数来实现时间临床推理的框架。TRACE采用双记忆架构，包括静态的全局协议（编码机构临床规则）和动态的个体协议（跟踪患者特定状态）。四个智能体组件——路由器、推理器、审计员和管家——在该结构化内存上协调工作，以支持时间推理和状态演化。该框架通过结构化状态压缩和选择性审计关键临床决策来保持有限的推理成本。在MIMIC-IV的纵向临床事件流上评估，TRACE在长期上下文和检索增强基线中显著提高了下一次事件预测准确性、协议遵循度和临床安全性，并生成可解释和可审计的推理轨迹。

Agent Memory 医疗AI 时间推理结构化记忆智能体系统

论文核心提出TRACE框架，基于双记忆架构和代理组件实现动态上下文维护与推理。

VimRAG：通过多模态记忆图在检索增强生成中导航大规模视觉上下文

VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph

Qiuchen Wang, Shihang Wang, Yu Zeng, Qiang Zhang, Fanrui Zhang et al.

9/10 2026-02-13 cs.CV PDF

有效检索、推理和理解多模态信息仍然是智能体系统的关键挑战。传统的检索增强生成（RAG）方法依赖于线性交互历史，难以处理长上下文任务，尤其是在迭代推理场景中涉及信息稀疏但token密集的视觉数据时表现不佳。为弥补这一差距，我们提出VimRAG，一个专门用于跨文本、图像和视频的多模态检索增强推理框架。受系统研究启发，我们将推理过程建模为动态有向无环图，以结构化智能体状态和检索到的多模态证据。基于该结构化记忆，我们引入了图调节的视觉记忆编码机制，通过节点拓扑位置评估记忆重要性，使模型能够动态分配高分辨率token给关键证据，同时压缩或丢弃无关线索。为实现此范式，我们提出了一种图引导的策略优化方法，通过剪枝冗余动作相关的记忆节点，分离步骤级有效性与轨迹级奖励，从而实现细粒度的信用分配。大量实验表明，VimRAG在多种多模态RAG基准测试中始终达到最先进水平。

多模态记忆检索增强生成图神经网络智能体记忆

论文核心围绕多模态记忆图构建与视觉记忆编码机制，直接涉及Agent Memory的创新设计。

Code

Pensieve范式：具备状态的语言模型掌握其自身上下文

The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context

Xiaoyuan Liu, Tian Liang, Dongyang Ma, Deyu Zhou, Haitao Mi et al.

9/10 2026-02-12 cs.AI PDF

在《哈利·波特》的世界中，当邓布利多的思维负担过重时，他会将记忆提取到一个名为Pensieve的装置中以备日后回顾。在人工智能领域，尽管我们拥有成熟的数据库和检索系统，但模型却缺乏操作这些系统的‘魔杖’，只能被动接受人工构建的上下文作为其全部记忆。本文最终将‘魔杖’交还给模型本身。我们引入了一种新的基础模型类——StateLM，该模型配备了内部推理循环以管理自身状态。我们为模型配备了包括上下文剪枝、文档索引和笔记记录等一套记忆工具，并训练其主动管理这些工具。通过学习动态地构建自己的上下文，模型摆脱了固定窗口架构的限制。在不同规模模型上的实验表明，StateLM在各种场景下均表现出色。在长文档问答任务中，StateLM在所有模型规模上均优于标准LLM；在聊天记忆任务中，其准确率绝对提升了10%至20%；在深度研究任务BrowseComp-Plus中，性能差距更加显著：StateLM达到52%的准确率，而标准LLM仅能达到约5%。最终，我们的方法使LLM从被动预测器转变为具有状态感知能力的智能体，推理过程成为一种可管理的状态化流程。

Agent Memory StateLM Context Management Language Model

论文核心聚焦于模型自主管理记忆机制，提出StateLM并引入多种记忆工具。

RAM-Net：具有选择性可寻址记忆的表达性线性注意力

RAM-Net: Expressive Linear Attention with Selectively Addressable Memory

Kaicheng Xiao, Haotian Li, Liran Dong, Guoliang Xing

9/10 2026-02-12 cs.LG PDF

尽管线性注意力架构能够提供高效的推理能力，但将无限历史压缩到固定大小的记忆中会限制其表达能力和导致信息丢失。为了解决这一问题，本文提出了一种名为随机存取记忆网络（RAM-Net）的新架构，旨在弥合全注意力模型的表示能力和线性模型的记忆效率之间的差距。RAM-Net的核心设计是将输入映射到高维稀疏向量作为显式地址，使模型能够选择性地访问大规模记忆状态。该设计在不增加额外参数的情况下实现了状态规模的指数级扩展，显著减少了信号干扰并提高了检索精度。此外，固有的稀疏性确保了卓越的计算效率，因为状态更新仅限于最小条目。大量实验表明，RAM-Net在细粒度长距离检索任务中始终优于最先进的基线模型，并在标准语言建模和零样本常识推理基准测试中表现出竞争力，验证了其在显著降低计算开销的同时捕捉复杂依赖关系的能力。

Agent Memory 线性注意力稀疏表示可寻址记忆高效计算

论文核心聚焦于设计新型记忆架构RAM-Net，直接涉及Agent Memory机制与实现。

场景感知记忆区分：决定哪些个人知识应保留

Scene-Aware Memory Discrimination: Deciding Which Personal Knowledge Stays

Yijie Zhong, Mengying Guo, Zewei Wang, Zhongyang Li, Dandan Tu et al.

9/10 2026-02-12 cs.CL PDF

智能设备已深度融入日常生活，产生了大量用户交互数据，这些数据构成了有价值的个人知识。如何高效地组织这些知识以支持个性化应用至关重要。然而，当前基于大语言模型（LLMs）的记忆写入、管理和读取研究在过滤无关信息和应对计算成本上升方面面临挑战。受人类大脑选择性注意机制的启发，本文引入了记忆区分任务。为应对大规模交互和多样化的记忆标准，我们提出了场景感知记忆区分方法（SAMD），包含两个关键模块：门控单元模块（GUM）和聚类提示模块（CPM）。GUM通过过滤非记忆性交互并聚焦于最相关的显著内容来提升处理效率；CPM则建立自适应记忆标准，指导LLMs判断哪些信息应被记住或丢弃，并分析用户意图与记忆上下文之间的关系以构建有效的聚类提示。全面的直接和间接评估验证了该方法的有效性和泛化能力。独立评估显示，SAMD能够成功召回大部分可记忆数据，并在动态场景中保持鲁棒性。此外，当集成到个性化应用中时，SAMD显著提升了记忆构建的效率和质量，从而更好地组织个人知识。

Agent Memory LLM Memory Management Selective Attention Personalized Applications

论文核心聚焦于Agent Memory的筛选与管理机制，提出SAMD方法，直接针对记忆存储与过滤问题。

TS-Memory: 适用于时间序列基础模型的即插即用记忆模块

TS-Memory: Plug-and-Play Memory for Time Series Foundation Models

Sisuo Lyu, Siru Zhong, Tiegang Chen, Weilin Ruan, Qingxiang Liu et al.

Sisuo Lyu (The Hong Kong University ofScience and Technology (Guangzhou)GuangzhouChina) | Siru Zhong (The Hong Kong University ofScience and Technology (Guangzhou)GuangzhouChina) | Tiegang Chen (TencentShenzhenChina)

9/10 2026-02-12 cs.LG PDF

时间序列基础模型（TSFMs）通过大规模预训练实现了强大的零样本预测能力，但在分布偏移下适应下游领域仍具挑战性。现有解决方案面临权衡：参数化适配会导致灾难性遗忘并需要高昂的多领域维护成本，而非参数化检索虽能提升预测效果，但因数据存储搜索带来高推理延迟。本文提出参数化记忆蒸馏方法，并实现为TS-Memory，一种轻量级的记忆适配器，用于增强冻结的TSFMs。TS-Memory分为两个阶段进行训练：首先构建一个离线且无泄漏的kNN教师模型，从检索到的未来数据中合成置信度感知的分位数目标；其次通过置信度门控监督，将检索诱导的分布校正蒸馏至轻量记忆适配器中。在推理过程中，TS-Memory以常数时间开销融合记忆与主干网络的预测结果，实现无需检索的部署。实验表明，在多种TSFMs和基准测试中，TS-Memory在点预测和概率预测方面均优于代表性适配方法，且效率与冻结主干相当。

时间序列模型记忆模块模型适配知识蒸馏非参数检索

论文标题和内容明确围绕Memory设计，提出TS-Memory作为核心方法，属于Agent Memory机制研究。

预测性联想记忆：通过时间共现实现超越相似性的检索

Predictive Associative Memory: Retrieval Beyond Similarity Through Temporal Co-occurrence

Jason Dury

9/10 2026-02-11 cs.LG PDF

当前神经系统的记忆方法依赖于基于相似性的检索：给定一个查询，找到最表征相似的存储状态。这一假设未能捕捉生物记忆的一个基本特性——通过时间共现进行联想。本文提出了一种名为预测性联想记忆（PAM）的架构，其中一种JEPA风格的预测器通过连续体验流中的时间共现进行训练，从而学习在嵌入空间中导航联想结构。我们引入了一个Inward JEPA，用于处理存储的经验（预测联想可达的过去状态），作为标准Outward JEPA（处理传入感官数据，预测未来状态）的补充。我们将PAM作为联想回忆系统进行评估，测试其对已体验联想的回忆准确性，而非泛化到未见联想的检索系统。在合成基准测试中，预测器的Top检索结果中有97%是真正的时间关联体；在余弦相似度为零的情况下，跨边界召回率达到了0.421；并且能够以0.916的AUC区分共同经历与从未共同经历的状态（余弦相似度为0.789）。即使限制在嵌入相似性无信息的跨房间配对中，预测器仍能取得0.849的AUC（余弦相似度为0.503，随机猜测为0.5）。时间打乱对照实验确认了信号源于真实的时间共现结构，而非嵌入几何：打乱后跨边界召回率下降90%，且结果在不同训练种子下稳定（SD < 0.006）。

Agent Memory Temporal Co-occurrence JEPA Associative Recall Embedding Space Navigation

论文直接提出并研究了Predictive Associative Memory（PAM）架构，核心聚焦于记忆的关联性与时间共现机制。

Code

评估LLM代理中的记忆结构

Evaluating Memory Structure in LLM Agents

Alina Shutova, Alexandra Olenina, Ivan Vinogradov, Anton Sinitsin

9/10 2026-02-11 cs.LG PDF

现代基于LLM的代理和聊天助手依赖长期记忆框架来存储可重用的知识、回忆用户偏好并增强推理能力。随着研究人员构建更复杂的记忆架构，分析其能力和指导未来记忆设计变得愈发困难。目前大多数长期记忆基准主要关注简单事实保留、多跳回忆和时间变化等能力，这些能力通常可以通过简单的检索增强型LLM实现，并未测试复杂记忆层次结构。为弥补这一差距，我们提出了StructMemEval——一个用于测试代理组织其长期记忆能力的基准，而不仅仅是事实性回忆。我们收集了一系列任务，这些任务需要人类通过特定结构组织知识来解决，例如交易账本、待办事项列表、树形结构等。初步实验表明，简单的检索增强型LLM在这些任务中表现不佳，而如果提示如何组织记忆，记忆代理可以可靠地完成这些任务。然而，我们也发现现代LLM在未被提示时并不总是能够识别记忆结构。这突显了未来在LLM训练和记忆框架改进方面的重要方向。

LLM Agent 长期记忆记忆结构基准测试检索增强

论文直接聚焦于LLM Agent的Memory结构评估，提出新的基准测试方法，属于核心Memory研究。

Locomo-Plus：面向LLM代理的超越事实性认知记忆评估框架

Locomo-Plus: Beyond-Factual Cognitive Memory Evaluation Framework for LLM Agents

Yifei Li, Weidong Guo, Lingling Zhang, Rongman Xu, Muye Huang et al.

9/10 2026-02-11 cs.CL PDF

长期对话记忆是基于LLM的对话系统的核心能力，但现有基准和评估协议主要关注表层事实性回忆。在实际交互中，适当回应往往依赖于隐式约束，如用户状态、目标或价值观，这些内容不会被后续显式查询。为此，我们引入了LoCoMo-Plus，一个用于评估在提示与语义断开情况下认知记忆的基准。我们进一步表明，传统的字符串匹配指标和显式任务类型提示与此类场景不一致，并提出了基于约束一致性的统一评估框架。实验结果表明，认知记忆仍然具有挑战性，并揭示了现有基准未能捕捉到的失败情况。我们的代码和评估框架已公开。

LLM Agent Cognitive Memory Evaluation Framework Constraint Consistency

论文明确聚焦于LLM Agent的认知记忆评估，提出新的框架和指标。

Code

UMEM：面向通用记忆的统一记忆提取与管理框架

UMEM: Unified Memory Extraction and Management Framework for Generalizable Memory

Yongshi Ye, Hui Jiang, Feihu Jiang, Tian Lan, Yichao Du et al.

9/10 2026-02-11 cs.CL PDF

自演进记忆作为基于大语言模型（LLMs）的智能体的可训练参数，其提取（从经验中提炼见解）和管理（更新记忆库）必须紧密协调。现有方法主要优化记忆管理，而将记忆提取视为静态过程，导致泛化能力差，智能体积累的是实例特定的噪声而非鲁棒记忆。为解决此问题，本文提出统一记忆提取与管理（UMEM）框架，联合优化大语言模型以同时进行记忆提取与管理。为缓解对具体实例的过拟合，引入语义邻域建模，并通过GRPO优化模型，以邻域级别的边际效用奖励确保记忆的泛化性。在五个基准上的广泛实验表明，UMEM显著优于高度竞争的基线方法，在多轮交互任务中最高提升达10.67%。此外，UMEM在持续演化过程中保持单调增长曲线。代码和模型将公开发布。

Agent Memory Self-evolving Memory Memory Management Semantic Neighborhood Modeling GRPO Optimization

论文标题和内容明确聚焦于Agent Memory的提取与管理机制，提出统一框架解决记忆泛化问题。

何时记忆何时停止：用于长上下文推理的门控循环记忆

When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

Leheng Sheng, Yongtao Zhang, Wenchang Ma, Yaorui Shi, Ting Huang et al.

9/10 2026-02-11 cs.CL PDF

尽管在长上下文中进行推理对许多现实应用至关重要，但随着上下文长度的增长，大型语言模型（LLMs）的性能会下降。近期的工作MemAgent尝试通过类似RNN的循环逐块处理上下文，并更新文本记忆以最终回答问题。然而，这种简单的递归记忆更新面临两个关键缺点：（i）记忆可能迅速膨胀，因为其可以无差别地更新，甚至在没有证据的块上；（ii）循环缺乏退出机制，导致即使收集到足够证据后仍进行不必要的计算。为了解决这些问题，我们提出了GRU-Mem，该方法引入了两个由文本控制的门控机制，以实现更稳定和高效的长上下文推理。具体而言，在GRU-Mem中，只有当更新门开启时才会更新记忆，而一旦退出门开启，循环将立即终止。为了赋予模型这些能力，我们在端到端强化学习中引入了两个奖励信号 $r^{ ext{update}}$ 和 $r^{ ext{exit}}$，分别奖励正确的更新和退出行为。在各种长上下文推理任务上的实验表明，GRU-Mem在效果和效率上均优于原始的MemAgent，推理速度加快高达400%。

Agent Memory Gated Recurrent Network Long-Context Reasoning Reinforcement Learning

论文核心研究基于记忆的门控机制，直接针对Agent Memory中的更新与退出问题。

学习从键值缓存中淘汰

Learning to Evict from Key-Value Cache

Luca Moschella, Laura Manduchi, Ozan Sener

Ozan Sener (Apple)

9/10 2026-02-10 cs.CL PDF

随着大型语言模型（LLMs）规模的增长，高效的推理变得具有挑战性，主要由于自回归键值（KV）缓存的内存需求。现有的淘汰或压缩方法虽然降低了成本，但依赖于启发式方法，如近期性或过去的注意力分数，这些方法仅作为未来令牌效用的间接代理，并引入了计算开销。我们将KV缓存淘汰重新定义为强化学习（RL）问题：通过预测未来解码中令牌的有用性来对令牌进行排序。为此，我们引入了KV策略（KVP），一种轻量级的每头RL代理框架，使用预计算的生成轨迹进行训练，仅使用键和值向量。每个代理学习一个由未来效用引导的专业化淘汰策略，评估所有缓存预算下的排序质量，无需修改底层LLM或额外推理。在长上下文基准RULER和多轮对话基准OASST2-4k上进行评估，KVP显著优于基线。此外，在标准下游任务（如LongBench、BOOLQ、ARC）上的零样本测试表明，KVP在其训练分布之外以及更长的上下文长度上具有良好的泛化能力。这些结果表明，学习预测未来令牌效用是适应性KV缓存管理的强大且可扩展范式。

KV缓存强化学习 LLM推理优化缓存淘汰策略

论文核心研究KV缓存的淘汰策略，属于Agent Memory机制的核心内容。

将元经验内化到记忆中以指导大型语言模型的强化学习

Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models

Shiting Huang, Zecheng Li, Yu Zeng, Qingnan Ren, Zhen Fang et al.

9/10 2026-02-10 cs.LG PDF

可验证奖励的强化学习（RLVR）已被证明是增强大型语言模型（LLMs）推理能力的有效方法。然而，RLVR面临元学习瓶颈：缺乏人类学习循环中除实践和验证之外的错误归因和经验内化机制，从而限制了细粒度信用分配和可重用知识的形成。我们将从过去错误中提取的可重用知识表示称为元经验。基于这一洞察，我们提出了元经验学习（MEL），一种新颖的框架，将自我蒸馏的元经验整合到模型的参数记忆中。在标准RLVR的基础上，我们引入了一种设计，利用LLM的自验证能力对正确与错误轨迹进行对比分析，识别推理错误产生的精确分叉点，并将其总结为可推广的元经验。通过最小化负对数似然，元经验进一步被内化到LLM的参数记忆中，从而产生一种连接正确与错误推理轨迹的语言建模奖励信号，促进有效的知识重用。实验结果表明，MEL在基准测试中实现了持续改进，在不同模型规模下Pass@1指标提升了3.92%至4.73%。

Agent Memory Reinforcement Learning Meta-Experience Large Language Models Self-Distillation

论文核心围绕LLM的Memory机制，提出将元经验内化到模型参数记忆中，属于Agent Memory的核心研究。

TraceMem: 从用户对话轨迹中编织叙事记忆模式

TraceMem: Weaving Narrative Memory Schemata from User Conversational Traces

Yiming Shu, Pei Liu, Tiange Zhang, Ruiyang Gao, Jun Ma et al.

Yiming Shu (The University of Hong KongHong KongChina) | Pei Liu (The Hong Kong University of Science and Technology (Guangzhou)GuangzhouChina) | Tiange Zhang (Nankai UniversityTianjinChina)

9/10 2026-02-10 cs.CL PDF

维持长期交互仍是大型语言模型（LLMs）的瓶颈，因其有限的上下文窗口难以处理随时间扩展的对话历史。现有记忆系统通常将交互视为离散片段，未能捕捉对话流的潜在叙事一致性。我们提出TraceMem，一个受认知启发的框架，通过三阶段流程从用户对话轨迹中编织结构化的叙事记忆模式：(1) 短期记忆处理，采用演绎主题分割方法划分情节边界并提取语义表示；(2) 突触记忆巩固，将情节总结为情景记忆，并将其与语义结合形成用户特定轨迹；(3) 系统记忆巩固，利用两阶段分层聚类将这些轨迹组织成具有统一主题的连贯、随时间演变的叙事线索。这些线索被封装为结构化的用户记忆卡片，形成叙事记忆模式。为实现记忆利用，我们提供了一种智能搜索机制以增强推理过程。在LoCoMo基准上的评估表明，TraceMem在脑启发式架构下实现了最先进的性能。分析显示，通过构建连贯的叙事，其在多跳和时间推理方面超越了基线，凸显了其在深度叙事理解中的关键作用。此外，我们还提供了对记忆系统的开放讨论，并提出了对该领域的观点和未来展望。

Agent Memory Narrative Coherence Dialogue History Management Memory Consolidation

论文核心围绕构建叙事记忆架构，提出TraceMem框架，明确涉及长期对话记忆管理与结构化存储。

Code

STaR：面向长时地平线多模态机器人记忆的可扩展任务条件检索

STaR: Scalable Task-Conditioned Retrieval for Long-Horizon Multimodal Robot Memory

Mingfeng Yuan, Hao Zhang, Mahan Mohammadi, Runhao Li, Jinjun Shan et al.

9/10 2026-02-09 cs.RO PDF

移动机器人通常在长时间跨度内部署于多样化的开放动态场景中，包括室内仓储和制造设施以及室外农业和道路作业环境。其核心挑战是构建一个可扩展的长时记忆系统，以支持代理式工作流进行规划、检索和推理，并针对开放指令生成精确的操作答案。本文提出STaR，一种代理推理框架，（i）构建了一个与任务无关的多模态长期记忆系统，能够泛化到未见过的查询并保留细粒度环境语义（如物体属性、空间关系和动态事件），（ii）引入了一种基于信息瓶颈原理的可扩展任务条件检索算法，从长期记忆中提取出紧凑、非冗余且信息丰富的候选记忆集用于上下文推理。我们在NaVQA（混合室内外校园场景）和WH-VQA（基于Isaac Sim构建的定制化仓库基准）上评估了STaR，强调上下文推理能力。在两个数据集上，STaR始终优于强基线，取得了更高的成功率和显著更低的空间误差。我们进一步在室内和室外环境中将STaR部署在真实的Husky轮式机器人上，展示了其在长时地平线推理、可扩展性和实用价值方面的鲁棒性。

Agent Memory 多模态记忆任务条件检索机器人导航信息瓶颈

论文核心聚焦于构建长期多模态记忆系统及任务条件检索算法，直接涉及Agent Memory机制。

PABU：面向进度感知的信念更新以提高LLM代理效率

PABU: Progress-Aware Belief Update for Efficient LLM Agents

Haitao Jiang, Lin Ge, Hengrui Cai, Rui Song

9/10 2026-02-09 cs.AI PDF

大型语言模型（LLM）代理通常基于完整的动作-观察历史进行决策，这引入了与任务无关的信息，容易导致冗余动作和更高的推理成本。本文提出了一种名为Progress-Aware Belief Update（PABU）的信念状态框架，通过显式建模任务进度并选择性保留过去动作和观察，来紧凑地表示代理的状态。在每一步中，代理预测自上一轮以来的相对进度，并决定是否存储新遇到的交互，仅基于保留的子集进行未来决策。在AgentGym基准中的八个环境中，使用相同的训练轨迹，PABU实现了81.0%的任务完成率，比基于完整历史的最先进（SoTA）模型高出23.9%。此外，PABU的面向进度的动作选择提高了效率，将平均交互步骤数减少到9.5，减少了26.9%。消融研究表明，显式进度预测和选择性保留对于鲁棒的信念学习和性能提升都是必要的。

Agent Memory Belief State Efficient Inference LLM Agents

论文核心提出PABU记忆更新机制，直接针对Agent Memory优化，显著提升效率。

学习在基于注意力的模型中记住、学习和遗忘

Learning to Remember, Learn, and Forget in Attention-Based Models

Djohan Bonnet, Jamie Lohoff, Jan Finkbeiner, Elidona Skhikerujah, Emre Neftci

9/10 2026-02-09 cs.LG PDF

在Transformer中，上下文学习（ICL）作为一种在线关联记忆机制，被认为是其在复杂序列处理任务中表现优异的基础。然而，在门控线性注意力模型中，这种记忆具有固定容量且容易受到干扰，尤其是在处理长序列时。本文提出Palimpsa，一种自注意力模型，将ICL视为一个需要解决稳定性-可塑性困境的持续学习问题。Palimpsa采用贝叶斯元可塑性机制，其中每个注意力状态的可塑性与其重要性状态相关联，而该重要性状态由反映累积知识的先验分布支撑。我们证明了多种门控线性注意力模型可以作为特定的架构选择和后验近似，并指出Mamba2是Palimpsa的一个特例，其中遗忘占主导地位。这一理论联系使得任何非元可塑模型都可以转化为元可塑模型，显著扩展其记忆容量。实验表明，Palimpsa在Multi-Query Associative Recall（MQAR）基准测试和常识推理任务上均优于基线方法。

Agent Memory Attention Mechanism Continual Learning Meta-plasticity

论文核心研究基于注意力机制的模型中记忆机制（ICL）的稳定性与可塑性问题，提出Palimpsa模型以增强记忆能力。

CompilerKV：通过离线经验编译实现风险自适应的KV压缩

CompilerKV: Risk-Adaptive KV Compression via Offline Experience Compilation

Ning Yang, Chengzhi Wang, Yibo Liu, Baoliang Tian, Haijun Zhang

9/10 2026-02-09 cs.LG PDF

在长上下文场景下，大语言模型（LLMs）受到Key-Value（KV）缓存内存线性增长的严重限制。现有KV压缩方法依赖静态阈值和注意力启发式规则，或粗粒度的内存预算分配，在严格内存预算下忽视了两个关键因素：与提示相关的压缩风险变化以及不同注意力头的功能异质性，这导致了标记选择不稳定并引发尾部失败。为解决这些问题，本文提出CompilerKV，一种风险自适应且关注注意力头差异的压缩框架，通过将离线经验编译为可重用的决策表，仅用于预填充部署。CompilerKV整合了两个关键协同组件：(i) 通过离线上下文老虎机学习得到的注意力头异质性表，为每个注意力头分配特定可靠性权重以显式控制功能差异；(ii) 风险自适应阈值门控机制，联合建模注意力熵和局部困惑度，将提示级别的风险转化为可部署的保留阈值。LongBench实验表明，在512-token预算下，CompilerKV优于现有最先进方法，恢复了97.7%的FullKV性能，并比最强竞争者提升了高达5.2分。

KV压缩 Agent Memory 注意力机制风险自适应离线经验编译

论文聚焦KV缓存压缩，直接针对LLM中Memory管理的核心问题，提出风险自适应机制。

无状态却不忘却：隐式记忆作为LLM中的隐藏通道

Stateless Yet Not Forgetful: Implicit Memory as a Hidden Channel in LLMs

Ahmed Salem, Andrew Paverd, Sahar Abdelnabi

9/10 2026-02-09 cs.LG PDF

大型语言模型（LLMs）通常被视为无状态的：一旦交互结束，除非显式存储并重新提供信息，否则不会假设任何信息持续存在。本文挑战这一假设，引入了隐式记忆——模型通过在其输出中编码信息，并在后续将这些输出重新输入时恢复信息，从而在独立交互之间携带状态的能力。该机制无需任何显式记忆模块，却在推理请求之间创建了一个持久的信息通道。作为具体案例，我们引入了一类新的时间后门，称为“定时炸弹”。与仅在单个触发输入上激活的传统后门不同，“定时炸弹”只有在满足通过隐式记忆积累的隐藏条件的一系列交互之后才会激活。我们展示了这种行为可以通过简单的提示或微调诱导实现。除了这一案例研究，我们还分析了隐式记忆更广泛的含义，包括隐蔽的智能体间通信、基准污染、定向操控和训练数据中毒等。最后，我们讨论了检测挑战，并概述了压力测试和评估的方向，旨在预测和控制未来的发展。为促进未来研究，我们在https://github.com/microsoft/implicitMemory发布了代码和数据。

隐式记忆 LLM 后门攻击智能体通信记忆机制

论文核心研究LLM中的隐式记忆机制，属于Agent Memory的核心内容。

Code

通过端到端强化学习在压缩记忆上实现动态长上下文推理

Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

Zhuoen Chen, Dongfang Li, Meishan Zhang, Baotian Hu, Min Zhang

9/10 2026-02-09 cs.CL PDF

大型语言模型（LLMs）在长上下文处理中面临显著挑战，包括二次计算成本、信息遗忘以及检索增强生成（RAG）中的上下文碎片化问题。本文提出了一种基于分块压缩和选择性记忆召回的认知启发框架，以提高长上下文推理效率。该框架将长输入分割为块，并使用学习到的压缩器将其编码为压缩记忆表示。一个门控模块动态选择相关记忆块，然后通过具有演化工作记忆的推理模块进行迭代处理以解决下游任务。压缩器和推理器通过端到端强化学习联合优化，而门控模块则作为分类器单独训练。实验结果表明，该方法在多跳推理基准如RULER-HQA上取得了有竞争力的准确性，可将上下文长度从7K扩展至1.75M个标记，并在准确性和效率之间提供了优于强长上下文基线的权衡。特别是，它实现了峰值GPU内存使用量减少达2倍，推理速度提升达6倍。

Agent Memory 长上下文处理强化学习压缩记忆选择性召回

论文核心围绕压缩记忆与选择性回忆机制，直接涉及Agent Memory的处理与优化。

ManifoldKV：通过欧几里得异常检测实现无训练的KV缓存压缩

ManifoldKV: Training-Free KV Cache Compression via Euclidean Outlier Detection

Debajyoti Datta, Trishala Neeraj, Bibek Paudel, Vyom Sharma, Subhabrata Mukherjee

9/10 2026-02-09 cs.LG PDF

长上下文推理受到KV缓存内存的限制，其大小随序列长度线性增长；因此，KV缓存压缩的关键在于可靠地选择保留哪些过去的token。大多数基于几何的淘汰方法通过计算键与全局质心的余弦相似度来评分，但余弦相似度不考虑尺度变化，可能忽略区分语义重要token的幅度信息。本文提出ManifoldKV，一种无需训练的评分方法，通过计算token到键质心的欧几里得距离进行排序，同时捕捉角度和径向偏差。在RULER基准测试中，ManifoldKV在4K-16K上下文范围内以20%压缩率实现了95.7%的准确率，与最佳几何基线相当，并在余弦评分失效的两种情况下提升了鲁棒性。首先，在多键检索任务中，ManifoldKV减少了方向冲突，以50%压缩率在3键NIAH任务中达到92.4%，优于KeyDiff的77.0%（+15.4分）。其次，为了解决在64K上下文中全局质心稀释和性能崩溃的问题，本文引入了WindowedManifoldKV，使25%压缩率下的准确率达到84.3%，比全局L2方法恢复了49分，比KeyDiff高出3.2分。该方法仅需3行代码，且无需调优即可跨4种架构使用。

KV缓存压缩 Agent Memory 欧几里得距离无训练方法

论文直接针对KV缓存压缩问题，核心研究Agent Memory机制与优化方法。

DeltaKV：基于残差的通过长距离相似性实现的KV缓存压缩

DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity

Jitai Hao, Qiang Huang, Yaowei Wang, Min Zhang, Jun Yu

9/10 2026-02-08 cs.CL PDF

在自主代理、长链推理和创意写作等应用中部署高效的长上下文LLM时，KV缓存内存的线性增长是根本瓶颈。现有的压缩和淘汰方法通常难以平衡准确性、压缩比和硬件效率。我们提出了DeltaKV，一种基于残差的KV缓存压缩框架，其灵感来源于两个经验发现：长距离的标记间相似性和KV表示中的高度共享潜在组件。DeltaKV不丢弃标记，而是相对于检索到的历史参考编码语义残差，在保持保真度的同时显著减少存储。为了将压缩优势转化为实际系统加速，我们进一步引入了Sparse-vLLM，这是一种具有解耦内存管理和针对稀疏和不规则KV布局优化的高性能推理引擎。实验表明，DeltaKV将KV缓存内存减少到原始的29%，同时在LongBench、SCBench和AIME上保持接近无损的准确性。当与Sparse-vLLM集成时，它在长上下文场景中实现了比vLLM高达2倍的吞吐量提升，展示了可扩展长上下文LLM部署的实际路径。

KV缓存压缩长上下文LLM Agent Memory优化推理引擎

论文直接针对KV缓存压缩问题，提出DeltaKV框架，核心聚焦于Agent Memory的优化。

Code

MemFly：基于信息瓶颈原理的即时记忆优化

MemFly: On-the-Fly Memory Optimization via Information Bottleneck

Zhenyuan Zhang, Xianzhang Jia, Zhiqin Yang, Zhenbo Song, Wei Xue et al.

9/10 2026-02-08 cs.AI PDF

长期记忆使大型语言模型代理能够通过历史交互处理复杂任务。然而，现有框架在高效压缩冗余信息与保持下游任务精确检索之间面临根本性困境。为弥合这一差距，我们提出了MemFly，一个基于信息瓶颈原理的框架，支持LLM的即时记忆演化。我们的方法通过无梯度优化器最小化压缩熵并最大化相关性熵，构建分层记忆结构以实现高效存储。为充分利用MemFly，我们开发了一种混合检索机制，无缝整合语义、符号和拓扑路径，并引入迭代优化以处理复杂的多跳查询。全面实验表明，MemFly在记忆一致性、响应保真度和准确性方面显著优于最先进的基线方法。

LLM Agent Memory Optimization Information Bottleneck Hybrid Retrieval

论文标题和内容直接聚焦于LLM的长期记忆优化，提出MemFly框架解决记忆压缩与检索问题，属于Agent Memory核心研究。

M2A：具有双层混合记忆的多模态记忆代理，用于长期个性化交互

M2A: Multimodal Memory Agent with Dual-Layer Hybrid Memory for Long-Term Personalized Interactions

Junyu Feng, Binxiao Xu, Jiayi Chen, Mengyu Dai, Cenyang Wu et al.

9/10 2026-02-07 cs.AI PDF

本文针对长期人机交互中的个性化问答问题，提出了一种名为M2A的代理系统，该系统采用双层混合记忆架构以维持用户的多模态信息。现有模型在处理跨周或跨月的对话历史时存在局限性，无法持续吸收和利用用户增量概念、别名和偏好。M2A通过两个协作代理实现在线更新：ChatAgent管理用户交互并自主决定何时查询或更新记忆，MemoryManager则将ChatAgent的记忆请求分解为对双层记忆库的操作，包括不可变的原始消息存储（RawMessageStore）和高层语义记忆存储（SemanticMemoryStore）。此外，研究还开发了一个可复用的数据合成流程，将基于概念的会话注入到长对话中，同时保持时间一致性。实验表明，M2A显著优于基线方法，证明了从一次性配置转向共演化的记忆机制是实现高质量个性化响应的有效路径。

Agent Memory Multimodal Interaction Long-term Personalization Hybrid Memory System

论文核心围绕Agent Memory机制设计，提出双层混合记忆系统用于长期个性化交互。

Code

MemPot：通过优化诱饵防御记忆提取攻击

MemPot: Defending Against Memory Extraction Attack with Optimized Honeypots

Yuhao Wang, Shengfang Zhai, Guanghao Jin, Yinpeng Dong, Linyi Yang et al.

9/10 2026-02-07 cs.CR PDF

基于大型语言模型（LLM）的智能体使用外部和内部记忆系统来处理复杂的目标导向任务，但这也使其面临严重的记忆提取攻击威胁，目前有效的防御手段仍显不足。本文提出MemPot，这是首个通过向记忆中注入优化后的诱饵（honeypots）来防御记忆提取攻击的理论验证框架。通过两阶段优化过程，MemPot生成能够最大化攻击者检索概率且对良性用户不显眼的陷阱文档。我们将检测过程建模为Wald的序贯概率比检验（SPRT），并从理论上证明MemPot相比最优静态检测器具有更低的平均采样轮数。实验表明，MemPot显著优于现有最先进的基线方法，在检测AUROC指标上提升了50%，在低误报率约束下真阳性率提高了80%。此外，我们的实验还确认了MemPot不会增加在线推理延迟，并保持了智能体在标准任务上的实用性，验证了其在安全性、无害性和效率方面的优越性。

Agent Memory Security Honeypot LLM Defense

论文核心围绕防御记忆提取攻击，直接涉及Agent Memory机制与安全。

学习查询感知的预算层级路由以实现运行时智能体记忆

Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory

Haozhen Zhang, Haodong Yue, Tao Feng, Quanyu Long, Jianzhu Bao et al.

9/10 2026-02-05 cs.CL PDF

随着大型语言模型（LLM）代理在单个上下文窗口之外运行，记忆变得越来越重要。然而，现有系统大多依赖于离线、查询无关的记忆构建方式，这可能效率低下并丢弃关键信息。尽管运行时记忆利用是一种自然替代方案，但以往的工作通常带来较大的开销，并且对性能-成本权衡的控制有限。本文提出了一种名为BudgetMem的运行时智能体记忆框架，用于实现显式的、查询感知的性能-成本控制。BudgetMem将记忆处理结构化为一组具有三个预算层级（低/中/高）的记忆模块，并通过一个轻量级路由器在这些模块之间进行预算层级路由，以平衡任务性能和记忆构建成本。该路由器通过强化学习训练得到一个紧凑的神经策略。使用BudgetMem作为统一的测试平台，我们研究了三种互补的实现预算层级的策略：实现复杂度、推理行为和容量（模块模型大小）。在LoCoMo、LongMemEval和HotpotQA数据集上，BudgetMem在优先考虑性能（即高预算设置）时优于强基线，并在更严格的预算下提供了更好的准确率-成本边界。此外，我们的分析揭示了不同分层策略的优势和劣势，明确了在不同预算制度下哪种轴向能提供最佳的权衡。

LLM Agent Memory Management Reinforcement Learning Budget Control

论文标题和内容直接聚焦于Agent Memory的运行时管理与性能-成本控制，属于核心研究。

Code

学习共享：用于高效并行智能体系统的选择性记忆

Learning to Share: Selective Memory for Efficient Parallel Agentic Systems

Joseph Fioresi, Parth Parag Kulkarni, Ashmal Vayani, Song Wang, Mubarak Shah

9/10 2026-02-05 cs.MA PDF

智能体系统通过协调多个智能体来解决复杂任务，这些智能体迭代推理、调用工具并交换中间结果。为提高鲁棒性和解决方案质量，近期方法部署了多个并行运行的智能体团队以探索多样化的推理路径。然而，并行执行带来了显著的计算成本：当不同团队独立处理相似子问题或执行类似步骤时，会重复进行大量重叠计算。为解决这一问题，本文提出了Learning to Share（LTS），一种用于并行智能体框架的学习共享内存机制，能够在控制上下文增长的同时实现跨团队的信息重用。LTS引入了一个所有团队均可访问的全局内存库和一个轻量级控制器，决定是否将中间智能体步骤添加到内存中。控制器通过基于使用感知的信用分配的逐步强化学习进行训练，使其能够识别在并行执行中具有全局有用性的信息。在AssistantBench和GAIA基准上的实验表明，LTS显著减少了总体运行时间，同时与无内存的并行基线相比匹配或提升了任务性能，证明了学习记忆准入是提高并行智能体系统效率的有效策略。

Agent Memory Parallel Execution Reinforcement Learning Shared Memory Efficient Computation

论文核心提出了一种学习共享的内存机制，直接针对并行智能体系统的记忆管理问题。

Code

MerNav：一种高度通用的记忆-执行-复审框架用于零样本目标导航

MerNav: A Highly Generalizable Memory-Execute-Review Framework for Zero-Shot Object Goal Navigation

Dekang Qi, Shuang Zeng, Xinyuan Chang, Feng Xiong, Shichao Xie et al.

9/10 2026-02-05 cs.CV PDF

视觉语言导航（VLN）是具身智能的基本能力之一，也是亟需解决的关键挑战。然而，现有方法在成功率（SR）和泛化能力方面仍不理想：监督微调（SFT）方法通常具有更高的SR，而训练无关（TF）方法往往泛化能力更强，但难以同时实现两者。为此，我们提出了一种记忆-执行-复审框架。该框架包含三个部分：一个分层记忆模块用于提供信息支持，一个执行模块用于常规决策和行动，以及一个复审模块用于处理异常情况并纠正行为。我们在目标导航任务上验证了该框架的有效性。在4个数据集上，我们的平均SR在TF和零样本（ZS）设置下分别比所有基线方法提高了7%和5%。在最常用的数据集HM3D_v0.1和更具挑战性的开放词汇数据集HM3D_OVON上，在ZS设置下SR分别提升了8%和6%。此外，在MP3D和HM3D_OVON数据集上，我们的方法不仅优于所有TF方法，还超越了所有SFT方法，在SR（5%和2%）和泛化能力方面均取得全面领先。

Agent Memory Visual Navigation Zero-Shot Learning Hierarchical Memory Generalization

论文标题和摘要明确提到Memory模块，且框架核心围绕Memory-Execute-Review展开，是Agent Memory机制的核心研究。

Locas：你的模型是局部支持参数化记忆的原理化初始化器

Locas: Your Models are Principled Initializers of Locally-Supported Parametric Memories

Sidi Lu, Zhenwen Liang, Dongyang Ma, Yan Wang, Haitao Mi et al.

9/10 2026-02-04 cs.CL PDF

本文旨在通过一种新型参数化记忆机制连接测试时训练。我们提出了Locas，一种局部支持的参数化记忆结构，其设计借鉴了现代Transformer中的FFN模块，能够灵活地合并到模型参数中，并支持高效的持续学习。我们讨论了两种主要变体：一种采用传统两层MLP设计，具有更清晰的理论保证；另一种与当前最先进的LLM共享GLU-FFN结构，便于附加到现有模型以实现参数和计算效率高的持续学习。关键在于，我们展示了通过合理初始化此类低秩侧向FFN风格的记忆（利用模型参数、激活值和/或梯度进行原理化初始化）对于快速收敛、提升泛化能力和防止灾难性遗忘至关重要。我们在PG-19全书语言建模和LoCoMo长上下文对话问答任务上验证了该记忆机制。在最低情况下，仅增加0.02%的参数，Locas-GLU即可存储过去上下文信息，同时保持较小的上下文窗口。此外，我们还通过比较MMLU评估测试了模型在使用Locas记忆整本书后的一般能力损失。结果表明，Locas能够将过去的上下文永久化为参数知识，同时最小化对模型原有内部知识的灾难性遗忘。

参数化记忆持续学习 Transformer 灾难性遗忘模型扩展

论文核心研究Locas参数化记忆机制，明确涉及Agent Memory的设计与实现。

Agent-Omit：通过智能体强化学习训练高效LLM代理以实现自适应思维与观察省略

Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning

Yansong Ning, Jun Fang, Naiqiang Tan, Hao Liu

Yansong NING (The Hong Kong University of Science and Technology (Guangzhou))

9/10 2026-02-04 cs.AI PDF

在多轮智能体与环境交互过程中管理智能体的思维和观察是提升其效率的一种新兴策略。然而现有研究通常将整个交互轨迹视为同等重要，忽视了不同回合中思维必要性和观察效用的差异性。为此，我们首先定量分析了思维和观察对智能体效果和效率的影响。基于研究结果，我们提出了Agent-Omit，一种统一的训练框架，使LLM智能体能够自适应地省略冗余的思维和观察。具体而言，我们首先合成少量冷启动数据，包括单轮和多轮省略场景，以微调智能体的省略行为。此外，我们引入了一种基于省略感知的智能体强化学习方法，结合双采样机制和定制化的省略奖励，以激励智能体的自适应省略能力。理论上，我们证明了我们的省略策略的偏差由KL散度上界限定。实验结果表明，在五个智能体基准测试中，我们构建的Agent-Omit-8B模型性能可与七个前沿LLM智能体相媲美，并在效率与效果的权衡上优于七种高效的LLM智能体方法。

LLM Agent Memory Management Reinforcement Learning Efficiency Optimization

论文核心研究LLM Agent在交互过程中对冗余思维和观察的自适应省略，属于Agent Memory机制的核心内容。

Code

Empirical-MCTS：通过双经验蒙特卡洛树搜索实现连续智能体进化

Empirical-MCTS: Continuous Agent Evolution via Dual-Experience Monte Carlo Tree Search

Hao Lu, Haoyuan Huang, Yulin Zhou, Chen Li, Ningxin Zhu

9/10 2026-02-04 cs.AI PDF

推理时的扩展策略，特别是蒙特卡洛树搜索（MCTS），显著增强了大语言模型（LLMs）的推理能力。然而，当前方法主要为无状态，每次问题实例后丢弃成功推理模式，无法模仿人类问题解决中经验积累的特点。为弥补这一差距，我们引入Empirical-MCTS，一种双循环框架，将无状态搜索转化为连续、非参数化的学习过程。该框架通过两种新机制统一局部探索与全局记忆优化：成对经验进化元提示（PE-EMP）和记忆优化智能体。PE-EMP在局部搜索中作为反射优化器，利用成对反馈动态合成自适应标准并实时演化元提示（系统提示）。同时，记忆优化智能体管理一个全局存储库作为动态策略先验，使用原子操作跨问题提炼高质量见解。在复杂推理基准测试（包括AIME25、ARC-AGI-2和MathArena Apex）上的广泛评估表明，Empirical-MCTS显著优于无状态MCTS策略和独立经验驱动的智能体。这些结果强调了结构化搜索与经验积累相结合对于掌握复杂、开放性推理任务的关键必要性。

Agent Memory MCTS Meta-Prompting Continuous Learning Reasoning

论文核心提出Empirical-MCTS框架，明确涉及记忆优化机制与全局经验积累，属于Agent Memory核心研究。

通过显式信息传输实现上下文压缩

Context Compression via Explicit Information Transmission

Jiangnan Ye, Hanqi Yan, Zhenyi Shen, Heng Chang, Ye Mao et al.

9/10 2026-02-03 cs.CL PDF

大型语言模型（LLMs）在长上下文推理中面临高昂的成本，主要由于二次注意力计算和键值缓存的增长，这促使了上下文压缩的研究。本文研究了软上下文压缩方法，其中长上下文被压缩为一组连续表示。现有方法通常将LLM本身重新用作可训练的压缩器，依赖逐层自注意力来迭代聚合信息。我们认为这种范式存在两个结构性限制：(i) 跨层的渐进表示覆盖；(ii) 压缩容量在不同token之间的分配不协调。我们提出了ComprExIT（通过显式信息传输进行上下文压缩），一种轻量级框架，将软压缩转化为新的范式：在冻结的LLM隐藏状态上进行显式信息传输。这将压缩与模型内部的自注意力动态解耦。ComprExIT执行(i) 深度方向传输，选择性地将多层信息传输到token锚点，缓解渐进覆盖；(ii) 宽度方向传输，通过全局优化的传输计划将锚点聚合到少量槽位中，确保信息分配的协调性。在六个问答基准测试中，ComprExIT始终优于最先进的上下文压缩方法，仅引入约1%的额外参数，证明显式且协调的信息传输能够实现更有效和鲁棒的长上下文压缩。

上下文压缩显式信息传输 LLM记忆管理长上下文推理

论文直接针对LLM的上下文压缩问题，提出了一种显式信息传输机制，属于Agent Memory的核心研究。

MeKi：基于存储的专家知识注入以实现高效LLM扩展

MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling

Ning Ding, Fangcheng Liu, Kyungrae Kim, Linji Hao, Kyeng-Hun Lee et al.

9/10 2026-02-03 cs.LG PDF

扩展大型语言模型（LLMs）通常依赖于增加参数数量或测试时计算量以提升性能。然而，这些策略在边缘设备部署时因内存和NPU资源有限而不切实际。为了解决这一问题，本文提出MeKi（基于存储的专家知识注入），一种通过存储空间而非计算量来扩展LLM容量的新系统。MeKi为每个Transformer层配备了基于标记级别的记忆专家，在生成过程中注入预存的语义知识。为了弥合训练容量与推理效率之间的差距，我们采用了一种重新参数化策略，将训练中使用的参数矩阵折叠到一个紧凑的静态查找表中。通过将知识卸载到ROM中，MeKi将模型容量与计算成本解耦，引入零推理延迟开销。大量实验表明，MeKi在相同推理速度下显著优于密集型LLM基线，验证了基于存储的扩展范式对于设备端LLMs的有效性。

LLM Edge Deployment Memory-based Scaling Knowledge Injection Efficient Inference

论文核心提出基于存储的专家知识注入机制，直接涉及Agent Memory的设计与实现。

Code

TAME：一种基于系统化基准测试的可信测试时智能体记忆演化方法

TAME: A Trustworthy Test-Time Evolution of Agent Memory with Systematic Benchmarking

Yu Cheng, Jiuan Zhou, Yongkang Hu, Yihang Chen, Huichi Zhou et al.

9/10 2026-02-03 cs.AI PDF

测试时智能体记忆的演化是实现通用人工智能（AGI）的关键范式，通过经验积累增强复杂推理能力。然而，在良性任务演化过程中，智能体的安全对齐仍存在脆弱性，这一现象被称为智能体记忆误演化。为评估该现象，我们构建了Trust-Memevo基准，用于在良性任务演化过程中评估多维可信性，并揭示了在不同任务领域和评估设置下整体可信性的下降趋势。为解决此问题，我们提出了TAME，一种双记忆演化框架，分别演化执行器记忆以通过提炼可推广的方法来提升任务性能，并演化评估器记忆以基于历史反馈优化安全性和任务效用的评估。通过记忆过滤、草案生成、可信性优化、执行和双轨记忆更新的闭环流程，TAME在不牺牲效用的前提下保持可信性。实验表明，TAME有效缓解了记忆误演化问题，在可信性和任务性能方面均取得联合提升。

Agent Memory Test-Time Evolution Trustworthiness Dual-Memory Framework Benchmarking

论文核心围绕Agent Memory的演化与可信性问题，提出TAME框架直接针对记忆机制。

ForesightKV：通过学习长期贡献优化推理模型的KV缓存淘汰

ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution

Zican Dong, Peiyu Liu, Junyi Li, Zhipeng Chen, Han Peng et al.

9/10 2026-02-03 cs.CL PDF

近年来，大型语言模型（LLMs）通过生成长推理轨迹展现了显著的推理能力。然而，随着序列长度的增长，键值（KV）缓存呈线性扩展，导致显著的内存和计算成本。现有的KV缓存淘汰方法通过丢弃不重要的KV对缓解这一问题，但往往无法捕捉复杂的KV依赖关系，从而导致性能下降。为更好地平衡效率与性能，我们引入了ForesightKV，一种基于训练的KV缓存淘汰框架，能够学习预测在长文本生成过程中应淘汰哪些KV对。我们首先设计了Golden Eviction算法，该算法使用未来注意力分数识别每一步的最优淘汰KV对。然后，通过监督训练和成对排序损失函数对这些轨迹和得分进行蒸馏。此外，我们将缓存淘汰建模为马尔可夫决策过程，并应用GRPO算法以减轻低熵标记上的显著语言建模损失增加。在AIME2024和AIME2025基准测试中，三种推理模型的实验结果表明，ForesightKV在仅一半缓存预算下始终优于先前方法，并且从监督学习和强化学习方法中协同获益。

KV缓存优化 Agent Memory 推理模型缓存淘汰策略强化学习

论文直接针对KV缓存的优化，核心研究Agent Memory机制，标题和内容均明确涉及Memory。

InfMem：学习用于长上下文代理的系统2型记忆控制

InfMem: Learning System-2 Memory Control for Long-Context Agent

Xinyu Wang, Mingze Li, Peng Lu, Xiao-Wen Chang, Lifeng Shang et al.

9/10 2026-02-02 cs.CL PDF

在超长文档上进行推理需要在严格内存限制下合成分散在远距离段落中的稀疏证据。虽然流式代理能够实现可扩展处理，但其被动的记忆更新策略往往无法保留多跳推理所需的低显著性桥梁证据。我们提出了InfMem，一种以控制为中心的代理，通过预思考-检索-写入协议实现系统2型风格的控制。InfMem主动监控证据充分性，执行针对性的文档内检索，并应用基于证据的联合压缩来更新有限内存。为确保可靠的控制，我们引入了一种实用的SFT到RL训练方法，使检索、写入和停止决策与最终任务正确性对齐。在32k到1M token的超长问答基准测试中，InfMem在各种模型主干上始终优于MemAgent。具体而言，InfMem分别在Qwen3-1.7B、Qwen3-4B和Qwen2.5-7B上将平均绝对准确率提高了+10.17、+11.84和+8.23分，同时通过自适应提前停止将推理时间平均减少了3.9倍（最高达5.1倍）。

Agent Memory Long-Context Reasoning Memory Compression Retrieval-Augmented Generation Reinforcement Learning

论文核心聚焦于Agent Memory控制机制，提出InfMem系统以优化长上下文处理中的记忆管理。

ES-MemEval：面向个性化长期情感支持的对话智能体记忆评测基准

ES-MemEval: Benchmarking Conversational Agents on Personalized Long-Term Emotional Support

Tiantian Chen, Jiaqi Lu, Ying Shen, Lin Zhang

Tiantian Chen (Tongji UniversityShanghaiChina) | Jiaqi Lu (Tongji UniversityShanghaiChina) | Ying Shen (Tongji UniversityShanghaiChina)

9/10 2026-02-02 cs.CL PDF

大语言模型（LLMs）在对话智能体中展现出强大潜力，但在如在线情感支持等复杂长期网络服务中，其效果受限于鲁棒的长期记忆能力不足。现有长期对话评测基准主要关注静态、显式事实检索，难以评估用户信息分散、隐含且持续演变的关键场景。为此，本文提出ES-MemEval，一个系统评估长期情感支持中五项核心记忆能力（信息抽取、时序推理、冲突检测、拒答机制和用户建模）的综合基准，涵盖问答、摘要与对话生成任务。同时构建了EvoEmo多会话数据集，捕捉碎片化、隐式用户披露及动态演变的用户状态。实验表明，显式长期记忆对减少幻觉和实现有效个性化至关重要；检索增强（RAG）虽提升事实一致性，但在处理时序动态与用户状态演化方面仍存挑战。

长期记忆情感支持对话系统

聚焦长期记忆能力评估，提出专门基准与数据集。

FreshMem：受大脑启发的频域-空间混合记忆用于流式视频理解

FreshMem: Brain-Inspired Frequency-Space Hybrid Memory for Streaming Video Understanding

Kangcong Li, Peng Ye, Lin Zhang, Chao Wang, Huafeng Qin et al.

9/10 2026-02-02 cs.CV PDF

将多模态大语言模型（MLLMs）从离线处理转向在线流式视频理解对持续感知至关重要。然而，现有方法缺乏灵活适应性，导致细节不可逆丢失与上下文碎片化。为此，本文提出FreshMem——一种受大脑对数感知与记忆巩固机制启发的频域-空间混合记忆网络。FreshMem通过两个协同模块实现短期保真与长期连贯性的统一：多尺度频域记忆（MFM）将溢出帧投影为代表性频率系数，并结合残差细节重建全局历史“概要”；空间缩略图记忆（STM）则通过自适应压缩策略将连续流离散为情节簇，并提炼为高密度空间缩略图。大量实验表明，FreshMem在无需训练的情况下显著提升Qwen2-VL基线，在StreamingBench、OV-Bench和OVO-Bench上分别获得5.20%、4.52%和2.34%的性能增益，优于多个全微调方法。

Agent Memory 流式视频理解

论文提出新型混合记忆架构FreshMem，核心聚焦于流式视频理解中的记忆机制设计。

FS-Researcher：基于文件系统的智能体在长周期研究任务中的测试时扩展方法

FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents

Chiwei Zhu, Benfeng Xu, Mingxuan Du, Shaohan Wang, Xiaorui Wang et al.

Chiwei Zhu (University of Science and Technology of China)

9/10 2026-02-02 cs.CL PDF

深度研究正成为大语言模型（LLM）智能体的典型长周期任务。然而，其长轨迹常超出模型上下文限制，压缩了证据收集与报告撰写的token预算，阻碍了有效的测试时扩展。本文提出FS-Researcher——一种基于文件系统的双智能体框架，通过持久化工作区将深度研究扩展至上下文窗口之外。其中，Context Builder智能体作为“图书管理员”，负责浏览网络、撰写结构化笔记，并将原始资料归档至可远超上下文长度的分层知识库；Report Writer智能体则逐节撰写最终报告，以该知识库为事实来源。文件系统在此充当持久外部记忆与跨智能体、跨会话的共享协调媒介，支持上下文窗口外的迭代优化。在DeepResearch Bench和DeepConsult两个开放式基准上的实验表明，FS-Researcher在不同主干模型上均取得最先进的报告质量。进一步分析证实，最终报告质量与分配给Context Builder的计算资源呈正相关，验证了该文件系统范式下有效的测试时扩展能力。

外部记忆文件系统长周期任务测试时扩展

提出基于文件系统的持久化外部记忆机制，是Agent Memory的核心架构创新。

Code

SpeechLess：基于个性化空间记忆的日常增强现实微语音助手

SpeechLess: Micro-utterance with Personalized Spatial Memory-aware Assistant in Everyday Augmented Reality

Yoonsang Kim, Devshree Jadeja, Divyansh Pradhan, Yalong Yang, Arie Kaufman

9/10 2026-01-31 cs.HC PDF

在公共场所对可穿戴AR助手大声说话可能引发社交尴尬，且每日重复表达相同请求造成不必要的负担。本文提出SpeechLess——一种可穿戴AR助手，引入基于个性化空间记忆的语音意图粒度控制范式，使用户“少说多得”，并在需要复杂表达时支持意图的逐步显式化。SpeechLess将先前交互绑定到多模态个人上下文（包括空间、时间、活动和指代对象）以形成空间记忆，并据此从不完整用户查询中推断缺失的意图维度，从而支持从完整语句到微/零语音交互的动态调整。通过为期一周的预研实验揭示了公共语音使用的不适感、重复语音的挫败感及硬件限制；在此基础上设计并评估了SpeechLess。结果表明，该系统可在多样日常环境中有效提升信息获取效率、降低表达负担，并支持社交可接受性，同时不显著损害可用性感知与意图解析准确率。

空间记忆增强现实

论文核心提出基于个性化空间记忆的意图推断机制，直接构建和利用空间记忆系统。

面向视觉多智能体系统的双潜记忆机制

Dual Latent Memory for Visual Multi-agent System

Xinlei Yu, Chengming Xu, Zhangquan Chen, Bo Yin, Cheng Yang et al.

9/10 2026-01-31 cs.AI PDF

尽管视觉多智能体系统（VMAS）有望通过智能体间协作提升综合能力，但实证研究表明存在反直觉的“扩展壁垒”：增加智能体轮次常导致性能下降并指数级增加token消耗。作者将此归因于以文本为中心通信中的信息瓶颈——将感知与思维轨迹转化为离散自然语言不可避免地造成语义损失。为此，本文提出L²-VMAS，一种模型无关的框架，通过双潜记忆实现智能体协作，并解耦感知与思维过程，动态融合两类潜记忆。此外，引入熵驱动的主动触发机制，以按需记忆访问替代被动信息传输。大量实验表明，该方法有效突破“扩展壁垒”，平均准确率提升2.7–5.4%，同时减少21.3–44.8%的token使用。

多智能体系统潜记忆

论文提出双潜记忆机制，核心解决Agent间记忆传递与信息瓶颈问题。

Code

当智能体“集体误记”时：探索基于大语言模型的多智能体系统中的曼德拉效应

When Agents "Misremember" Collectively: Exploring the Mandela Effect in LLM-based Multi-Agent Systems

Naen Xu, Hengyu An, Shuo Shi, Jinghuai Zhang, Chunyi Zhou et al.

9/10 2026-01-31 cs.CL PDF

近期大语言模型（LLM）的进步显著提升了协作式多智能体系统处理复杂任务的能力。然而，这些系统中智能体对集体认知偏差的易感性仍缺乏深入研究，典型如曼德拉效应——群体因社会影响和内化错误信息而共同错误记忆过往事件。本文系统研究了LLM多智能体系统中的曼德拉效应，探究其存在性、成因及缓解策略。我们提出MANBENCH基准，涵盖四类易受该效应影响的任务和五种不同角色与记忆时间尺度的交互协议，并在多个LLM驱动的智能体上进行评估。此外，提出提示层防御（如认知锚定、信源审查）和模型层对齐防御策略，相较基线平均降低74.40%的曼德拉效应。本研究为构建更具鲁棒性与伦理一致性的协作多智能体系统提供了重要洞见。

集体记忆认知偏差

聚焦多智能体系统中的集体记忆偏差，核心探讨记忆机制与失真问题。

MiTa：一种融合记忆与任务分配的分层多智能体协作框架

MiTa: A Hierarchical Multi-Agent Collaboration Framework with Memory-integrated and Task Allocation

XiaoJie Zhang, JianHan Wu, Xiaoyang Qu, Jianzong Wang

9/10 2026-01-30 cs.ET PDF

大语言模型（LLM）的最新进展显著推动了具身智能体的发展。基于LLM的多智能体系统缓解了单智能体在复杂任务中的低效问题，但仍面临记忆不一致与智能体行为冲突等挑战。为此，本文提出MiTa——一种融合记忆与任务分配的分层协作框架，通过管理者-成员层级结构提升协作效率。管理者配备任务分配与摘要模块：前者实现全局任务分配以避免智能体间冲突；后者在任务进展更新时触发，将近期协作历史压缩为简洁摘要，保留长时程上下文。实验表明，MiTa在复杂多智能体协作任务中相较强基线方法展现出更优的效率与适应性。

多智能体系统情景记忆

论文核心提出记忆整合机制，标题明确包含memory，且记忆是协作框架的关键组成部分。

MoVE：值嵌入混合——自回归模型中扩展参数化记忆的新维度

MoVE: Mixture of Value Embeddings -- A New Axis for Scaling Parametric Memory in Autoregressive Models

Yangyan Li

9/10 2026-01-30 cs.LG PDF

自回归序列建模是现代生成式AI的基石，但其模型容量与计算成本紧密耦合：扩展参数化记忆（如事实知识或视觉模式）通常需加深或加宽网络，导致计算开销线性增长。本文提出MoVE（值嵌入混合）机制，通过在所有注意力层共享一个可学习的全局值嵌入库，并在每步序列中使用可微软门控动态混合检索到的概念与标准值投影，从而将记忆与计算解耦。该架构允许仅通过增加嵌入槽位数量独立扩展参数化记忆。在文本与图像生成任务上的严格实验表明，MoVE显著优于标准及分层记忆基线，可在相同计算预算下构建“记忆密集型”模型，实现更低困惑度与更高生成保真度。

参数化记忆自回归模型

提出MoVE机制，直接解耦参数化记忆与计算，核心研究记忆架构。

AutoRefine：从轨迹到可复用专长的持续大语言模型智能体优化框架

AutoRefine: From Trajectories to Reusable Expertise for Continual LLM Agent Refinement

Libin Qiu, Zhirong Gao, Junfu Chen, Yuhang Ye, Weizhi Huang et al.

9/10 2026-01-30 cs.AI PDF

大语言模型智能体常难以从经验中积累知识，将每个任务视为独立挑战。现有方法将经验提取为扁平文本知识，无法捕捉复杂子任务的程序逻辑，且缺乏维护机制，导致经验库随积累而退化。本文提出AutoRefine框架，从智能体执行历史中提取并维护双形态经验模式：对程序性子任务，提取具备独立推理与记忆能力的专用子智能体；对静态知识，则提取为指南或代码片段形式的技能模式。框架还包含持续维护机制，通过评分、剪枝与合并防止经验库退化。在ALFWorld、ScienceWorld和TravelPlanner上的实验表明，AutoRefine分别达到98.4%、70.4%和27.1%的成功率，并减少20–73%的执行步骤；在TravelPlanner上，其自动提取性能超越人工设计系统（27.1% vs 12.1%），验证了其捕获程序协调能力的有效性。

经验记忆持续学习

提出双形态经验模式及持续维护机制，核心解决Agent记忆积累与退化问题。

MERMAID：基于多智能体迭代知识锚定的记忆增强检索与推理用于真实性评估

MERMAID: Memory-Enhanced Retrieval and Reasoning with Multi-Agent Iterative Knowledge Grounding for Veracity Assessment

Yupeng Cao, Chengyang He, Yangyang Yu, Ping Wang, K. P. Subbalakshmi

9/10 2026-01-29 cs.CL PDF

在线内容的真实性评估日益重要。尽管大语言模型（LLMs）在自动事实核查和主张验证方面取得进展，现有方法通常将证据检索视为静态、孤立的步骤，难以跨主张有效管理或复用证据。本文提出MERMAID——一种记忆增强的多智能体真实性评估框架，通过将检索与推理过程紧密耦合，在Reason-Action式迭代流程中整合智能体驱动的搜索、结构化知识表示和持久记忆模块，实现动态证据获取与跨主张证据复用。实验证明，MERMAID在多个基准上达到最先进性能，同时提升检索效率，验证了融合检索、推理与记忆对可靠真实性评估的有效性。

Agent Memory 多智能体系统

论文核心提出带持久记忆模块的多智能体框架，显式建模证据记忆机制。

SONIC：面向键值缓存信息压缩的分段优化枢纽

SONIC: Segmented Optimized Nexus for Information Compression in Key-Value Caching

Hong Chen, Xiang Liu, Bo Wang, Yuxuan Fan, Yuanlin Chu et al.

9/10 2026-01-29 cs.CL PDF

键值（KV）缓存的线性增长仍是多轮大语言模型部署的瓶颈。现有KV缓存压缩方法常忽视多轮对话的结构特性，依赖启发式剔除策略，易丢失关键上下文。本文提出SONIC——一种基于学习的框架，将历史对话片段压缩为紧凑且语义丰富的“枢纽”（Nexus）令牌。通过引入动态预算训练，SONIC可在无需重新训练的情况下灵活适应不同内存约束。实验表明，在80%和50%压缩率下，SONIC在四个多轮对话基准上均优于H2O和StreamingLLM等基线方法；在广泛使用的MTBench101基准上，平均得分较当前最优方法提升35.55%，有效维持了多轮对话连贯性，并将整体推理速度提升50.1%。

KV缓存压缩多轮对话记忆

聚焦KV缓存压缩，直接优化Agent长期记忆机制。

通过任务导向的对抗式记忆适应增强对话智能体

Enhancing Conversational Agents via Task-Oriented Adversarial Memory Adaptation

Yimin Deng, Yuqing Fu, Derong Xu, Yejing Wang, Wei Ni et al.

9/10 2026-01-29 cs.CL PDF

对话智能体因上下文窗口限制难以处理长对话，现有记忆系统通常采用离线构建与更新、在线检索的流程。然而，其离线阶段固定且任务无关，导致记忆内容与下游任务需求不匹配。为此，本文提出对抗式记忆适应机制（AMA），通过模拟任务执行实现记忆构建与更新的任务对齐：挑战者智能体基于原始对话生成问答对，利用构建的记忆作答以模拟推理；评估者智能体分析回答错误；适配器智能体据此在策略与内容层面进行双重更新。该机制使记忆系统在离线阶段即获得任务感知监督信号，提升对下游任务的适应性。实验表明，AMA可集成至多种现有记忆系统，并在长对话基准LoCoMo上显著提升性能。

对话智能体记忆系统任务导向学习对抗适应

论文聚焦于对话Agent中的记忆系统优化，提出任务导向的对抗式记忆适应机制，核心解决记忆构建与更新对下游任务的适配问题。

ScaleSim：基于调用距离的内存管理实现大规模多智能体仿真的高效服务

ScaleSim: Serving Large-Scale Multi-Agent Simulation with Invocation Distance-Based Memory Management

Zaifeng Pan, Yipeng Shen, Zhengding Hu, Zhuang Wang, Aninda Manocha et al.

9/10 2026-01-29 cs.AI PDF

基于大语言模型（LLM）的多智能体仿真在多个应用领域日益普及，但受限于GPU内存压力而难以扩展。每个智能体维护其私有的驻留GPU状态，包括模型、前缀缓存和适配器，随着智能体数量增长迅速耗尽设备内存。作者识别出此类工作负载的两个关键特性：稀疏激活与可估计的调用顺序，并据此提出“调用距离”这一统一抽象，用于预测智能体未来LLM请求的相对顺序。基于该抽象，论文设计了ScaleSim——一个面向大规模多智能体仿真的内存高效LLM服务系统，支持主动预取、优先级驱逐及模块化智能体内存管理，在仿真基准上相较SGLang最高提速1.74倍。

多智能体仿真 GPU内存管理

论文聚焦多智能体仿真中的GPU内存管理，提出基于调用距离的内存抽象与系统优化。

超越“针在草堆”幻觉：在3.26亿词元规模下对语义干扰中证据访问与使用的解耦评估

Beyond the Needle's Illusion: Decoupled Evaluation of Evidence Access and Use under Semantic Interference at 326M-Token Scale

Tianwei Lin, Zuyi Zhou, Xinda Zhao, Chenke Wang, Xiaohong Li et al.

9/10 2026-01-28 cs.CL PDF

长上下文大语言模型（LLM）智能体需从大规模环境中准确检索并忠实使用证据。然而，流行的“针在草堆”（NIAH）评估主要衡量良性的片段定位，其中“针”近乎唯一，“草堆”大多无关。本文提出EverMemBench-S（EMB-S），一个基于3.26亿词元MemoryBank的对抗性NIAH风格基准。为公平比较，仅在模型上下文窗口内（最高1M词元）评估原生长上下文模型。EMB-S通过人工筛选与LLM验证，为查询配对经碰撞测试的近似负样本及跨多文档的黄金证据集。作者还提出解耦诊断协议，分别报告证据访问（文档ID定位）与端到端问答质量，适用于原生提示与检索增强系统。实验表明，在语义干扰下，即使在NIAH上表现优异的系统，其证据访问能力也显著下降，揭示语义区分能力而非上下文长度才是大规模长上下文记忆的主要瓶颈。

长上下文记忆语义干扰

聚焦长上下文Agent的记忆检索与语义干扰下的证据使用，核心评估记忆机制。

Me-Agent：一种基于两级用户习惯学习的个性化移动智能体

Me-Agent: A Personalized Mobile Agent with Two-Level User Habit Learning for Enhanced Interaction

Shuoxin Wang, Chang Liu, Gowen Loo, Lifan Zheng, Kaiwen Wei et al.

9/10 2026-01-28 cs.CL PDF

基于大语言模型（LLM）的移动智能体虽取得显著进展，但常忽视用户个性化需求，难以处理模糊指令、缺乏对交互历史的学习，且无法理解个性化指令。为此，本文提出Me-Agent——一种可学习、可记忆的个性化移动智能体。其采用两级用户习惯学习机制：在提示层面，引入结合个性化奖励模型的用户偏好学习策略；在记忆层面，设计分层偏好记忆结构，分别存储用户的长期记忆与应用特定记忆。为评估个性化能力，作者构建了包含大量日常模糊指令的新基准User FingerTip。实验表明，Me-Agent在个性化任务上达到最先进水平，同时保持优异的指令执行性能。

Agent Memory 个性化智能体

提出分层偏好记忆机制，核心聚焦于Agent Memory架构设计。

U-Fold：面向用户中心代理的动态意图感知上下文折叠

U-Fold: Dynamic Intent-Aware Context Folding for User-Centric Agents

Jin Su, Runnan Fang, Yeqiu Li, Xiaobin Wang, Shihao Cai et al.

9/10 2026-01-26 cs.CL PDF

基于大语言模型（LLM）的代理已在许多工具增强场景中成功部署，但其可扩展性受到上下文长度的根本限制。现有的上下文折叠方法通过总结过去的交互来缓解这一问题，但通常设计用于单查询或单一意图场景。在更现实的用户中心对话中，我们识别出两种主要失效模式：（i）它们不可逆地丢弃了对后续决策至关重要的细粒度约束和中间事实；（ii）其摘要无法跟踪用户意图的演变，导致遗漏和错误操作。为了解决这些限制，我们提出了U-Fold，一种面向用户中心任务的动态上下文折叠框架。U-Fold保留完整的用户-代理对话和工具调用历史，但在每一步中使用两个核心组件生成一个意图感知的、动态演变的对话摘要和一个紧凑且任务相关的工具日志。在τ-bench、τ²-bench、VitaBench以及更复杂的上下文膨胀设置上的大量实验表明，U-Fold在长上下文设置中始终优于ReAct（达到71.4%的胜率），并显著优于先前的折叠基线（最高提升达27.0%），特别是在长、嘈杂、多轮任务上表现突出。我们的研究表明，U-Fold是将上下文管理技术从单查询基准转移到现实用户中心应用的重要一步。

Agent Memory Context Folding Dialogue Systems LLM Agents Intent Tracking

论文聚焦于动态上下文折叠机制，直接针对Agent Memory中的长上下文管理问题，是核心研究。

Dep-Search：通过持久记忆学习依赖感知的推理轨迹

Dep-Search: Learning Dependency-Aware Reasoning Traces with Persistent Memory

Yanming Liu, Xinyue Peng, Zixuan Yan, Yanxin Shen, Wenjie Xu et al.

9/10 2026-01-26 cs.CL PDF

大型语言模型（LLMs）在复杂推理任务中表现出显著能力，尤其是在结合搜索机制以系统探索外部知识库时。该领域已从传统的检索增强生成（RAG）框架发展为更复杂的基于搜索的框架，通过显式搜索策略协调多步骤推理。然而，现有搜索框架仍严重依赖隐式的自然语言推理来确定搜索策略以及如何跨推理步骤利用检索信息。这种对隐式推理的依赖给管理子问题之间的依赖关系、高效重用先前检索的知识以及通过强化学习学习最优搜索策略带来了根本性挑战。为了解决这些限制，我们提出了Dep-Search，一种依赖感知的搜索框架，通过GRPO整合结构化推理、检索和持久记忆，超越了现有搜索框架。Dep-Search引入了显式控制机制，使模型能够分解具有依赖关系的问题，在需要时检索信息，从内存中访问之前存储的知识，并将长推理上下文总结为可重用的记忆条目。通过对七个多样化问答数据集的广泛实验，我们证明Dep-Search显著增强了LLMs处理复杂多跳推理任务的能力，在不同模型规模上均优于强基线。

Agent Memory Persistent Memory Dependency-Aware Search Multi-Hop Reasoning GRPO

论文标题和内容明确涉及持久化记忆机制，提出依赖感知的搜索框架，与Agent Memory核心研究密切相关。

即时强化学习：无需梯度更新的LLM代理持续学习

Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates

Yibo Li, Zijie Lin, Ailin Deng, Xuan Zhang, Yufei He et al.

9/10 2026-01-26 cs.LG PDF

尽管大型语言模型（LLM）代理在通用任务中表现出色，但由于部署后权重固定，其在持续适应方面存在固有困难。传统强化学习（RL）虽能提供解决方案，但计算成本高昂且存在灾难性遗忘风险。本文提出了一种无需训练的即时强化学习（JitRL）框架，能够在测试时进行策略优化而无需任何梯度更新。JitRL维护一个动态的非参数经验记忆，并实时检索相关轨迹以估计动作优势。这些估计值用于直接调整LLM的输出logits。理论上证明，该加法更新规则是KL约束策略优化目标的确切闭式解。在WebArena和Jericho上的大量实验表明，JitRL在无训练方法中建立了新的最先进水平。关键的是，JitRL在性能上优于计算成本较高的微调方法（如WebRL），同时将成本降低了30倍以上，为持续学习代理提供了可扩展的路径。

Agent Memory 持续学习非参数记忆强化学习 LLM

论文核心提出基于非参数记忆的JitRL框架，直接关联Agent Memory机制。

Code

EMemBench：用于VLM智能体情景记忆的交互式基准测试

EMemBench: Interactive Benchmarking of Episodic Memory for VLM Agents

Xinze Li, Ziyue Zhu, Siyuan Liu, Yubo Ma, Yuhang Zang et al.

9/10 2026-01-23 cs.CL PDF

本文提出EMemBench，一个通过交互式游戏评估智能体长期记忆能力的程序化基准。与固定问题集不同，EMemBench从每个智能体自身的轨迹中生成问题，涵盖文本和视觉游戏环境。每个模板均基于底层游戏信号计算可验证的真实答案，并控制回答难度与覆盖记忆技能：单跳/多跳回忆、归纳、时间、空间、逻辑及对抗性推理。实验使用强LM/VLM作为后端，以上下文提示作为基线，在15个文本游戏和多个视觉种子中进行评估。结果显示，归纳和空间推理仍是持续瓶颈，尤其在视觉环境中。持久记忆在文本游戏中为开放架构带来明显提升，但对VLM智能体效果不一致，表明视觉基础的情景记忆仍是一个开放挑战。人类研究进一步确认了EMemBench的难度。

Agent Memory Episodic Memory Benchmark VLM Interactive Testing

论文直接聚焦于Agent的Episodic Memory评估，提出专门的基准测试EMemBench，属于核心Memory研究。

个性化记忆如何塑造大语言模型的行为？——在个性化助手中的理性偏好利用基准测试

How Does Personalized Memory Shape LLM Behavior? Benchmarking Rational Preference Utilization in Personalized Assistants

Xueyang Feng, Weinan Gan, Xu Chen, Quanyu Dai, Yong Liu

9/10 2026-01-23 cs.CL PDF

近年来，基于大语言模型（LLM）的助手已引入记忆机制以记录用户偏好，从而生成更符合用户需求的响应。然而，不相关的个性化记忆常被引入上下文，干扰LLM对意图的理解。为全面研究个性化的影响，我们开发了RPEval基准，包含一个个性化意图推理数据集和多粒度评估协议。RPEval揭示了现有LLM中广泛存在的非理性个性化现象，并通过错误模式分析说明其对用户体验的负面影响。最后，我们提出了RP-Reasoner，将记忆利用视为一种实用推理过程，实现个性化信息的选择性整合。实验结果表明，我们的方法在RPEval上显著优于精心设计的基线，并解决了大规模商业个性化助手中80%的不良案例，突显了实用推理在缓解非理性个性化方面的潜力。我们的基准已在https://github.com/XueyangFeng/RPEval公开。

Agent Memory Personalization Benchmark Pragmatic Reasoning LLM Evaluation

论文核心研究LLM个性化记忆对行为的影响，提出评估基准和解决方法，直接涉及Agent Memory机制。

Code

一种无冲突的热层扩展方法用于Engram风格条件记忆：训练动态的对照研究

A Collision-Free Hot-Tier Extension for Engram-Style Conditional Memory: A Controlled Study of Training Dynamics

Tao Lin

9/10 2026-01-23 cs.LG PDF

本文探讨高频键碰撞是否是Engram风格条件记忆的主要瓶颈。为隔离碰撞的影响，我们引入了Engram-Nine，一种无冲突的热层扩展方法，通过最小完美哈希函数（MPHF）映射最频繁的n-gram，同时保留原始多头哈希查找作为冷层。在严格等参数设置下，无冲突设计并未一致改善验证损失。通过路由分层评估（将每个token的损失分解为热/冷贡献），我们发现训练过程中存在一致的“热到冷优势翻转”现象：热（高频）位置初始损失较低，但冷位置最终超越。关键发现是，无冲突配置比易碰撞基线更早发生翻转，表明碰撞可能起到隐式正则化作用。此外，我们还识别出门控不匹配问题：门控机制在训练初期倾向于热位置，但即使在翻转后仍持续偏好热位置，导致高损失位置被赋予更高权重。我们的研究结果表明，仅提高查找精度并不能保证更好的训练效果，主要限制可能在于门控信用分配而非索引准确性，碰撞引起的噪声可能提供有益的正则化作用，不应盲目消除。

conditional memory hash collision training dynamics gating mechanism regularization

论文直接研究Engram-style conditional memory中的碰撞问题，属于Agent Memory机制的核心研究。

Memory-V2V：通过记忆增强视频到视频扩散模型

Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

Dohun Lee, Chun-Hao Paul Huang, Xuelin Chen, Jong Chul Ye, Duygu Ceylan et al.

9/10 2026-01-22 cs.CV PDF

近期的基础视频到视频扩散模型在通过修改外观、运动或相机移动来编辑用户提供的视频方面取得了显著成果。然而，现实中的视频编辑通常是一个迭代过程，用户需要在多轮交互中不断优化结果。在这一多轮设置下，当前的视频编辑器难以保持连续编辑之间的跨一致性。本文首次针对多轮视频编辑中的跨一致性问题进行研究，并引入了Memory-V2V框架，该框架通过显式记忆机制增强现有的视频到视频模型。给定一个外部缓存的先前编辑视频库，Memory-V2V采用精确检索和动态标记化策略，使当前编辑步骤基于先前结果进行条件生成。为了进一步减少冗余和计算开销，我们提出了一种可学习的标记压缩器，在DiT主干网络中压缩冗余的条件标记，同时保留关键视觉线索，从而实现整体速度提升30%。我们在具有挑战性的任务（如视频新视角合成和文本条件下的长视频编辑）上验证了Memory-V2V的有效性。大量实验表明，Memory-V2V在最小计算开销下生成的视频显著提高了跨一致性，同时在特定任务性能上与最先进的基线相比保持甚至有所提升。

video editing diffusion models agent memory multi-turn interaction token compression

论文核心提出Memory-V2V框架，明确以Memory机制解决多轮视频编辑中的跨一致性问题。

Code

SemanticALLI：在智能体系统中缓存推理而非仅响应

SemanticALLI: Caching Reasoning, Not Just Responses, in Agentic Systems

Varun Chillara, Dylan Kline, Christopher Alvares, Evan Wooten, Huan Yang et al.

9/10 2026-01-22 cs.AI PDF

智能体AI流程存在一种隐藏的低效问题：即使用户的自然语言表述完全新颖，系统仍会重复生成相同的中间逻辑，如指标归一化或图表构建。传统边界缓存无法捕捉这种低效，因为它将推理视为一个黑箱整体。本文提出SemanticALLI，这是Alli（PMG的营销情报平台）中的一种流程感知架构，旨在实现冗余推理的可操作化。通过将生成过程分解为分析意图解析（AIR）和可视化合成（VS），SemanticALLI将结构化的中间表示（IRs）提升为可缓存的第一类对象。实验表明，在智能体循环中使用缓存具有显著影响。基线单体缓存由于语言变化率限制，命中率最高仅为38.7%。相比之下，本文的结构化方法通过引入可视化合成阶段，实现了83.10%的命中率，避免了4,023次LLM调用，中位延迟仅为2.66毫秒。这种内部重用减少了总token消耗，为AI系统设计提供了实用启示：即使用户很少重复自己，流程本身却常常在稳定、结构化的检查点上重复，而这些正是缓存最可靠的地方。

Agent Memory 缓存优化智能体系统中间表示结构化推理

论文核心聚焦于Agent系统中的记忆机制，提出了一种结构化缓存中间推理结果的方法。

AgentSM：面向智能体文本到SQL的语义记忆

AgentSM: Semantic Memory for Agentic Text-to-SQL

Asim Biswal, Chuan Lei, Xiao Qin, Aodong Li, Balakrishnan Narayanaswamy et al.

Asim Biswal△∘, Chuan Lei∗⋄, Xiao Qin∗□, Aodong Li∘,Balakrishnan Narayanaswamy∘, Tim Kraska∘ (∘\circAmazon Web Services△\triangleUniversity of California, Berkeley⋄\diamondOracle Corporation□\BoxSnowflake Inc.)

9/10 2026-01-22 cs.AI PDF

基于LLM的文本到SQL方法在BIRD和Spider等基准测试中取得了显著进展。然而，这些系统在现实企业环境中面临挑战，如大型复杂模式、多样化的SQL方言以及昂贵的多步骤推理。新兴的智能体方法虽具有自适应推理潜力，但常因效率低下和不稳定而受限，例如重复与数据库交互、输出不一致或无法生成有效答案。为解决这些问题，本文提出了Agent Semantic Memory（AgentSM），一种构建和利用可解释语义记忆的智能体框架。该框架通过结构化程序捕获或合成先前执行轨迹，直接指导未来推理，从而实现推理路径的系统性复用，使智能体能够高效可靠地处理更大规模的模式、更复杂的问题和更长的推理轨迹。在Spider 2.0基准测试中，AgentSM相比现有最佳系统平均减少了25%的token使用量和35%的轨迹长度，并在Spider 2.0 Lite基准测试中实现了44.8%的最先进准确率。

Agent Memory Text-to-SQL Semantic Memory LLM Agent

论文明确提出并设计了Agent Semantic Memory机制，作为系统的核心组件。

仅凭记忆保留不足以在强化学习中掌握记忆任务

Memory Retention Is Not Enough to Master Memory Tasks in Reinforcement Learning

Oleg Shchendrigin, Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov

9/10 2026-01-21 cs.LG PDF

现实世界中的有效决策依赖于既稳定又适应性的记忆：环境随时间变化，智能体需要在长时域内保留相关信息，同时在情况变化时更新或覆盖过时内容。现有的强化学习（RL）基准和增强记忆的智能体主要关注记忆保留，而对同样关键的记忆重写能力研究较少。为弥补这一不足，我们引入了一个明确测试部分可观测环境下持续记忆更新的基准，并用其比较循环网络、基于Transformer和结构化记忆架构的表现。实验表明，尽管经典循环模型结构简单，但其在记忆重写任务中表现出更高的灵活性和鲁棒性，而现代结构化记忆和基于Transformer的智能体仅在特定条件下有效，且常在复杂任务中失败。这些发现揭示了当前方法的根本局限性，并强调了需要平衡稳定保留与适应性更新的记忆机制。本工作突出了这一被忽视的挑战，引入了评估基准，并为设计具有显式可训练遗忘机制的未来RL智能体提供了见解。

强化学习记忆更新结构化记忆 Transformer 记忆重写

论文核心聚焦于强化学习中的记忆更新机制，直接探讨记忆保留与重写能力的平衡问题。

Code

SpatialMem：具有度量锚定和快速检索的统一三维记忆

SpatialMem: Unified 3D Memory with Metric Anchoring and Fast Retrieval

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng et al.

9/10 2026-01-21 cs.CV PDF

本文提出了一种以记忆为中心的系统SpatialMem，将三维几何、语义和语言统一为可查询的表示形式。该系统从随意捕获的第一人称RGB视频开始，重建出符合度量尺度的室内环境，并检测结构化的三维锚点（如墙壁、门、窗）作为第一层框架，同时构建一个分层记忆系统，其中包含开放词汇的对象节点，将证据片段、视觉嵌入和双层文本描述链接到三维坐标中，实现紧凑存储和快速检索。这一设计支持对空间关系（如距离、方向、可见性）的可解释推理，并支持无需专用传感器的语言引导导航和对象检索任务。实验表明，在三种真实室内场景中，即使在杂乱和遮挡增加的情况下，SpatialMem仍能保持较高的锚点-描述级导航完成率和分层检索准确性，提供了一个高效且可扩展的具身空间智能框架。

Agent Memory 3D Reconstruction Language-Visual Alignment Hierarchical Memory

论文核心围绕SpatialMem记忆系统，统一3D几何、语义和语言，强调记忆存储与检索机制。

HiNS：用于更全面记忆检索嵌入模型的层次化负样本采样方法

HiNS: Hierarchical Negative Sampling for More Comprehensive Memory Retrieval Embedding Model

Motong Tian, Allen P. Wong, Mingjun Mao, Wangchunshu Zhou

9/10 2026-01-21 cs.CL PDF

增强记忆的语言代理依赖于嵌入模型实现有效的记忆检索。然而，现有训练数据构建忽视了一个关键限制：负样本的层次化难度及其在人机交互中的自然分布。实际上，一些负样本是语义上相近的干扰项，而另一些则是明显无关的，自然对话中这两类样本的比例具有结构性特征。当前使用合成或均匀采样的负样本方法无法反映这种多样性，限制了嵌入模型学习精细判别能力，从而影响记忆检索的鲁棒性。本文提出了一种基于原理的数据构建框架HiNS，显式建模负样本的难度层级，并结合从对话数据中得出的经验性负样本比例，使嵌入模型在记忆密集型任务中显著提升了检索精度和泛化能力。实验结果表明，在LoCoMo和PERSONAMEM数据集上均取得了显著提升。

Agent Memory 嵌入模型负样本采样记忆检索

论文直接针对Agent Memory中的嵌入模型优化，提出改进的负样本采样方法以提升记忆检索效果。

OP-Bench：用于评估记忆增强个性化对话代理中过度个性化的基准测试

OP-Bench: Benchmarking Over-Personalization for Memory-Augmented Personalized Conversational Agents

Yulin Hu, Zimo Long, Jiahe Guo, Xingyu Sui, Xing Fu et al.

9/10 2026-01-20 cs.CL PDF

记忆增强型对话代理通过长期用户记忆实现个性化交互，已受到广泛关注。然而现有基准主要关注代理是否能回忆并应用用户信息，而忽视了这种个性化是否恰当使用。实际上，代理可能过度使用个人信息，导致回应显得生硬、侵入性或不适当。本文将此问题定义为“过度个性化”，并将其形式化为三种类型：无关性、重复性和奉承性。为此，我们构建了一个包含1700个经过验证实例的基准测试集OP-Bench，基于长期对话历史进行构建。利用OP-Bench，我们评估了多个大语言模型和记忆增强方法，发现引入记忆后过度个性化现象普遍存在。进一步分析表明，代理倾向于在不必要的场景下检索并过度关注用户记忆。为解决这一问题，我们提出了Self-ReCheck，一种轻量级、模型无关的记忆过滤机制，在保持个性化性能的同时缓解过度个性化问题。本研究为记忆增强对话系统中更可控和适当的个性化提供了初步探索。

Agent Memory Over-Personalization Dialogue Systems Benchmark Memory Filtering

论文核心聚焦于记忆增强对话代理中的过度个性化问题，提出OP-Bench和Self-ReCheck方法，直接涉及Agent Memory机制。

LLM-as-RNN：一种用于记忆更新和序列预测的循环语言模型

LLM-as-RNN: A Recurrent Language Model for Memory Updates and Sequence Prediction

Yuxing Lu, J. Ben Tamo, Weichen Zhao, Nan Sun, Yishan Zhong et al.

9/10 2026-01-19 cs.CL PDF

大型语言模型是强大的序列预测器，但标准推理依赖于不可变的上下文历史。在生成步骤t出现错误后，模型缺乏可更新的记忆机制以改进步骤t+1的预测。我们提出LLM-as-RNN，一个仅用于推理的框架，通过将隐藏状态表示为自然语言记忆，将冻结的LLM转化为循环预测器。该状态以结构化系统提示摘要的形式实现，并通过反馈驱动的文本重写在每个时间步进行更新，从而实现在不更新参数的情况下学习。在固定的token预算下，LLM-as-RNN能够纠正错误并保留任务相关模式，有效通过语言进行在线学习。我们在医疗、气象和金融领域的三个序列基准上评估了该方法，在Llama、Gemma和GPT模型家族中显著优于零样本、全历史和MemPrompt基线，平均提高了6.5%的预测准确性，同时生成了标准上下文积累所缺失的可解释、可读的学习轨迹。

Agent Memory LLM推理序列预测在线学习自然语言记忆

论文核心聚焦于LLM的可更新记忆机制，提出基于语言的记忆状态更新方法，直接关联Agent Memory。

用于长上下文语言建模的门控可微工作记忆

Gated Differentiable Working Memory for Long-Context Language Modeling

Lingrui Mei, Shenghua Liu, Yiwei Wang, Yuyao Ge, Baolong Bi et al.

9/10 2026-01-19 cs.CL PDF

长上下文对Transformer模型提出了挑战：注意力分数在数千个token上稀释，关键信息常在中间部分丢失，且模型难以在推理时适应新模式。近期研究通过维护一种工作记忆（即在当前上下文中更新的临时参数）来解决这一问题，但现有方法依赖于统一的写入策略，导致计算资源浪费在低效区域，并在语义异构上下文中梯度方差较高。本文将测试时自适应重新定义为预算受限的记忆巩固问题，关注在有限计算条件下应巩固上下文的哪些部分。我们提出Gdwm（门控可微工作记忆），引入一个写控制器以门控巩固过程。该控制器估计上下文效用，这是一种衡量长距离上下文依赖的信息论指标，并据此分配梯度步骤，同时保持全局覆盖。在ZeroSCROLLS和LongBench v2上的实验表明，Gdwm在使用4倍更少梯度步骤的情况下实现了与均匀基线相当或更优的性能，确立了测试时自适应的新效率-性能帕累托前沿。

工作记忆测试时自适应长上下文建模梯度优化门控机制

论文核心聚焦于工作记忆机制，提出Gdwm框架用于长上下文语言建模中的测试时自适应。

这个名字让你想到谁？基于大型语言模型联想记忆的国籍预测

Who Does This Name Remind You of ? Nationality Prediction via Large Language Model Associative Memory

Keito Inoshita

9/10 2026-01-19 cs.CL PDF

大型语言模型（LLMs）拥有广泛的世界知识，但有效提取这些知识的方法仍较少被研究。国籍和区域预测任务需要理解语言特征以及文化和历史背景，这使得LLM的世界知识特别有价值。然而，传统LLM提示方法依赖直接推理，难以应用抽象的语言规则。本文提出LLM联想记忆代理（LAMA），一种利用LLM世界知识作为联想记忆的新框架。LAMA不直接从名字推断国籍，而是通过回忆同名的著名人物并聚合其国籍来实现间接推理。该框架采用包含人物代理和媒体代理的双代理架构，并行召回名人信息，通过投票生成Top-1预测，通过条件补全生成Top-K预测。在99个国家的国籍预测任务中，LAMA达到0.817的准确率，显著优于传统LLM提示方法和神经网络模型。实验表明，LLM在回忆具体实例方面比抽象推理更可靠，基于回忆的方法对低频国籍具有鲁棒性，且双代理架构能够互补协同产生协同效应。这些结果证明了通过检索和聚合LLM知识而非提示推理的新多代理系统的有效性。

Agent Memory 多代理系统国籍预测联想记忆 LLM知识检索

论文核心提出LLM Associative Memory Agents框架，明确以记忆机制为核心，用于国籍预测任务。

迈向超长周期智能体科学：面向机器学习工程的认知积累

Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering

Xinyu Zhu, Yuzhu Cai, Zexi Liu, Bingyang Zheng, Cheng Wang et al.

9/10 2026-01-15 cs.AI PDF

当前人工智能向智能体科学的发展受限于超长周期自主性——即在持续数天或数周的实验周期中维持战略连贯性与迭代修正的能力。尽管大语言模型（LLMs）在短周期推理中表现优异，但在高维、延迟反馈的真实科研环境中易被执行细节淹没，难以将稀疏反馈整合为长期指导。本文提出ML-Master 2.0，一种掌握超长周期机器学习工程（MLE）的自主智能体。通过将上下文管理重构为认知积累过程，引入受计算机系统启发的分层认知缓存（HCC）架构，实现经验在时间维度上的结构化区分。HCC动态将瞬时执行轨迹提炼为稳定知识与跨任务智慧，使智能体解耦即时执行与长期实验策略，有效突破静态上下文窗口的扩展限制。在OpenAI MLE-Bench上24小时预算内，ML-Master 2.0达到56.44%的最先进奖牌率。

Agent Memory Long-horizon Autonomy

提出分层认知缓存机制，核心解决长期记忆与知识积累问题。

数字代谢：通过再生性遗忘解耦逻辑与事实——迈向纯神经逻辑核心

Digital Metabolism: Decoupling Logic from Facts via Regenerative Unlearning -- Towards a Pure Neural Logic Core

Mengmeng Peng, Zhenyu Fang, He Sun

9/10 2026-01-15 cs.LG PDF

当前大语言模型（LLMs）存在参数纠缠问题，即通用推理能力（逻辑）与具体事实知识（事实）在共享权重中处于叠加态，导致“记忆墙”现象，浪费计算资源并引发幻觉。本文提出“数字代谢”假说，认为定向遗忘是提炼纯神经逻辑核心的必要过程。为此，我们设计了再生性逻辑核心协议（RLCP），一种双流训练框架，通过深层梯度反转使特定事实依赖在线性层面不可解码。在Qwen2.5-0.5B上的实验显示，模型对目标事实的保留率趋近于零（准确率<7%），同时呈现出“结构结晶化”效应。GSM8K测试表明，该“代谢”模型自发采用思维链（CoT）推理，以补偿直接联想回忆的缺失（从O(1)回忆转向O(N)推理）。该研究为模块化“神经CPU+符号RAM”架构奠定基础。

Agent Memory Neural Logic Core

提出“数字代谢”机制，通过定向遗忘解耦逻辑与事实记忆，直接研究Agent Memory核心架构。

PersonalAlign：面向个性化GUI智能体的分层隐式意图对齐与长期以用户为中心的记录

PersonalAlign: Hierarchical Implicit Intent Alignment for Personalized GUI Agent with Long-Term User-Centric Records

Yibo Lyu, Gongwei Chen, Rui Shao, Weili Guan, Liqiang Nie

9/10 2026-01-14 cs.AI PDF

尽管GUI智能体在显式和完成型指令下表现优异，但实际部署需对齐用户更复杂的隐式意图。本文提出“个性化GUI智能体的分层隐式意图对齐”（PersonalAlign）新任务，要求智能体利用长期用户记录作为持久上下文，解析模糊指令中省略的偏好，并基于用户状态预判潜在例行行为以提供主动协助。为此，我们构建了AndroidIntent基准，包含从2万条长期记录中标注的775项用户偏好与215个例行流程。同时，我们提出分层意图记忆智能体（HIM-Agent），持续更新个人记忆并分层组织偏好与例行行为以实现个性化。在AndroidIntent上的评估表明，HIM-Agent相较GPT-5、Qwen3-VL和UI-TARS等模型，在执行与主动性能上分别提升15.7%和7.3%。

Agent Memory Personalization

论文核心提出基于长期用户记录的分层意图记忆机制，明确构建个性化记忆系统。

知识交汇之处：语言模型内部记忆知识冲突的机制研究

Where Knowledge Collides: A Mechanistic Study of Intra-Memory Knowledge Conflict in Language Models

Minh Vu Pham, Hsuvas Borkakoty, Yufang Hou

9/10 2026-01-14 cs.CL PDF

在语言模型（LMs）中，当关于同一事件的不一致信息被编码到模型的参数化知识中时，会引发内部记忆知识冲突。以往工作主要通过微调或知识编辑等方法解决模型内部知识与外部资源之间的冲突，但对预训练阶段在模型内部表征中产生的冲突定位问题尚未探索。本文基于机制可解释性方法构建框架，识别预训练数据中的冲突知识在语言模型中的编码位置与方式。研究发现，模型特定内部组件负责编码预训练中的冲突知识，并展示了如何利用机制可解释性方法在推理阶段对冲突知识进行因果干预与控制。

机制可解释性知识冲突

聚焦语言模型内部记忆中知识冲突的机制与定位，属核心记忆研究。

MemRec：协作记忆增强的智能推荐系统

MemRec: Collaborative Memory-Augmented Agentic Recommender System

Weixin Chen, Yuhan Zhao, Jingyuan Huang, Zihe Ye, Clark Mingxuan Ju et al.

9/10 2026-01-13 cs.IR PDF

随着推荐系统的发展，偏好存储已从评分矩阵和密集嵌入转向语义记忆。然而现有智能体依赖孤立记忆，忽略了关键的协作信号。为解决这一问题，本文提出MemRec框架，通过架构上分离推理与记忆管理，实现高效的协作增强。MemRec引入了一个专用且成本效益高的LM_Mem模块，用于管理动态协作记忆图，并向下游LLM_Rec提供高信号上下文。该框架采用高效检索和异步图传播的实用流程，在后台演化记忆。在四个基准上的实验表明，MemRec取得了最先进的性能。此外，架构分析证实了其灵活性，支持多种部署方式，包括本地开源模型。

Agent Memory 推荐系统图神经网络协作学习

论文标题和内容明确聚焦于Agent Memory机制，提出MemRec框架以改进协作记忆管理。

Code

PrivGemo：隐私保护双塔图检索方法用于增强LLM推理的记忆增强

PrivGemo: Privacy-Preserving Dual-Tower Graph Retrieval for Empowering LLM Reasoning with Memory Augmentation

Xingyu Tan, Xiaoyang Wang, Qing Liu, Xiwei Xu, Xin Yuan et al.

9/10 2026-01-13 cs.CL PDF

知识图谱（KGs）为大型语言模型（LLMs）在知识密集型问答中的推理提供了结构化证据。然而，许多实际应用中的KG是私有的，将检索到的三元组或探索轨迹发送给闭源LLM API会带来信息泄露风险。现有隐私处理方法主要集中在实体名称的掩码上，但仍面临语义掩码下的结构泄露、远程交互不可控、多跳和多实体推理脆弱以及经验重用受限等四个问题。为此，我们提出PrivGemo，一种隐私保护的检索增强框架，通过记忆引导的暴露控制实现基于KG的推理。PrivGemo采用双塔设计，在本地保留原始KG知识的同时，通过匿名视图进行远程推理，超越名称掩码以限制语义和结构暴露。PrivGemo支持多跳、多实体推理，通过检索连接所有主题实体的匿名长跳路径，并在本地KG上进行接地和验证。一个分层控制器和隐私感知的经验记忆进一步减少不必要的探索和远程交互。在六个基准上的全面实验表明，PrivGemo总体达到最先进的效果，比最强基线高出17.1%。此外，PrivGemo使较小模型（如Qwen3-4B）能够实现与GPT-4-Turbo相当的推理性能。

Agent Memory Privacy-Preserving Knowledge Graph Retrieval-Augmented Reasoning LLM

论文核心聚焦于基于记忆增强的隐私保护检索框架，明确涉及Agent Memory机制与系统设计。

Fine-Mem: 长时程记忆管理的细粒度反馈对齐方法

Fine-Mem: Fine-Grained Feedback Alignment for Long-Horizon Memory Management

Weitao Ma, Xiaocheng Feng, Lei Huang, Xiachong Feng, Zhanyu Ma et al.

9/10 2026-01-13 cs.CL PDF

有效的记忆管理对于大型语言模型代理完成长时程任务至关重要。近期研究尝试使用强化学习开发专门的记忆管理代理，但现有方法依赖最终任务性能作为主要奖励，导致奖励稀疏且信用分配无效，难以指导具体记忆操作。为此，我们提出Fine-Mem，一个统一的细粒度反馈对齐框架。首先，我们引入块级步奖励，通过辅助的块特定问答任务提供即时监督；其次，设计基于证据的奖励归因机制，通过将信用锚定到关键记忆操作来重新分配全局奖励。这些组件共同实现了稳定的策略优化，并使局部记忆操作与记忆的长期效用保持一致。在Memalpha和MemoryAgentBench上的实验表明，Fine-Mem在各种子任务中均优于强基线，具有良好的适应性和泛化能力。

Agent Memory Reinforcement Learning Feedback Alignment Long-Horizon Task Memory Management

论文明确聚焦于长时记忆管理，提出Fine-Mem框架解决记忆操作的反馈对齐问题，属于Agent Memory核心研究。

Mem2ActBench：用于评估任务导向自主智能体长期记忆利用的基准

Mem2ActBench: A Benchmark for Evaluating Long-Term Memory Utilization in Task-Oriented Autonomous Agents

Yiting Shen, Kun Li, Wei Zhou, Songlin Hu

9/10 2026-01-13 cs.CL PDF

基于大语言模型（LLM）的智能体越来越多地被部署在需要复杂工具操作的任务中，其中长期记忆对于驱动行动至关重要。然而，现有基准主要测试智能体在回答显式问题时被动检索孤立事实的能力，未能评估其主动应用记忆执行任务的关键能力。为弥补这一不足，本文提出Mem2ActBench，一个用于评估智能体是否能主动利用长期记忆选择适当工具并进行参数定位的基准。该基准模拟了持续的助手使用场景，用户在长时间、中断的交互中提及相同主题，并期望之前建立的偏好和任务状态被隐式应用。数据集通过自动化流程构建，整合了多个异构来源（ToolACE、BFCL、Oasst1），并通过一致性建模解决冲突，合成2029个会话，平均包含12轮用户-助手-工具交互。从这些记忆链中，反向生成方法生成400个工具使用任务，人工评估确认其中91.3%具有高度依赖记忆的特性。实验表明，当前系统在主动利用记忆进行参数定位方面仍存在不足，突显了改进记忆应用评估与优化的必要性。

Agent Memory Benchmark Task-Oriented Agents Long-Term Memory Tool Use

论文直接聚焦于长期记忆在任务导向智能体中的应用，提出专门的基准测试Mem2ActBench。

边缘设备上的嵌入式AI伴侣系统

Embedded AI Companion System on Edge Devices

Rahul Gupta, Stephen D. H. Hsu

9/10 2026-01-13 cs.AI PDF

由于边缘设备计算资源受限，开发具有令人满意的用户体验的完全嵌入式AI伴侣系统面临挑战。现有文献中关于AI伴侣和记忆系统的方案因缺乏计算资源和延迟问题无法直接应用。本文提出了一种交替运行的内存范式：在用户活跃阶段，系统通过轻量级检索实现低延迟、实时对话；在用户不活跃阶段，则进行更复杂的记忆提取、整合与维护。该设计在嵌入式硬件严格限制下最小化了延迟并保持长期个性化。我们还引入了一个AI伴侣基准测试，用于全面评估其对话质量和记忆能力。实验表明，使用Qwen2.5-7B-Instruct量化模型的系统在多数指标上优于无记忆的原始LLM，并可与GPT-3.5（16k上下文窗口）媲美。

边缘计算 AI伴侣记忆系统低延迟对话嵌入式系统

论文核心提出了一种针对边缘设备的Agent Memory机制，明确涉及记忆的主动与非主动阶段设计。

MemoBrain：作为智能体大脑的执行记忆

MemoBrain: Executive Memory as an Agentic Brain for Reasoning

Hongjin Qian, Zhao Cao, Zheng Liu

9/10 2026-01-12 cs.AI PDF

在工具增强的智能体框架中，复杂推理过程具有长期性，导致推理轨迹和临时工具产物不断累积，超出大语言模型的有限工作上下文容量。缺乏显式记忆机制时，这种累积会破坏逻辑连续性并削弱任务对齐性。本文将记忆视为维持长期连贯、目标导向推理的核心组件，而非辅助效率问题。我们提出了MemoBrain，一种用于工具增强智能体的执行记忆模型，其通过构建依赖感知的记忆，在推理步骤中捕捉关键中间状态及其逻辑关系。MemoBrain作为推理智能体的协作者，组织推理进展而不阻断执行，并主动管理工作上下文。具体而言，它修剪无效步骤、折叠已完成的子轨迹，并在固定上下文预算下保留一个紧凑且高显著性的推理主干。这些机制共同实现了对推理轨迹的显式认知控制，而非被动的上下文积累。我们在具有挑战性的长期推理基准（如GAIA、WebWalker和BrowseComp-Plus）上评估了MemoBrain，结果表明其在强基线之上表现一致提升。

Agent Memory Long-Horizon Reasoning Context Management Tool-Augmented Agents

论文核心聚焦于Agent Memory机制，提出MemoBrain作为执行记忆模型，直接针对长时推理中的上下文管理问题。

ES-Mem: 基于事件分割的长期对话代理记忆机制

ES-Mem: Event Segmentation-Based Memory for Long-Term Dialogue Agents

Huhai Zou, Tianhao Sun, Chuanjiang He, Yu Tian, Zhenyang Li et al.

9/10 2026-01-12 cs.CL PDF

记忆对于对话代理在长期交互中保持连贯性和实现持续适应至关重要。尽管现有的记忆机制提供了基本的存储和检索能力，但它们受到两个主要限制：（1）固定的记忆粒度常常破坏语义完整性，导致碎片化和不连贯的记忆单元；（2）普遍的扁平检索范式仅依赖于表面语义相似性，忽视了用于导航和定位特定情景上下文所需的语篇结构线索。为缓解这些限制，受事件分割理论启发，我们提出了ES-Mem，一个包含两个核心组件的框架：（1）动态事件分割模块，将长期交互划分为具有明确边界的语义连贯事件；（2）分层记忆架构，构建多层级记忆，并利用边界语义锚定特定情景记忆以实现精确的情景定位。在两个记忆基准测试中的评估表明，ES-Mem在基线方法上实现了稳定的性能提升。此外，所提出的事件分割模块在对话分割数据集上表现出良好的适用性。

Agent Memory Event Segmentation Dialogue Systems Hierarchical Memory

论文核心聚焦于对话代理的长期记忆机制，提出基于事件分割的记忆框架ES-Mem。

学习如何记忆：一种结构化且可迁移的智能体记忆元认知管理方法

Learning How to Remember: A Meta-Cognitive Management Method for Structured and Transferable Agent Memory

Sirui Liang, Pengfei Cao, Jian Zhao, Wenhao Teng, Xiangwen Liao et al.

Pengfei Cao (Institute of Automation, Chinese Academy of Sciences)

9/10 2026-01-12 cs.AI PDF

大型语言模型（LLM）智能体在解决长期决策任务时越来越依赖积累的记忆。然而，现有方法通常以固定表示形式存储记忆，并在单一或隐含的抽象层次上重用，这限制了泛化能力，并在分布偏移时导致负迁移。本文提出了一种元认知记忆抽象方法（MCMA），将记忆抽象视为一种可学习的认知技能，而非固定设计选择。MCMA通过结合冻结的任务模型和学习的记忆协作者，将任务执行与记忆管理解耦。记忆协作者通过直接偏好优化进行训练，决定记忆应如何结构化、抽象化和重用。进一步地，记忆被组织为多个抽象层次，实现基于任务相似性的选择性重用。当没有可迁移记忆时，MCMA通过迁移记忆协作者来传递抽象和管理记忆的能力。在ALFWorld、ScienceWorld和BabyAI上的实验表明，该方法在性能、分布外泛化和跨任务迁移方面均优于多个基线方法。

Agent Memory Meta-Cognition Memory Abstraction Transfer Learning

论文核心聚焦于Agent Memory的抽象与管理机制，提出可学习的记忆抽象方法。

通过可扩展查找实现的条件记忆：大语言模型的新稀疏轴

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

Xin Cheng, Wangding Zeng, Damai Dai, Qinyu Chen, Bingxuan Wang et al.

9/10 2026-01-12 cs.CL PDF

尽管混合专家（MoE）通过条件计算扩展了模型容量，但Transformer缺乏原生的知识检索机制，迫使它们通过计算低效地模拟检索。为了解决这一问题，我们引入了条件记忆作为补充的稀疏轴，并通过Engram模块实现，该模块现代化了经典的N-gram嵌入以实现O(1)查找。通过建立稀疏性分配问题，我们发现了一种U型扩展规律，优化了神经计算（MoE）与静态记忆（Engram）之间的权衡。在该规律指导下，我们将Engram扩展至270亿参数，在保持参数和FLOPs相同的情况下优于基线模型。实验表明，Engram不仅提升了知识检索能力，还在一般推理、代码和数学领域表现出显著提升。分析显示，Engram减轻了主干网络早期层的静态重构负担，有效加深了网络结构，同时释放了注意力资源用于全局上下文处理，显著提升了长上下文检索性能。此外，Engram还具备运行时预取能力，开销极小。

Agent Memory Sparse Models Knowledge Retrieval Efficient Lookup

论文核心提出条件记忆机制，直接针对LLM的Memory系统设计，具有明确的创新性和相关性。

主动上下文压缩：LLM代理中的自主记忆管理

Active Context Compression: Autonomous Memory Management in LLM Agents

Nikhil Verma

9/10 2026-01-12 cs.AI PDF

大型语言模型（LLM）代理在长期软件工程任务中面临“上下文膨胀”问题，导致计算成本激增、延迟增加和推理能力下降。现有解决方案通常依赖被动的外部摘要机制，而无法由代理自主控制。本文提出Focus架构，受黏菌（Physarum polycephalum）生物探索策略启发，代理可自主决定何时将关键学习内容整合为持久化的“知识”块，并主动删除原始交互历史。通过优化的工业级框架（持久化bash + 字符串替换编辑器），使用Claude Haiku 4.5对SWE-bench Lite中的5个上下文密集型实例进行评估。在频繁压缩的提示下，Focus实现了22.7%的token减少（14.9M → 11.5M tokens），同时保持相同准确率（3/5 = 60%）。每个任务平均执行6次自主压缩，单个实例最多节省57%的token。研究表明，当提供适当工具和提示时，有能力的模型可以自主调节其上下文，为不牺牲任务性能的成本感知代理系统开辟新路径。

Agent Memory Context Compression Autonomous Management LLM Optimization

论文核心研究LLM Agent的自主记忆管理机制，提出Focus架构解决Context Bloat问题。

Amory：通过智能体推理构建连贯叙事驱动的智能体记忆

Amory: Building Coherent Narrative-Driven Agent Memory through Agentic Reasoning

Yue Zhou, Xiaobo Guo, Belhassen Bayar, Srinivasan H. Sengamedu

9/10 2026-01-09 cs.CL PDF

长期对话代理面临一个根本的可扩展性挑战：随着交互时间的延长，重复处理整个对话历史变得计算上不可行。当前方法主要通过将对话片段分解为孤立的嵌入或图表示，并以RAG风格检索相关部分来解决这一问题。尽管这些方法在计算效率上较高，但通常对记忆形成处理较为简单，难以捕捉人类记忆的细微和连贯性。本文提出Amory，一种工作记忆框架，通过增强离线时间的智能体推理主动构建结构化记忆表示。Amory将对话片段组织成情节叙事，利用动量进行记忆巩固，并将外围事实语义化为语义记忆。在检索时，系统采用基于连贯性的叙事结构推理。在LOCOMO长期推理基准测试中，Amory相比之前最先进的方法有显著提升，性能与完整上下文推理相当，同时将响应时间减少了50%。分析表明，动量感知的记忆巩固显著提升了响应质量，而连贯性驱动的检索相比基于嵌入的方法提供了更优的记忆覆盖。

Agent Memory Narrative-Driven Memory Long-Term Reasoning Semantic Memory

论文核心聚焦于构建Agent Memory机制，提出Amory框架并强调记忆的连贯性和结构化。

StackPlanner：一种具有任务-经验记忆管理的集中式分层多智能体系统

StackPlanner: A Centralized Hierarchical Multi-Agent System with Task-Experience Memory Management

Ruizhe Zhang, Xinke Jiang, Zhibang Yang, Zhixin Zhang, Jiaran Gao et al.

9/10 2026-01-09 cs.AI PDF

基于大语言模型的多智能体系统，尤其是集中式架构，在复杂和知识密集型任务中展现出强大潜力。然而，中央智能体常因缺乏记忆管理而面临长期协作不稳定的问题，导致上下文膨胀、错误累积和跨任务泛化能力差。为了解决任务级记忆效率低下及无法复用协调经验的问题，本文提出StackPlanner，一种具有显式记忆控制的分层多智能体框架。该框架通过将高层协调与子任务执行解耦，并结合主动任务级记忆控制，以及结构化经验记忆与强化学习来检索和利用可复用的协调经验，从而有效应对上述挑战。在多个深度搜索和多智能体系统基准测试中的实验表明，该方法能够实现可靠长期的多智能体协作。

多智能体系统记忆管理强化学习任务分解

论文明确提出任务经验记忆管理，核心解决记忆控制与复用问题，属于Agent Memory机制研究。

基于生成和情感反映的记忆更新：创建KEEM数据集以实现更好的长期对话

Generation-Based and Emotion-Reflected Memory Update: Creating the KEEM Dataset for Better Long-Term Conversation

Jeonghyun Kang, Hongjin Kim, Harksoo Kim

9/10 2026-01-09 cs.CL PDF

在本研究中，我们引入了保持情感与关键记忆（KEEM）数据集，这是一个新颖的基于生成的方法设计的数据集，旨在增强长期对话系统中的记忆更新能力。不同于现有依赖简单累积或操作方法的方案，这些方法常导致信息冲突并难以准确跟踪用户的当前状态，KEEM通过动态生成整合性记忆来解决这些问题。该过程不仅保留了关键的事实信息，还融入了情感背景和因果关系，从而更细致地理解用户交互。通过无缝更新系统中包含情感和关键数据的记忆，我们的方法促进了更深层次的共情，并增强了系统在开放领域对话中做出有意义回应的能力。

Agent Memory 对话系统情感计算数据集构建

论文核心聚焦于基于生成的Agent Memory更新机制，提出KEEM数据集以提升长期对话中的记忆管理。

FlashMem: 通过计算复用提炼内在潜在记忆

FlashMem: Distilling Intrinsic Latent Memory via Computation Reuse

Yubo Hou, Zhisheng Chen, Tao Wan, Zengchang Qin

9/10 2026-01-09 cs.CL PDF

大型语言模型的无状态架构本质上缺乏保存动态上下文的机制，迫使代理重复处理历史信息以维持长期自主性。尽管潜在记忆提供了解决方案，但现有方法因架构分离而受限，依赖于将记忆与推理主干解耦的辅助编码器。本文提出FlashMem框架，通过计算复用从瞬时推理状态中提炼内在记忆。利用内部表示唯一编码输入轨迹的特性，FlashMem识别最后一个隐藏状态作为交互历史的充分统计量。这使得共享键值整合器能够直接关注主干的冻结缓存来合成记忆，消除了冗余参数化。此外，一个无需参数的认知监控器利用注意力熵在检测到高认识不确定性时自适应触发整合。实验表明，FlashMem在保持重型基线性能的同时，将推理延迟降低了5倍，有效弥合了效率与持续认知之间的差距。

Agent Memory LLM Computation Reuse Latent Memory

论文直接针对Agent Memory机制，提出FlashMem框架以优化记忆存储与推理效率。

MemBuilder: 通过属性密集奖励强化LLM的长期记忆构建

MemBuilder: Reinforcing LLMs for Long-Term Memory Construction via Attributed Dense Rewards

Zhiyu Shen, Ziming Wu, Fuming Lai, Shaobing Lian, Yanghui Rao

Zhiyu Shen (Sun Yat-Sen University)

9/10 2026-01-09 cs.CL PDF

在长期对话中保持一致性仍然是LLM的一个基本挑战，因为标准检索机制通常无法捕捉历史状态的时间演变。虽然记忆增强框架提供了一种结构化的替代方案，但现有系统依赖于封闭源模型的静态提示或受到稀疏奖励训练范式的限制。我们引入了MemBuilder，一种强化学习框架，用于训练模型通过属性密集奖励协调多维记忆构建。MemBuilder解决了两个关键挑战：（1）稀疏轨迹级奖励：我们采用合成会话级问题生成，在扩展轨迹中提供密集的中间奖励；（2）多维记忆归因：我们引入了基于贡献感知梯度加权的方法，根据每个组件的下游影响进行策略更新。实验结果表明，MemBuilder使一个4B参数模型能够超越最先进的封闭源基线，在长期对话基准测试中表现出强大的泛化能力。

LLM Memory Construction Reinforcement Learning Dialogue Systems

论文直接聚焦于LLM的长期记忆构建，提出MemBuilder框架，属于Agent Memory核心研究。

MineNPC-Task：面向具备记忆能力的Minecraft智能体的任务套件

MineNPC-Task: Task Suite for Memory-Aware Minecraft Agents

Tamil Sudaravan Mohan Doss, Michael Xu, Sudha Rao, Andrew D. Wilson, Balasaravanan Thoravi Kumaravel

Tamil Sudaravan Mohan Doss (Microsoft) | Michael Xu (Microsoft ResearchUnited States) | Sudha Rao (Microsoft ResearchUnited States)

9/10 2026-01-08 cs.AI PDF

本文提出MineNPC-Task，一个由用户构建的基准与评估框架，用于在开放世界《我的世界》中测试具备记忆能力、支持混合主动性的大语言模型智能体。任务源自与专家玩家的协作游戏，经规范化为带显式前提条件与依赖结构的参数化模板，并配以机器可验证的校验器，遵循禁止利用外部知识的有限知识策略。该框架记录计划/行动/记忆事件（包括计划预览、定向澄清、记忆读写、前提检查与修复尝试），并基于游戏内证据统计子任务完成情况。初步实验使用GPT-4o，在8名资深玩家参与下评估了216个子任务，揭示了代码执行、物品/工具操作、引用与导航中的常见失败模式，以及依赖混合主动性澄清和轻量记忆的恢复机制。参与者对交互质量与界面可用性给予积极评价，同时指出跨任务记忆持久性的不足。作者开源完整任务套件、验证器、日志与评估框架，以支持未来具身记忆智能体的透明、可复现评估。

Agent Memory Embodied AI

论文聚焦于评估具有记忆能力的LLM智能体，明确设计记忆读写、持久性等机制。

基于智能体记忆增强的递归推理在微服务根因定位中的应用

Agentic Memory Enhanced Recursive Reasoning for Root Cause Localization in Microservices

Lingzhe Zhang, Tong Jia, Yunpeng Zhai, Leyi Pan, Chiming Duan et al.

Lingzhe Zhang (Peking UniversityBeijingChina) | Tong Jia∗ (Peking UniversityBeijingChina) | Yunpeng Zhai (Alibaba GroupChina)

9/10 2026-01-06 cs.SE PDF

随着微服务系统日益复杂，故障频发，准确的根因定位对保障系统可靠性至关重要。现有LLM方法常受限于浅层症状推理和缺乏跨告警复用，导致精度低、延迟高。本文通过调研多位站点可靠性工程师（SRE）的根因分析实践，提炼出递归性、多维扩展性和跨模态推理三大特征，并据此提出AMER-RCL框架。该框架结合递归推理引擎与智能体记忆（Agentic Memory），前者对每个告警进行递归细化候选根因，后者在时间窗口内累积并复用历史推理结果，减少冗余探索。实验表明，AMER-RCL在定位准确率和推理效率上均优于现有最先进方法。

Agent Memory Root Cause Localization

论文提出Agentic Memory机制，作为核心组件用于跨告警推理复用，显著提升效率与准确性。

用于大语言模型持续适应的记忆库压缩方法

Memory Bank Compression for Continual Adaptation of Large Language Models

Thomas Katraouras, Dimitrios Rafailidis

9/10 2026-01-02 cs.LG PDF

大语言模型（LLMs）在日常应用中广泛使用，但其知识易随数据演化而过时。持续学习旨在更新模型知识而不遗忘旧信息，但全量微调计算成本高且易导致灾难性遗忘。现有记忆增强方法通过外部记忆库存储信息，但在真实场景中面临记忆库无限增长的问题。本文提出MBC模型，通过码本优化策略在线压缩记忆库，并引入在线重置机制防止码本坍塌。同时，在LLM注意力层采用键值低秩适配（Key-Value LoRA），高效利用压缩后的记忆表示。实验表明，MBC在保持高保留准确率的同时，将记忆库规模压缩至最强基线的0.3%。

记忆压缩持续学习

论文聚焦于LLM外部记忆库的压缩机制，直接研究Agent Memory核心问题。

Code

人际记忆至关重要：一种利用对话历史的主动对话新任务

Interpersonal Memory Matters: A New Task for Proactive Dialogue Utilizing Conversational History

Bowen Wu, Wenqing Wang, Haoran Li, Ying Li, Jingsong Yu et al.

9/10 2025-03-07 cs.CL PDF

主动对话系统旨在使聊天机器人具备引导对话朝特定目标推进的能力，以提升用户参与度与服务自主性。现有系统通常仅关注预定义关键词或实体，忽视了对话历史中隐含的用户属性与偏好，难以建立长期用户亲密度。为此，本文提出将主动对话系统与长期记忆机制融合的统一框架，定义了名为“记忆感知主动对话”（MapDia）的新任务，并构建了首个中文记忆感知主动对话数据集（ChMapData）。此外，设计了一个基于检索增强生成（RAG）的联合框架，包含话题摘要、话题检索及主动话题转换检测与生成三个模块，以在适当时机引导对话回归相关历史话题。通过自动与人工评估验证了数据集与模型的有效性。

Agent Memory Proactive Dialogue

论文核心聚焦于将长期记忆融入主动对话系统，明确提出记忆感知任务。

Code

OpenSage：自编程代理生成引擎

OpenSage: Self-programming Agent Generation Engine

Hongwei Li, Zhun Wang, Qinrun Dai, Yuzhou Nie, Jinjun Peng et al.

8/10 2026-02-18 cs.AI PDF

代理开发工具包（ADKs）为构建代理提供了有效的平台和工具，其设计对代理性能至关重要，尤其是代理拓扑、工具和记忆功能。然而，当前ADKs要么缺乏足够的功能支持，要么依赖人工手动设计这些组件，限制了代理的泛化能力和整体性能。我们提出了OpenSage，这是首个使LLM能够自动创建具有自生成拓扑和工具集的代理，并提供全面且结构化的记忆支持的ADK。OpenSage为代理创建和管理自己的子代理和工具包提供了有效功能，并具备一种分层的图基记忆系统以实现高效管理，以及专门针对软件工程任务的工具包。在三个最先进的基准测试中进行的广泛实验表明，OpenSage优于现有的ADK。我们还进行了严格的消融研究，以证明每个组件设计的有效性。我们认为，OpenSage可以为下一代代理开发铺平道路，将重点从以人为中心的范式转向以AI为中心的范式。

Agent Memory LLM ADK Self-programming Agent Graph-based Memory

论文提出基于LLM的ADK，明确包含结构化记忆系统，是核心研究内容。

通过渐进式思维编码高效训练大型推理模型

Training Large Reasoning Models Efficiently via Progressive Thought Encoding

Zeliang Zhang, Xiaodong Liu, Hao Cheng, Hao Sun, Chenliang Xu et al.

8/10 2026-02-18 cs.LG PDF

大型推理模型（LRMs）在复杂问题上表现出色，但面临效率瓶颈：基于强化学习的训练需要长序列展开以获取结果奖励，而自回归解码主导了时间和内存使用。尽管滑动窗口缓存策略可以限制内存，但会破坏长上下文推理并降低性能。本文提出渐进式思维编码（Progressive Thought Encoding），一种参数高效的微调方法，使LRMs能够在固定大小缓存下有效推理。通过逐步将中间推理过程编码为固定大小的向量表示，该方法消除了对完整缓存展开进行反向传播的需求，从而减少内存使用，并在推理过程中保持恒定内存。在Qwen2.5-3B-Instruct、Qwen2.5-7B-Instruct和DeepSeek-R1-Distill-Llama-8B等三个模型上进行实验，针对六个广泛使用的数学基准测试显示一致的提升效果：该方法在LoRA微调基础上平均提高19.3%，在未微调的LRMs基础上平均提高29.9%，在AIME2024/2025数据集上最高准确率提升达23.4%。这些结果表明，渐进式思维编码不仅提高了推理准确性，还在现实世界内存约束下显著提升了LRMs的强化学习训练效率和可扩展性。

Agent Memory LLM训练优化缓存管理推理效率

论文核心聚焦于通过固定大小缓存提升推理效率，直接涉及Agent Memory机制与优化。

基于下一段预测的强化快速权重

Reinforced Fast Weights with Next-Sequence Prediction

Hee Seung Hwang, Xindi Wu, Sanghyuk Chun, Olga Russakovsky

8/10 2026-02-18 cs.CL PDF

快速权重架构为长上下文建模提供了一种有前景的替代方案，其内存开销与上下文长度无关。然而，其潜力受到下一个标记预测（NTP）训练范式的限制。NTP优化单个标记预测，忽略了前缀后多个标记的语义一致性。因此，快速权重模型通过动态更新参数存储上下文信息，学习到的表示无法捕捉长期依赖关系。本文引入REFINE（基于下一段预测的强化快速权重），一种强化学习框架，在下一段预测（NSP）目标下训练快速权重模型。REFINE基于预测熵选择信息量大的标记位置，生成多标记展开，分配自监督序列级奖励，并使用组相对策略优化（GRPO）优化模型。REFINE适用于预训练语言模型的整个训练周期：中期训练、后期训练和测试时训练。我们在LaCT-760M和DeltaNet-1.3B上的实验表明，REFINE在针尖定位检索、长上下文问答以及LongBench中的多样化任务上始终优于基于NTP的监督微调。REFINE为改进快速权重架构中的长上下文建模提供了有效且通用的框架。

快速权重长上下文建模强化学习序列预测

论文核心研究快速权重架构在长上下文建模中的记忆机制，提出改进方法REFINE以优化长期依赖。

从人类反馈中学习个性化代理

Learning Personalized Agents from Human Feedback

Kaiqu Liang, Julia Kruk, Shengyi Qian, Xianjun Yang, Shengjie Bi et al.

8/10 2026-02-18 cs.AI PDF

现代AI代理虽然功能强大，但往往难以与用户的个性化、动态变化的偏好保持一致。现有方法通常依赖静态数据集，通过交互历史训练隐式偏好模型或在外部存储中编码用户画像，但这些方法在面对新用户和随时间变化的偏好时表现不佳。本文提出了一种名为PAHF（从人类反馈中学习个性化代理）的框架，用于实现持续个性化，代理通过显式的每用户记忆在线学习实时交互数据。PAHF包含一个三步循环：（1）在行动前寻求澄清以解决歧义；（2）根据从记忆中检索出的偏好来指导行动；（3）通过行动后的反馈更新记忆以适应偏好的变化。为评估该能力，作者开发了一个四阶段协议及两个基准测试，分别应用于具身操作和在线购物场景。这些基准测试量化了代理从零开始学习初始偏好并随后适应角色转变的能力。理论分析与实验结果表明，将显式记忆与双通道反馈相结合至关重要：PAHF显著加快了学习速度，并且始终优于无记忆和单通道基线方法，减少了初始个性化误差并实现了对偏好变化的快速适应。

Agent Memory 个性化学习人机交互持续学习

论文核心围绕基于显式用户记忆的个性化代理框架，明确涉及Agent Memory机制与更新。

何时记忆与规划值得：在变化中的导航

When Remembering and Planning are Worth it: Navigating under Change

Omid Madani, J. Brian Burns, Reza Eghbali, Thomas L. Dean

8/10 2026-02-17 cs.AI PDF

本文研究了不同类型和用途的记忆如何帮助智能体在不断变化的不确定环境中进行空间导航。在所研究的简单觅食任务中，智能体每天需要从其家园穿过障碍物找到食物。世界是非平稳的，障碍物和食物的位置可能每天变化，且智能体的感知信息（如位置）具有不确定性和局限性。任何模型构建（如地图）和使用（如规划）都必须应对这些挑战，并且如果学习有用，必须足够快速。我们考察了多种策略，从简单到复杂，涉及不同的记忆和学习方式。我们发现，一种能够整合多种策略的架构是处理不同性质子任务的关键，尤其是在探索和搜索未知食物位置时，以及在规划通往已记住的（可能）食物位置的路径时。利用非平稳概率学习技术不断更新其（情景记忆）并使用这些记忆构建地图和实时规划（不完美的地图，即嘈杂且受限于智能体经验）的智能体，在任务难度（如目标距离）增加时，相较于简单的（低记忆）智能体，效率显著提高，只要定位和变化带来的不确定性不是太大。

Agent Memory Spatial Navigation Non-stationary Environments Probabilistic Learning Path Planning

论文核心研究记忆在动态环境中的应用，探讨记忆机制对导航和规划的影响。

HyperRAG：通过超图推理n元事实以增强检索生成

HyperRAG: Reasoning N-ary Facts over Hypergraphs for Retrieval Augmented Generation

Wen-Sheng Lien, Yu-Kai Chan, Hao-Lung Hsiao, Bo-Kai Ruan, Meng-Fen Chiang et al.

Wen-Sheng Lien (National Yang Ming Chiao Tung UniversityHsinchuTaiwan) | Yu-Kai Chan (National Yang Ming Chiao Tung UniversityHsinchuTaiwan) | Hao-Lung Hsiao (National Yang Ming Chiao Tung UniversityHsinchuTaiwan)

8/10 2026-02-16 cs.CL PDF

基于图的检索增强生成（RAG）方法通常依赖于具有二元关系事实的知识图谱，在多跳开放域问答任务中表现出一定潜力。然而，其固定的检索方案和密集相似性搜索常引入无关上下文、增加计算开销并限制关系表达能力。相比之下，n元超图能够编码更高阶的关系事实，捕捉更丰富的实体间依赖关系，并实现更浅层、更高效的推理路径。为解决这一问题，本文提出HyperRAG，一种针对n元超图设计的RAG框架，包含两种互补的检索变体：HyperRetriever通过结构-语义推理构建查询条件下的关系链，支持准确的事实追踪、自适应高阶遍历和可解释的多跳推理；HyperMemory则利用LLM的参数化记忆指导束搜索，动态评分n元事实与实体以实现查询感知的路径扩展。在WikiTopics（11个封闭域数据集）和三个开放域问答基准（HotpotQA、MuSiQue和2WikiMultiHopQA）上的广泛评估验证了HyperRAG的有效性。HyperRetriever在整体答案准确性上表现最佳，平均MRR提升2.95%，Hits@10提升1.23%。定性分析进一步表明，HyperRetriever通过自适应且可解释的n元链构建弥合了推理差距，对开放域和封闭域问答均有帮助。

Agent Memory RAG 知识图谱超图推理多跳问答

论文核心提出HyperMemory，基于LLM参数记忆进行路径扩展，属于Agent Memory机制的核心研究。

CORPGEN：在多时间跨度任务环境中使用自主数字员工模拟企业环境

CORPGEN: Simulating Corporate Environments with Autonomous Digital Employees in Multi-Horizon Task Environments

Abubakarr Jaye, Nigel Boachie Kumankumah, Chidera Biringa, Anjel Shaileshbhai Patel, Sulaiman Vesal et al.

8/10 2026-02-15 cs.AI PDF

长期任务推理是自主代理的关键挑战，但现有基准仅评估单个任务。实际组织工作需要管理多个并发的长期任务，涉及交错、依赖和重新优先级。本文提出多时间跨度任务环境（MHTEs），要求在持续执行上下文中协调数十个交错任务（45+，500-1500+步骤）。我们识别出四种导致基线CUA完成率从16.7%下降到8.7%的失败模式，并提出CorpGen框架，通过分层规划、子代理隔离、分级记忆（工作、结构化、语义）和自适应摘要解决这些问题。CorpGen通过具有持久身份和现实日程的数字员工模拟企业环境，在OSWorld Office上实现比基线3.5倍的性能提升。

Agent Memory Multi-Horizon Tasks Digital Employees Hierarchical Planning Memory Architecture

论文核心研究多时间跨度任务环境中的记忆机制与架构设计，明确涉及Memory相关问题。

MAGE：块扩散LLM中首个All-[MASK]块已知如何查找位置

MAGE: All-[MASK] Block Already Knows Where to Look in Diffusion LLM

Omin Kwon, Yeonjae Kim, Doyeon Kim, Minseo Kim, Yeonhong Park et al.

8/10 2026-02-15 cs.LG PDF

块扩散语言模型（Block diffusion LLMs）作为语言生成的新兴范式，其使用键值（KV）缓存导致在长上下文场景下内存访问成为主要瓶颈。尽管动态稀疏注意力已被广泛探索，但现有针对自回归LLM的方法依赖于近似重要性估计，在适应块扩散模型时表现不佳。本文识别出块扩散模型的一个关键机会：在首次All-[MASK]去噪步骤中的注意力能够可靠地预测重要的KV条目和预算需求，使MAGE能够在每个块上执行一次精确的注意力传递，并将其用于无训练的稀疏去噪。在LongBench和Needle-in-a-Haystack等长上下文基准测试中，MAGE在仅使用少量KV预算的情况下实现了接近无损的精度，并带来了高达3-4倍的端到端加速，持续优于基于自回归的稀疏注意力基线。一种轻量级的微调策略进一步强化了[MASK]引导的模式，成本极低，仅需在单个NVIDIA H100 GPU上进行数小时的训练即可适用于1.5B和7B模型。

KV缓存稀疏注意力块扩散模型长上下文处理 Agent Memory

论文聚焦于块扩散LLM中的KV缓存瓶颈，提出MAGE方法优化内存访问，属于Agent Memory核心研究。

空货架还是丢失的钥匙？回忆是参数化事实性的瓶颈

Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

Nitay Calderon, Eyal Ben-David, Zorik Gekhman, Eran Ofek, Gal Yona

Nitay Calderon (Technion) | Zorik Gekhman (Google Research, Technion - Israel Institute of technology)

8/10 2026-02-15 cs.CL PDF

标准的事实性评估将所有错误视为相同，掩盖了失败是源于知识缺失（空货架）还是对已编码事实的访问受限（丢失的钥匙）。本文提出一种行为框架，从事实层面而非问题层面分析事实知识，通过是否编码以及可访问性（无法回忆、可直接回忆或需推理计算回忆）进行分类。为支持此类分析，我们引入WikiProfile基准，该基准通过基于网络搜索的提示LLM自动构建。在13个LLM的400万次响应中发现，前沿模型在本基准上编码几乎饱和，GPT-5和Gemini-3编码了95%-98%的事实。然而，回忆仍是主要瓶颈：许多原本归因于知识缺失的错误实际上源于无法访问已有知识。这些失败具有系统性，且特别影响长尾事实和反向问题。最后，我们表明推理可以提高回忆能力，并能恢复大量错误，表明未来进展可能更多依赖于提升模型利用已有编码知识的方法，而非单纯扩展规模。

LLM Factuality Memory Recall Benchmarking Knowledge Encoding

论文聚焦于LLM中事实记忆的编码与召回机制，直接涉及Agent Memory的核心问题。

面向分层LLM架构的异步验证语义缓存

Asynchronous Verified Semantic Caching for Tiered LLM Architectures

Asmit Kumar Singh, Haozhe Wang, Laxmi Naga Santosh Attaluri, Tak Chiam, Weihua Zhu

8/10 2026-02-13 cs.IR PDF

大型语言模型（LLMs）现在处于搜索、辅助和智能体工作流的关键路径上，因此语义缓存对于降低推理成本和延迟至关重要。生产部署通常采用分层静态-动态设计：静态缓存由从日志中挖掘并经过离线验证的精选响应组成，动态缓存则在线填充。实践中，两个层级通常由单一嵌入相似度阈值控制，导致保守阈值会错过安全重用机会，而激进阈值可能带来语义错误响应的风险。本文提出了一种名为Krites的异步、由LLM判断的缓存策略，能够在不改变服务决策的前提下扩展静态覆盖范围。在关键路径上，Krites的行为与标准静态阈值策略完全一致。当提示符的最近静态邻居刚好低于静态阈值时，Krites异步调用LLM判断器以验证静态响应是否适用于新提示。通过验证的匹配项将被提升至动态缓存，使未来的重复和改写请求能够复用精选的静态答案，并随着时间推移扩大静态覆盖范围。在基于跟踪的模拟实验中，Krites相比调优基线，在对话流量和搜索类查询中将使用精选静态答案的请求数量提高了最多3.9倍，且关键路径延迟保持不变。

语义缓存 LLM代理缓存优化分层架构

论文核心研究语义缓存机制，属于Agent Memory系统设计范畴，直接优化静态与动态缓存策略。

受人类启发的内部推理过程连续学习：为自适应AI系统学习如何思考

Human-Inspired Continuous Learning of Internal Reasoning Processes: Learning How to Think for Adaptive AI Systems

Hong Su

8/10 2026-02-12 cs.AI PDF

学习内部推理过程对于开发能够在动态现实环境中持续适应的AI系统至关重要。然而，现有方法主要强调任务特定输出或静态知识表示，忽视了内部推理结构、行动调度策略和学习机制本身的持续优化。本文提出了一种受人类启发的连续学习框架，通过并行学习增强的顺序推理模型，统一了推理、行动、反思和验证过程。该框架将内部思维过程视为主要的学习对象，并系统地记录内部推理轨迹和环境交互作为结构化学习材料，使系统不仅优化任务级内容，还能优化推理活动的组织、调度和演化。该设计实现了处理与学习的同步，使认知结构在执行过程中得到提升。此外，框架支持预定义逻辑的受控替换，并引入了一个分层的学习机制，联合调整任务级参数和学习策略。实验结果表明，在温度传感器异常检测任务中，结合内部过程学习可使平均运行时间减少23.9%。

Agent Memory 持续学习认知架构推理过程自适应AI

论文核心聚焦于内部推理过程的持续学习，涉及认知结构的优化与记忆轨迹的记录，属于Agent Memory机制的核心研究。

Thought画布：通过可变结构状态进行推理

Canvas-of-Thought: Grounding Reasoning via Mutable Structured States

Lingzhuang Sun, Yuxia Zhu, Ruitong Liu, Hao Liang, Zheng Sun et al.

8/10 2026-02-11 cs.CL PDF

尽管Chain-of-Thought（CoT）提示方法显著提升了多模态大语言模型（MLLMs）的推理能力，但仅依赖线性文本序列在复杂任务中存在瓶颈。我们发现，即使引入辅助视觉元素，它们通常也被视为一维、无结构推理链中的静态快照。我们认为现有方法将推理历史视为不可变流：纠正局部错误需要生成冗长的后续修正或重新生成整个上下文，迫使模型隐式维护和跟踪状态更新，显著增加计算开销和认知负担。这一限制在高维领域（如几何和SVG设计）尤为明显，因为CoT的文本表达缺乏显式的视觉指导，进一步限制了推理精度。为弥补这一差距，我们提出了Canvas-of-Thought（Canvas-CoT）。通过利用HTML Canvas作为外部推理基板，Canvas-CoT使模型能够执行基于DOM的原子CRUD操作。该架构允许在不破坏周围上下文的情况下进行原地状态修订，使模型能够显式维护“真实状态”。此外，我们集成了基于渲染的批评循环，作为硬约束验证器，提供显式视觉反馈以解决难以仅用文本描述的复杂任务。在VCode、RBench-V和MathVista上的大量实验表明，Canvas-CoT显著优于现有基线，确立了一种新的上下文高效多模态推理范式。

Agent Memory Multimodal Reasoning Canvas-based System State Management

论文提出Canvas-CoT，通过外部HTML Canvas实现状态维护与更新，直接涉及Agent Memory机制。

通过预稀疏实现近似最优的KV选择以支持长上下文推理

Near-Oracle KV Selection via Pre-hoc Sparsity for Long-Context Inference

Yifei Gao, Lei Wang, Rong-Cheng Tu, Qixin Zhang, Jun Cheng et al.

8/10 2026-02-09 cs.LG PDF

大语言模型（LLM）推理中的核心瓶颈是随着键值（KV）缓存增长带来的计算成本。尽管近似最优的top-k KV选择可以在保持密集注意力质量的同时显著减少计算和带宽需求，但现有稀疏方法通常依赖后验启发式策略，即基于观察到的注意力或代理分数进行选择。这种条件引入了后验偏差，容易扭曲真实token的重要性并遗漏关键token，从而影响长距离推理能力。为解决这一问题，本文提出预稀疏（PrHS）方法，在注意力评分之前选择KV条目，并提供显式的精度控制。通过边际到互信息分析，推导出仅依赖丢弃质量的互信息损失上界，解释了后验启发式的失效模式，并通过提前控制丢弃质量实现可验证的保证。在PrHS中，沿时间、深度和层三个维度实例化了三种正交的预稀疏选择器。在LLaMA和Mistral系列上的大量实验验证了PrHS的有效性。在GSM8K和CoQA数据集上，PrHS将检索开销减少了90%以上，在匹配或更优精度下实现了比HShare高3倍的检索稀疏度。其在LongBench上的平均性能下降低于1%，相比先前稀疏基线减少了约15%的注意力FLOPs，并在NVIDIA A100-80GB GPU上实现了比密集基线快9.9倍的注意力操作延迟和2.8倍的吞吐量。

KV缓存优化稀疏注意力长上下文推理 LLM推理效率

论文聚焦于KV缓存选择机制，直接涉及Agent Memory中的关键问题，提出预稀疏方法优化长上下文推理。

Free(): 在仅使用Malloc的推理模型中学习遗忘

Free(): Learning to Forget in Malloc-Only Reasoning Models

Yilun Zheng, Dongyang Ma, Tian Liang, Jiahao Xu, Xinting Huang et al.

8/10 2026-02-08 cs.AI PDF

推理模型通过扩展测试时计算能力来增强问题解决能力，但面临一个关键悖论：过多的思考标记往往会降低性能。我们将其归因于架构上的根本缺陷：标准LLMs作为“仅malloc”的引擎，持续累积有效和冗余步骤，而没有机制来修剪过时信息。为打破这一循环，我们提出了Free()LM，该模型通过可插拔的LoRA适配器Free-Module引入内在的自我遗忘能力。通过在推理和清理模式之间迭代切换，Free()LM动态识别并修剪无用上下文块，从而保持紧凑且无噪声的状态。大量实验表明，Free()LM在所有模型规模（8B到685B）上均取得一致改进，平均比顶级推理基线提升3.3%，甚至在IMOanswerBench上使用DeepSeek V3.2-Speciale实现了新的SOTA。特别值得注意的是，在标准Qwen3-235B-A22B模型在长周期任务中完全崩溃（0%准确率）的情况下，Free()LM将性能恢复至50%。我们的发现表明，可持续智能需要与思考能力一样强大的遗忘自由。

LLM Agent Memory Self-forgetting LoRA Reasoning Optimization

论文核心提出了一种自遗忘机制，直接针对LLM推理过程中信息冗余和无效内容积累的问题，属于Agent Memory机制的核心研究。

MIND：在世界模型中评估记忆一致性和动作控制的基准测试

MIND: Benchmarking Memory Consistency and Action Control in World Models

Yixuan Ye, Xuanyu Lu, Yuxin Jiang, Yuchao Gu, Rui Zhao et al.

8/10 2026-02-08 cs.CV PDF

世界模型旨在理解、记忆并预测动态视觉环境，但目前缺乏一个统一的基准来评估其基本能力。为弥补这一不足，我们引入了MIND，这是首个用于评估世界模型中记忆一致性与动作控制的开放领域闭环重访基准。MIND包含250个高质量1080p和24 FPS视频，涵盖共享动作空间下的100个第一人称和100个第三人称视频片段，以及覆盖八个不同场景的25+25个跨动作空间片段。我们设计了一个高效的评估框架，用于衡量两个核心能力：记忆一致性和动作控制，捕捉不同视角下的时间稳定性和上下文连贯性。此外，我们设计了多种动作空间，包括不同的角色移动速度和相机旋转角度，以评估在共享场景下跨动作空间的动作泛化能力。为了便于未来在MIND上的性能基准测试，我们引入了MIND-World，一种新颖的交互式视频到世界的基线方法。大量实验表明了MIND的完整性，并揭示了当前世界模型中的关键挑战，包括长期记忆一致性维护和跨动作空间泛化的困难。

世界模型记忆一致性动作控制基准测试动作泛化

论文明确聚焦于世界模型中的记忆一致性与动作控制，是Agent Memory机制的核心研究。

Code

LOCA-bench：在可控和极端上下文增长下评估语言代理

LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth

Weihao Zeng, Yuzhen Huang, Junxian He

Yuzhen Huang (Hong Kong University of Science and Technology)

8/10 2026-02-08 cs.AI PDF

大型语言模型（LLMs）在执行长期、现实任务方面的能力不断增强。然而，随着上下文长度的增加，其可靠性往往会下降，这种现象被称为“上下文腐化”。现有的长上下文基准主要关注单步设置，评估模型从长片段中检索信息的能力。但在实际场景中，LLMs通常需要作为代理，在动态增长的上下文中探索环境、遵循指令和计划、提取有用信息并预测正确操作。为此，我们引入了LOCA-bench（用于长上下文代理的基准）。给定一个任务提示，LOCA-bench利用对环境状态的自动化和可扩展控制来调节代理的上下文长度。该设计使LOCA-bench能够在受控方式下将上下文长度潜在地扩展到无限，同时保持底层任务语义不变。LOCA-bench评估语言代理，包括模型和辅助结构的组合，涵盖各种上下文管理策略。尽管随着环境状态变得复杂，代理性能通常会下降，但先进的上下文管理技术可以显著提高整体成功率。我们开源了LOCA-bench，以提供一个平台，用于评估长上下文、代理场景中的模型和辅助结构。

Agent Memory Long-Context Benchmark Language Agents Context Management

论文聚焦于长上下文场景下的Agent性能评估，涉及上下文管理策略，与Agent Memory机制密切相关。

Code

Attn-GS：基于注意力引导的上下文压缩方法用于高效个性化大语言模型

Attn-GS: Attention-Guided Context Compression for Efficient Personalized LLMs

Shenglai Zeng, Tianqi Zheng, Chuan Tian, Dante Everaert, Yau-Shian Wang et al.

8/10 2026-02-08 cs.CL PDF

将大型语言模型（LLMs）个性化到特定用户需要整合大量的交互历史和用户资料，但由于输入令牌限制，这在实际中因高推理延迟和API成本而难以实现。现有方法依赖启发式策略，如选择近期交互或提示摘要模型压缩用户资料，但这些方法将上下文视为整体，未能考虑LLMs如何内部处理和优先化不同资料组件。本文研究LLMs的注意力模式是否能有效识别重要的个性化信号以进行智能上下文压缩。通过代表性个性化任务的初步研究，发现（a）LLMs的注意力模式自然揭示重要信号，（b）微调增强了LLMs区分相关信息与无关信息的能力。基于这些发现，本文提出Attn-GS框架，利用标记模型的注意力反馈来标记重要的个性化句子，然后指导压缩模型生成任务相关且高质量的压缩用户上下文。大量实验表明，Attn-GS在不同任务、令牌限制和设置下显著优于各种基线方法，在保持接近完整上下文性能的同时，将令牌使用量减少了50倍。

LLM Attention Mechanism Context Compression Personalization Memory Optimization

论文核心研究基于LLM注意力机制的上下文压缩，直接关联Agent Memory的优化与实现。

ParisKV: 针对长上下文LLM的快速且抗漂移的KV缓存检索方法

ParisKV: Fast and Drift-Robust KV-Cache Retrieval for Long-Context LLMs

Yanlin Qi, Xinhang Chen, Huiqiang Jiang, Qitong Wang, Botao Peng et al.

8/10 2026-02-07 cs.LG PDF

KV缓存检索对于长上下文LLM的推理至关重要，但现有方法在大规模场景下面临分布漂移和高延迟问题。本文提出ParisKV，一种基于碰撞候选选择和量化内积重排序估计器的、具有抗漂移特性的GPU原生KV缓存检索框架。对于百万token的上下文，ParisKV通过统一虚拟寻址（UVA）支持CPU卸载的KV缓存，并实现按需top-k获取，开销极小。ParisKV在长输入和长生成基准测试中匹配或优于全注意力机制的质量。其在长上下文解码效率方面达到最先进水平：在批量大小为1时，其速度可匹敌甚至超过全注意力机制；在全注意力可运行范围内，吞吐量最高可达其2.8倍；并能扩展到全注意力无法处理的百万token上下文。在百万token规模上，ParisKV相比MagicPIG和PQCache两种最先进的KV缓存Top-k检索基线，分别将解码延迟降低了17倍和44倍。

KV-cache 长上下文 LLM推理优化内存管理高效检索

论文聚焦KV-cache检索，直接涉及长上下文LLM的内存管理与优化，是Agent Memory机制的核心研究。

TKG-Thinker：通过智能体强化学习实现时序知识图谱上的动态推理

TKG-Thinker: Towards Dynamic Reasoning over Temporal Knowledge Graphs via Agentic Reinforcement Learning

Zihao Jiang, Miao Peng, Zhenyan Shan, Wenjie Xu, Ben Liu et al.

Miao Peng (Wuhan University)

8/10 2026-02-05 cs.AI PDF

时序知识图谱问答（TKGQA）旨在利用时序知识库回答时间敏感的问题。尽管大语言模型（LLMs）在TKGQA中展现出巨大潜力，但当前的提示策略在两个方面限制了其效果：首先，在复杂的时间约束下容易产生推理幻觉；其次，静态提示限制了模型的自主性和泛化能力，因为缺乏与时序知识图谱（TKGs）环境的动态交互优化。为了解决这些限制，我们提出了TKG-Thinker，一种具备自主规划和自适应检索能力的新颖智能体，用于在时序知识图谱上进行推理。具体而言，TKG-Thinker通过双训练策略与TKGs进行深度时序推理，包括多轮动态交互。我们首先使用链式思维数据进行监督微调（SFT），以培养核心规划能力，随后通过强化学习（RL）阶段利用多维奖励来优化复杂时间约束下的推理策略。实验结果表明，TKG-Thinker在三个开源大语言模型上的基准数据集上实现了最先进的性能，并在复杂的TKGQA设置中表现出强大的泛化能力。

Agent Memory Temporal Knowledge Graphs Reinforcement Learning Reasoning

论文核心研究基于Agent的动态记忆与推理机制，提出TKG-Thinker系统以增强模型对时序知识图谱的记忆和推理能力。

为高效检索增强生成修剪最小推理图

Pruning Minimal Reasoning Graphs for Efficient Retrieval-Augmented Generation

Ning Wang, Kuanyan Zhu, Daniel Yuehwoon Yee, Yitang Gao, Shiying Huang et al.

8/10 2026-02-04 cs.DB PDF

检索增强生成（RAG）已成为知识密集型LLM任务的标准方法，但现有系统通常将每个查询视为独立处理，导致重复检索和推理，增加计算成本。本文提出AutoPrunedRetriever，一种基于图结构的RAG系统，通过持久化早期问题构建的最小推理子图，并逐步扩展以处理后续问题。该系统使用紧凑的ID索引代码本存储实体和关系，将问题、事实和答案表示为边序列，从而在符号结构上进行检索和提示。为了保持图的紧凑性，采用两层整合策略（快速ANN/KNN别名检测和达到内存阈值后的选择性k-means），并修剪低价值结构，同时保留重叠代表和真正的新证据。实验表明，在GraphRAG-Benchmark（医学和新领域）上，两种变体均达到最先进的复杂推理准确率，优于HippoRAG2约9-11分，并在上下文摘要和生成任务中保持竞争力。在更难的STEM和TV基准测试中，AutoPrunedRetriever再次排名第一，且使用的token数量比基于图的基线少两个数量级，使其成为长期会话、动态语料库和多代理流水线的实用基础。

Agent Memory RAG Graph Structure Efficient Retrieval Multi-Agent Systems

论文提出了一种基于图结构的RAG系统，核心是通过持久化和扩展最小推理子图实现高效记忆管理。

通过发现和重放潜在动作实现LLM推理的内化

Internalizing LLM Reasoning via Discovery and Replay of Latent Actions

Zhenning Shi, Yijia Zhu, Junhan Shi, Xun Zhang, Lei Wang et al.

8/10 2026-02-04 cs.LG PDF

将推理过程内化为隐藏状态已成为提高测试时计算效率的重要范式。然而现有激活引导方法依赖静态控制向量，难以适应复杂推理任务的非平稳演变。为此，我们提出STIR（用于内部推理的自蒸馏工具），将推理增强重新表述为动态潜在轨迹控制问题。STIR引入了一个协同的三阶段流程：（1）差分内在动作诱导提取潜在推理成功案例以固化引导原语；（2）稀疏控制基构建精选出一个紧凑且几何多样化的工具库；（3）价值调制轨迹干预通过锚点门控动态注入上下文相关的脉冲。在四个代表性模型上的六个算术和逻辑基准测试中，STIR在保持平均准确率提升1.9%至7.5%的同时，减少了高达35%的平均token消耗。这些结果表明，通过动态潜在轨迹控制可以实现显式推理链的好处，在不显式生成的情况下实现更高的保真度。

LLM Agent Memory 潜在轨迹控制推理优化动态控制

论文聚焦于LLM推理过程的隐状态控制，涉及动态轨迹管理与记忆机制，属于Agent Memory核心研究。

Code

模拟采纳：解耦LLM上下文冲突解决中的幅度与方向

Simulated Adoption: Decoupling Magnitude and Direction in LLM In-Context Conflict Resolution

Long Zhang, Fangwei Lin

8/10 2026-02-04 cs.LG PDF

大型语言模型（LLMs）经常优先考虑上下文中的冲突信息而非预设参数记忆，这一现象通常被称为顺从或迎合行为。然而，这种行为的机制尚不明确，特别是模型如何通过顺从解决这些知识冲突，以及这种抑制是由于残差流中信号幅度稀释还是方向性几何改变所致。为此，我们对Qwen-4B、Llama-3.1-8B和GLM-4-9B进行了逐层几何分析，将反事实上下文引起的残差流更新分解为径向（基于范数）和角度（基于余弦）成分。实证结果否定了“流形稀释”假设的普遍性，因为其中两种架构在事实查询性能显著下降的情况下仍保持了稳定的残差范数。相反，我们观察到顺从行为始终表现为“正交干扰”，即冲突上下文注入了一个近似正交于真实方向的引导向量，有效旋转了隐藏状态表示。这表明模型并未“遗忘”或抑制内部真相的幅度，而是采用了几何位移机制绕过正确的解码向量，从而在保留原始结构幅度的同时模拟采纳行为。这些发现挑战了标量置信度指标检测幻觉的能力，并强调了需要向量监控以区分真实知识整合与表面化的上下文模仿。

LLM Agent Memory Residual Stream In-Context Learning Geometric Analysis

论文核心研究LLM在上下文冲突中的记忆机制，涉及残差流几何分析与知识冲突解决。

面向软件工程代理的结构化、状态感知和执行基础推理研究

Towards Structured, State-Aware, and Execution-Grounded Reasoning for Software Engineering Agents

Tse-Hsun, Chen

Tse-Hsun (Peter) Chen (Software PErformance, Analysis, and Reliability (SPEAR) labConcordia UniversityMontrealQCCanada)

8/10 2026-02-04 cs.SE PDF

软件工程（SE）代理在支持各种软件工程任务方面展现出良好的能力。然而，当前的SE代理本质上是反应式的，主要基于对话历史和最新响应进行决策。这种设计缺乏显式的结构或持久的状态，使得长期推理变得困难。因此，SE代理难以在推理步骤中保持连贯的理解，无法根据新证据调整假设，也无法将执行反馈整合到系统状态的心理推理模型中。本文认为，为了进一步推动SE代理的发展，需要超越反应式行为，转向结构化、状态感知和执行基础的推理。我们概述了如何通过显式结构、持久且动态变化的状态以及执行基础反馈的整合，帮助SE代理在长期任务中实现更连贯和可靠的推理，并提出了下一代SE代理的初步发展路线图。

Agent Memory Software Engineering Agents Long-Horizon Reasoning State-Aware Systems

论文核心讨论SE代理的记忆结构与状态感知，强调长期推理中记忆机制的重要性。

视觉能替代文本在工作记忆中吗？来自视觉-语言模型中空间n-back任务的证据

Can Vision Replace Text in Working Memory? Evidence from Spatial n-Back in Vision-Language Models

Sichu Liang, Hongyu Zhu, Wenwen Wang, Deyu Zhou

Sichu Liang (Southeast University) | Hongyu Zhu11footnotemark:1 (Shanghai Jiao Tong University) | Wenwen Wang (Carnegie Mellon University)

8/10 2026-02-04 cs.CL PDF

工作记忆是智能行为的核心组成部分，为维持和更新任务相关信息提供动态的工作空间。近期的研究利用n-back任务来探测大型语言模型中的类似工作记忆行为，但尚不清楚当信息以视觉形式而非文本形式呈现时，是否会产生相似的计算过程。本文在控制条件下对Qwen2.5和Qwen2.5-VL模型进行了空间n-back任务测试，分别以文本渲染和图像渲染的网格形式呈现。结果显示，无论何种条件，模型在处理文本时的准确率和d'值均显著高于视觉输入。通过逐次试验的对数概率分析发现，名义上的2/3-back任务往往未能反映指定的延迟，而是与最近锁定比较对齐。此外，网格大小的变化影响了刺激流中的重复结构，从而改变了干扰和错误模式。这些结果促使我们对多模态工作记忆进行计算敏感的解释。

working memory vision-language models n-back task multimodal processing

论文直接探讨了视觉语言模型中的工作记忆机制，使用n-back任务进行评估，属于Agent Memory核心研究。

MemCast：基于经验条件推理的记忆驱动时间序列预测

MemCast: Memory-Driven Time Series Forecasting with Experience-Conditioned Reasoning

Xiaoyu Tao, Mingyue Cheng, Ze Guo, Shuo Yu, Yaguo Liu et al.

8/10 2026-02-03 cs.LG PDF

时间序列预测（TSF）在许多现实应用的决策中起着关键作用。近年来，基于大语言模型（LLM）的预测方法取得了显著进展。尽管这些方法有效，但现有方法往往缺乏显式的经验积累和持续进化能力。本文提出MemCast，一种学习到记忆的框架，将TSF重新表述为经验条件推理任务。具体而言，我们从训练集中学习经验并将其组织成层次化记忆结构，通过总结预测结果为历史模式、提炼推理轨迹为推理智慧、归纳提取的时间特征为一般规律来实现。在推理过程中，利用历史模式引导推理过程，使用推理智慧选择更优路径，而一般规律则作为反思迭代的标准。此外，为了实现持续进化，我们设计了一种动态置信度适应策略，在不泄露测试集分布的前提下更新单个条目的置信度。在多个数据集上的广泛实验表明，MemCast始终优于先前方法，验证了本方法的有效性。

时间序列预测记忆驱动经验条件推理 LLM

论文核心围绕Memory机制设计，提出基于记忆的时序预测框架，明确涉及记忆组织与推理过程。

Code

通用智能体包含世界模型，即使在部分可观测和随机性环境下

General Agents Contain World Models, even under Partial Observability and Stochasticity

Santiago Cifuentes

8/10 2026-02-03 cs.AI PDF

判断一个智能体是否具备其周围世界的模型，是理解其能力与局限性的关键步骤。在[10]中，研究者证明，在特定框架下，每个几乎最优且通用的智能体都拥有足够的环境知识，可以通过将其作为黑箱查询来近似重建环境。该结论依赖于智能体是确定性的且环境完全可观测的假设。本文通过将定理扩展到在部分可观测环境中运行的随机智能体，去除了这两个假设。这表明，随机智能体无法避免通过使用随机化来学习其环境。此外，通过弱化“通用性”的概念，进一步加强了结果，证明更弱的智能体也已经包含了其操作环境的世界模型。

世界模型部分可观测随机智能体智能体记忆理论分析

论文探讨了智能体在部分可观测和随机环境中是否包含世界模型，直接涉及Agent Memory的核心机制。

DeALOG：基于日志中介的去中心化多智能体推理框架

DeALOG: Decentralized Multi-Agents Log-Mediated Reasoning Framework

Abhijit Chakraborty, Ashish Raj Shekhar, Shiven Agarwal, Vivek Gupta

8/10 2026-02-01 cs.CL PDF

跨文本、表格和图像的复杂问答任务需要整合多样化的信息源，亟需一种支持专业化处理、协调性与可解释性的框架。本文提出DeALOG，一种用于多模态问答的去中心化多智能体框架。该框架包含表格、上下文、视觉、摘要与验证等专用智能体，通过共享的自然语言日志进行通信，该日志作为持久记忆载体。这种基于日志的方法在无中心控制的情况下实现协同错误检测与验证，提升系统鲁棒性。在FinQA、TAT-QA、CRT-QA、WikiTableQuestions、FeTaQA和MultiModalQA等多个基准上的评估表明其性能具有竞争力。分析证实共享日志、智能体专业化与验证机制对准确率至关重要。DeALOG通过模块化组件与自然语言通信提供了一种可扩展的解决方案。

多智能体系统记忆机制

提出基于共享日志的持久记忆机制，是多智能体协作的核心组件。

MonoScale：通过单调改进扩展多智能体系统

MonoScale: Scaling Multi-Agent System with Monotonic Improvement

Shuai Shao, Yixiang Liu, Bingwei Lu, Weinan Zhang

8/10 2026-01-30 cs.MA PDF

近年来，基于大语言模型的多智能体系统（MAS）快速发展，通常利用路由器分解任务并分配给专用智能体。直接扩展智能体池易因路由器对新增异构、不可靠智能体的冷启动而导致性能崩溃。本文提出MonoScale，一种面向扩展的更新框架，主动生成少量智能体条件化熟悉任务，从成功与失败交互中收集证据，并将其提炼为可审计的自然语言记忆以指导后续路由。我们将顺序增强形式化为上下文赌博机问题，并采用信任区域记忆更新策略，确保在各轮次接入过程中性能单调非递减。在GAIA和Humanity's Last Exam上的实验表明，随着智能体池扩大，系统性能稳定提升，优于朴素扩展及固定池强路由器基线。

Agent Memory Multi-Agent Systems

提出可审计的自然语言记忆机制用于路由决策，是系统核心组件。

不要浪费你的推理轨迹：回收搜索经验以实现高效的测试时扩展

Do Not Waste Your Rollouts: Recycling Search Experience for Efficient Test-Time Scaling

Xinglin Wang, Jiayi Shi, Shaoxiong Feng, Peiwen Yuan, Yiwei Li et al.

8/10 2026-01-29 cs.CL PDF

测试时扩展通过分配额外的推理计算资源来增强大语言模型的推理能力，但现有搜索策略通常将推理轨迹视为一次性样本，导致宝贵的中间洞察被丢弃，造成大量计算冗余。为此，本文提出“回收搜索经验”（RSE），一种无需训练的自引导策略，将测试时搜索从孤立尝试转变为累积过程。RSE通过将原始推理轨迹提炼为共享经验库，正向复用中间结论以跳过冗余推导，负向复用失败模式以剪枝已知死胡同。理论分析证明了RSE在复杂推理任务中相较独立采样的效率优势；在HMMT24、HMMT25、IMO-Bench和HLE上的实验表明，RSE在相近计算成本下显著优于强基线，达到最先进的扩展效率。

Agent Memory Test-Time Scaling

提出经验复用机制，构建共享记忆库以避免重复推理，核心涉及Agent记忆机制。

RecNet：面向智能体推荐系统的自演化偏好传播机制

RecNet: Self-Evolving Preference Propagation for Agentic Recommender Systems

Bingqian Li, Xiaolei Wang, Junyi Li, Weitao Li, Long Zhang et al.

Bingqian Li∗ (GSAI, Renmin University of ChinaBeijingChina) | Xiaolei Wang∗ (GSAI, Renmin University of ChinaBeijingChina) | Junyi Li (Department of Data Science, City University of Hong KongHong KongChina)

8/10 2026-01-29 cs.AI PDF

智能体推荐系统利用大语言模型（LLMs）建模复杂用户行为并支持个性化决策。然而，现有方法主要依赖稀疏、噪声大的显式用户-物品交互数据，难以捕捉用户与物品间的实时相互影响。为此，本文提出RecNet——一种自演化的偏好传播框架，主动在相关用户与物品间传播实时偏好更新。RecNet包含两个互补阶段：前向阶段通过中心化偏好路由机制，利用路由智能体整合并动态传播偏好至最相关智能体，并引入个性化偏好接收机制，结合消息缓冲区与可优化的规则记忆模块，基于过往经验与兴趣选择性吸收偏好；后向阶段则采用反馈驱动的传播优化机制，模拟多智能体强化学习框架，利用LLM进行信用分配、梯度分析与模块级优化，实现传播策略的持续自演化。大量实验验证了RecNet在建模推荐系统偏好传播中的有效性。

Agent Memory Preference Propagation

提出基于记忆机制的偏好传播框架，核心包含可优化的规则记忆模块。

超越记忆：在LLM持续学习中协调结构安全与可塑性

Beyond Retention: Orchestrating Structural Safety and Plasticity in Continual Learning for LLMs

Fei Meng

8/10 2026-01-26 cs.LG PDF

大型语言模型（LLMs）的持续学习面临稳定性和可塑性的平衡挑战。尽管经验回放（ER）是防止灾难性遗忘的标准方法，但其在不同任务上的影响尚未被充分研究。本文发现ER在稳健、非结构化任务上具有正向迁移效果，但在脆弱、结构化领域如代码生成中却导致严重负迁移。为解决这一问题，本文提出正交子空间唤醒（OSW）方法，通过短暂的“唤醒”阶段识别先前任务的关键参数子空间，并对新任务进行正交更新，从而提供数学支持的“安全性保证”。实验结果表明，OSW在保留脆弱编码能力方面优于传统回放方法，同时保持对新任务的高可塑性。研究强调了在LLM持续学习中评估结构安全的重要性。

持续学习结构安全参数子空间经验回放 LLM记忆

论文聚焦于LLM持续学习中的记忆稳定性与可塑性平衡，提出OSW方法以保障结构安全，属于Agent Memory核心研究。

随机化提升KV缓存，学习平衡查询负载：联合视角

Randomization Boosts KV Caching, Learning Balances Query Load: A Joint Perspective

Fangzhou Wu, Sandeep Silwal, Qiuyi, Zhang

8/10 2026-01-26 cs.LG PDF

KV缓存是一种通过重用先前查询的键值对来加速大语言模型（LLM）推理的基本技术，但其在有限内存下的有效性高度依赖于驱逐策略。默认的最近最少使用（LRU）驱逐算法难以应对动态在线查询到达的问题，尤其在多LLM服务场景中，平衡工作节点上的查询负载与最大化每个节点的缓存命中率是固有的冲突目标。本文首次提出一个统一的数学模型，捕捉KV缓存驱逐与查询路由之间的核心权衡关系。分析揭示了现有方法的理论局限性，并提出了结合可证明竞争性随机化KV缓存驱逐与基于学习的方法的算法，以自适应地处理具有演变模式的查询，从而实现查询负载与缓存命中率的平衡。理论结果通过4个基准和3种前缀共享设置的大量实验验证，展示了在缓存命中率、延迟、首词生成时间（TTFT）和吞吐量方面的显著提升。

KV缓存查询路由缓存命中率 LLM推理优化随机化算法

论文核心研究KV缓存机制及与内存管理相关的策略优化，属于Agent Memory机制的核心内容。

Code

大型语言模型在连续微调过程中灾难性遗忘的机制分析

Mechanistic Analysis of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning

Olaf Yunus Laitinen Imanov

Olaf Yunus Laitinen Imanov (Department of Applied Mathematics and Computer Science (DTU Compute), Technical University of Denmark, 2800 Kongens Lyngby, Denmark)

8/10 2026-01-26 cs.LG PDF

大型语言模型通过预训练和微调范式在各种任务中表现出色。然而，在连续任务上的微调会导致灾难性遗忘，即新知识干扰已学能力。尽管该现象广泛存在，但其机制理解仍有限。本文对基于Transformer的LLM在连续微调过程中的灾难性遗忘进行了全面的机制分析。通过跨多个模型规模（109B到400B总参数）和任务序列的系统实验，我们识别出三个主要导致遗忘的机制：注意力权重中的梯度干扰、中间层的表示漂移以及损失景观的平坦化。我们证明遗忘严重程度与任务相似性（Pearson r = 0.87）和梯度对齐指标密切相关。分析显示，在微调过程中约有15至23%的注意力头受到严重干扰，底层更容易受到影响。这些发现为开发针对性的缓解策略奠定了机制基础。

灾难性遗忘连续学习注意力机制梯度干扰模型微调

论文深入探讨了连续微调中灾难性遗忘的机制，直接涉及Agent Memory的核心问题。

RAG-GFM：通过检索增强生成克服图基础模型中的内存瓶颈

RAG-GFM: Overcoming In-Memory Bottlenecks in Graph Foundation Models via Retrieval-Augmented Generation

Haonan Yuan, Qingyun Sun, Jiacheng Tao, Xingcheng Fu, Jianxin Li

8/10 2026-01-21 cs.LG PDF

图基础模型（GFMs）作为图学习的前沿方向，旨在实现跨任务的可迁移表示。然而，GFMs受到内存瓶颈的限制，其试图将知识编码到模型参数中，导致语义容量受限、信息丢失严重以及图表示与知识纠缠，影响了模型的可扩展性和可解释性。本文提出RAG-GFM，一种基于检索增强生成的图基础模型，通过将知识从参数中卸载并补充参数化学习来缓解这一问题。为外部化图知识，构建了一个双模态统一检索模块，包括基于前缀结构文本的语义存储和基于中心性基元的结构存储。为保留异构信息，设计了双视角对齐目标，对比两种模态以捕捉内容和关系模式。为实现高效的下游适应，采用上下文增强方法，利用检索到的文本和基元作为上下文证据丰富支持实例。在五个基准图数据集上的实验表明，RAG-GFM在跨领域节点和图分类任务中始终优于13种最先进的基线方法，表现出优越的有效性和效率。

图基础模型检索增强生成内存瓶颈知识外部化双模态检索

论文核心解决GFMs中的in-memory瓶颈问题，提出RAG-GFM通过检索增强生成机制优化记忆存储与使用。

CodeDelegator：通过角色分离缓解代码作为动作代理中的上下文污染

CodeDelegator: Mitigating Context Pollution via Role Separation in Code-as-Action Agents

Tianxiang Fei, Cheng Chen, Yue Pan, Mao Zheng, Mingyang Song

8/10 2026-01-21 cs.CL PDF

近年来，大语言模型（LLMs）的进步使得代理能够将动作表示为可执行代码，相较于传统的工具调用方式具有更高的表达能力。然而，现实任务通常需要战略规划和详细实现。使用单一代理完成这两项任务会导致调试痕迹和中间失败的上下文污染，从而影响长期性能。我们提出了CodeDelegator，一种通过角色专业化分离规划与实现的多代理框架。一个持久的Delegator通过分解任务、编写规范和监控进度来保持战略监督，而不执行代码。对于每个子任务，会实例化一个新的Coder代理，其上下文中仅包含其规范，从而避免受到先前失败的影响。为了协调代理之间的工作，我们引入了短暂-持久状态分离（EPSS），隔离每个Coder的执行状态，同时保持全局一致性，防止调试痕迹污染Delegator的上下文。在多个基准测试上的实验表明，CodeDelegator在各种场景中均表现出有效性。

Agent Memory 多代理系统上下文污染代码执行任务分解

论文提出通过角色分离解决上下文污染问题，涉及Agent Memory的核心机制。

HERMES：将KV缓存作为分层记忆以实现高效的视频流理解

HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding

Haowei Zhang, Shudong Yang, Jinlan Fu, See-Kiong Ng, Xipeng Qiu

8/10 2026-01-21 cs.CV PDF

近年来，多模态大语言模型（MLLMs）在离线视频理解方面取得了显著进展。然而，将其扩展到视频流输入仍面临挑战，现有模型难以同时保持稳定的理解性能、实时响应和低GPU内存开销。为解决这一问题，本文提出HERMES，一种无需训练的实时且准确理解视频流的新架构。基于对注意力机制的机理研究，我们将KV缓存概念化为一个分层记忆框架，用于封装多粒度的视频信息。在推理过程中，HERMES复用紧凑的KV缓存，在资源受限条件下实现高效的视频流理解。值得注意的是，HERMES在用户查询到达时不需要辅助计算，从而保证了连续视频流交互的实时响应，相比之前最先进的方法，其首次令牌延迟（TTFT）提高了10倍。即使将视频token数量减少多达68%（与均匀采样相比），HERMES在所有基准测试中仍实现了优于或相当的准确性，在流式数据集上最高提升了11.4%。

KV缓存视频流理解分层记忆 LLM推理优化

论文核心提出KV缓存作为分层记忆框架，直接针对Agent Memory机制进行创新设计。

迈向高效智能体：记忆、工具学习与规划

Toward Efficient Agents: Memory, Tool learning, and Planning

Xiaofang Yang, Lijun Li, Heng Zhou, Tong Zhu, Xiaoye Qu et al.

8/10 2026-01-20 cs.AI PDF

近年来，大型语言模型向智能体系统的扩展引起了广泛关注。尽管智能体的有效性持续提升，但对实际部署至关重要的效率问题却常被忽视。本文从智能体的三个核心组件——记忆、工具学习和规划出发，探讨了包括延迟、令牌数、步骤数等成本因素在内的效率问题。我们回顾了多种近期方法，这些方法在实现上有所不同，但在高层原则上趋于一致，如通过压缩和管理限制上下文、设计强化学习奖励以减少工具调用、采用受控搜索机制提高效率等。我们从两个互补的角度定义了效率：在固定成本预算下比较有效性，以及在相似有效性的前提下比较成本。这种权衡也可通过有效性与成本之间的帕累托前沿来理解。此外，我们还总结了评估这些组件的协议，并整合了基准测试和方法论研究中常见的效率指标。最后，我们讨论了关键挑战和未来方向，旨在提供有前景的见解。

Agent Memory Efficiency Optimization Tool Learning Planning Reinforcement Learning

论文明确将Memory作为智能体效率研究的核心组成部分，深入探讨了其优化方法。

AgentEHR：通过回顾性摘要推进自主临床决策

AgentEHR: Advancing Autonomous Clinical Decision-Making via Retrospective Summarization

Yusheng Liao, Chuan Xuan, Yutong Cai, Lina Yang, Zhe Chen et al.

8/10 2026-01-20 cs.CL PDF

大型语言模型在医疗领域展现出巨大潜力，但其在自主电子健康记录（EHR）导航中的应用仍受限于对精选输入和简化检索任务的依赖。为弥合理想化实验环境与真实临床环境之间的差距，本文提出了AgentEHR基准测试，挑战智能体执行复杂的决策任务，如诊断和治疗计划，这些任务需要在原始且高噪声的数据库中进行长距离交互推理。在解决这些任务时，我们发现现有摘要方法不可避免地导致关键信息丢失和推理连续性断裂。为此，我们提出RetroSum，一种新颖的框架，将回顾性摘要机制与演进的经验策略相结合。通过动态重新评估交互历史，回顾性机制防止了长上下文信息丢失并确保逻辑连贯性。此外，演进策略通过从记忆库中检索积累的经验来弥合领域差距。广泛的实证评估表明，RetroSum相比竞争基线实现了高达29.16%的性能提升，并显著减少了高达92.3%的总交互错误。

Agent Memory 医疗AI EHR导航回顾性摘要智能体决策

论文核心提出RetroSum框架，结合回顾性摘要与经验演化策略，直接涉及Agent Memory机制。

通过主动回顾学习实现大语言模型鲁棒长上下文理解

Towards robust long-context understanding of large language model via active recap learning

Chenyu Hui

8/10 2026-01-20 cs.CL PDF

本文提出了一种主动回顾学习（Active Recap Learning, ARL）框架，旨在提升大语言模型（LLM）对长上下文的理解能力。ARL通过在持续预训练阶段构建目标序列，并在推理阶段进行回顾性摘要生成，使模型能够重新审视并总结早期内容。首先，基于长、短前向上下文之间的损失差异识别关键标记，并找到最相关的先前段落，然后利用LLM对其进行摘要。其次，ARL使模型能够在推理过程中自主生成并使用这些回顾性摘要，从而建立跨段落的递归记忆机制。实验结果表明，ARL在RULER和LongBench数据集上分别取得了26.8%和9.44%的显著提升。总体而言，ARL提供了一种简单而有效的持续预训练方法，以增强长上下文理解能力，推动了LLM可扩展的记忆增强技术。

长上下文理解递归记忆机制持续预训练 LLM优化

论文核心聚焦于增强LLM的长上下文理解，提出递归记忆机制，与Agent Memory直接相关。

HeteroCache：一种用于长上下文LLM推理的异构KV缓存动态检索方法

HeteroCache: A Dynamic Retrieval Approach to Heterogeneous KV Cache Compression for Long-Context LLM Inference

Zhiyuan Shi, Qibo Qiu, Feng Xue, Zhonglin Jiang, Li Yu et al.

8/10 2026-01-20 cs.CL PDF

KV缓存的线性内存增长是长上下文任务中LLM推理的重要瓶颈。现有静态压缩方法往往无法保留全局重要信息，主要因为它们忽略了注意力漂移现象，即标记的重要性随时间动态变化。尽管最近的动态检索方法试图解决这一问题，但通常受到粗粒度缓存策略的影响，并因频繁的数据传输而产生较高的I/O开销。为克服这些限制，我们提出HeteroCache，一种无需训练的动态压缩框架。我们的方法基于两个关键洞察：注意力头表现出不同的时间异质性，同一层内的头之间存在显著的空间冗余。根据这些洞察，HeteroCache根据稳定性和冗余性对头进行分类，随后应用细粒度加权策略，将较大的缓存预算分配给注意力快速变化的头以捕捉上下文变化，从而解决粗粒度策略的低效问题。此外，我们采用分层存储机制，其中一部分代表性头监控注意力变化，并触发从CPU的异步按需检索，有效隐藏I/O延迟。最后，实验表明，HeteroCache在多个长上下文基准测试中实现了最先进的性能，并在224K上下文中相比原始模型加速了高达3倍的解码速度。

KV缓存动态压缩长上下文推理注意力机制 I/O优化

论文核心研究KV缓存压缩，直接涉及LLM推理中的内存管理机制。

探究工具增强大语言模型中的工具-记忆冲突

Investigating Tool-Memory Conflicts in Tool-Augmented LLMs

Jiali Cheng, Rui Pan, Hadi Amiri

8/10 2026-01-14 cs.SE PDF

工具增强的大语言模型（LLMs）已推动众多应用发展，但可能面临知识冲突问题。本文提出一种新型知识冲突——工具-记忆冲突（Tool-Memory Conflict, TMC），即模型内部参数化知识与外部工具知识相互矛盾。研究发现，现有大语言模型在STEM相关任务中尤为容易受TMC影响。此外，不同条件下工具知识与参数化知识的优先级存在差异。作者评估了包括基于提示和RAG在内的现有冲突解决方法，结果表明这些方法均无法有效缓解工具-记忆冲突。

工具增强知识冲突参数化记忆外部工具

聚焦工具知识与参数化记忆的冲突，属Agent Memory核心问题。

是检索还是思考？一种用于上下文演化的智能体方法

To Retrieve or To Think? An Agentic Approach for Context Evolution

Rubing Chen, Jian Wang, Wenjie Li, Xiao-Yong Wei, Qing Li

8/10 2026-01-13 cs.CL PDF

当前的上下文增强方法（如检索增强生成）对于解决知识密集型推理任务至关重要。然而，这些方法通常采用僵化的策略，在每一步都执行检索操作，导致不必要的计算成本并引入无关噪声。为了解决这些问题，本文提出了一种名为Agentic Context Evolution (ACE) 的框架，该框架受人类元认知启发，能够动态决定是获取新证据还是基于现有知识进行推理。ACE通过中央协调代理进行战略决策，并在检索代理和推理代理之间切换，以减少冗余检索步骤，从而保持上下文的简洁性和演化性。在多个具有挑战性的多跳问答基准测试中，ACE在准确率方面显著优于竞争基线，并实现了高效的token消耗。本研究为复杂、知识密集型任务的上下文演化生成提供了有价值的见解。

Agent Memory Context Evolution Retrieval-Augmented Generation Reasoning Agent

论文提出ACE框架，动态决定是否检索或推理，直接涉及Agent Memory的机制与优化。

当KV缓存复用在多智能体系统中失效时：跨候选交互对LLM裁判至关重要

When KV Cache Reuse Fails in Multi-Agent Systems: Cross-Candidate Interaction is Crucial for LLM Judges

Sichu Liang, Zhenglin Wang, Jiajia Chu, Pengfei Xia, Hui Zang et al.

8/10 2026-01-13 cs.MA PDF

多智能体LLM系统通常生成多个候选响应，并由LLM裁判进行聚合。为减少预填充阶段的主导成本，近期工作提倡在部分共享上下文中复用KV缓存，并报告了生成代理的显著加速效果。本文表明，这些效率提升并未均匀地转移到以裁判为中心的推理中。在GSM8K、MMLU和HumanEval数据集上，我们发现对执行代理有效的复用策略可能会严重干扰裁判行为：最终任务准确率可能看似稳定，但裁判的选择与密集预填充结果高度不一致。我们通过裁判一致性率（JCR）量化了这一风险，并提供了诊断结果，显示复用系统性地削弱了跨候选注意力，尤其是对后期候选块的影响较大。我们的消融实验进一步证明，显式的跨候选交互对于保留密集预填充决策至关重要。总体而言，我们的结果识别出KV缓存复用的一个先前被忽视的失效模式，并突出了以裁判为中心的推理作为一个需要专门、风险意识系统设计的独特领域。

KV缓存多智能体系统 LLM裁判注意力机制系统设计

论文核心研究KV缓存复用在多智能体系统中的失效问题，直接涉及Agent Memory机制。

一般智能的公理化方法：SANC(E3)——具有能量E3的自组织主动概念网络

An Axiomatic Approach to General Intelligence: SANC(E3) -- Self-organizing Active Network of Concepts with Energy E3

Daesuk Kwon, Won-gi Paeng

8/10 2026-01-13 cs.AI PDF

一般智能必须在有限资源下将经验重新组织为内部结构，以实现预测和行动。现有系统隐含地假设了固定的原始单元，从而回避了表征单元如何自身产生和稳定的问题。本文提出了SANC(E3)，一个公理化框架，其中表征单元并非先验给定，而是在有限激活容量下通过竞争选择、重建和压缩过程产生的稳定结果，并由显式的能量函数E3最小化所控制。SANC(E3)明确区分了系统标记（如{这里，现在，我}和感官源）与通过共发事件自组织产生的标记。五个核心公理形式化了有限容量、共现关联、相似性竞争、置信度稳定以及重建-压缩-更新权衡。其关键特征是伪内存映射I/O机制，通过该机制，内部重放的格式塔（Gestalt）与外部感官输入一样，均通过相同的公理化路径处理。因此，感知、想象、预测、计划和行动被统一在一个单一的表示和能量过程中。从这些公理中推导出十二个命题，表明类别形成、层次组织、无监督学习和高级认知活动都可以被理解为在E3最小化下的格式塔完成实例。

Agent Memory Self-organization Energy Minimization Gestalt Completion General Intelligence

论文提出SANC(E3)框架，包含伪内存映射I/O机制，统一感知、想象与行动，核心涉及记忆机制。

OS-Symphony：一种用于鲁棒且通用的计算机使用代理的综合框架

OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

Bowen Yang, Kaiming Jin, Zhenyu Wu, Zhaoyang Liu, Qiushi Sun et al.

8/10 2026-01-12 cs.MA PDF

尽管视觉语言模型（VLMs）显著推动了计算机使用代理（CUAs）的发展，但当前框架在长周期工作流程中的鲁棒性和新领域中的泛化能力仍存在不足。这些限制源于对历史视觉上下文管理缺乏精细控制以及缺乏视觉感知的教程检索。为弥补这些缺陷，本文提出了OS-Symphony，一个综合框架，包含一个协调两个关键创新的调度器：（1）利用里程碑驱动的长期记忆的反思-记忆代理，实现轨迹级别的自我修正，有效缓解长周期任务中的视觉上下文丢失问题；（2）多功能工具代理，采用多模态搜索器通过SeeAct范式在基于浏览器的沙箱中导航，合成实时、视觉对齐的教程，从而解决未见过场景中的保真度问题。实验结果表明，OS-Symphony在不同模型规模下均取得显著性能提升，在三个在线基准测试中取得了新的最先进结果，特别是在OSWorld上达到了65.84%。

Agent Memory Computer-Using Agent Vision-Language Model Tutorial Retrieval Long-Horizon Task

论文核心提出Reflection-Memory Agent和视觉感知教程检索，直接涉及Agent Memory机制与系统设计。

KVzap: 快速、自适应且保真的KV缓存剪枝

KVzap: Fast, Adaptive, and Faithful KV Cache Pruning

Simon Jegou, Maximilian Jeblick

8/10 2026-01-12 cs.LG PDF

随着基于Transformer的语言模型上下文长度的增长，键值（KV）缓存已成为推理过程中的关键瓶颈。尽管已有许多KV缓存剪枝方法被提出，但由于速度与精度之间的权衡，这些方法尚未被主流推理引擎广泛采用。本文引入了KVzap，这是一种快速且输入自适应的KV缓存剪枝方法，适用于预填充和解码阶段。在Qwen3-8B、Llama-3.1-8B-Instruct和Qwen3-32B等模型上，KVzap在长上下文和推理任务中实现了2至4倍的KV缓存压缩，几乎不损失精度，并在KVpress排行榜上取得了最先进的性能。代码和模型可在https://github.com/NVIDIA/kvpress获取。

KV缓存模型压缩推理优化 LLM推理

论文聚焦KV缓存压缩，直接涉及Agent Memory机制，是推理效率的关键优化。

Code

将反馈蒸馏为记忆工具

Distilling Feedback into Memory-as-a-Tool

Víctor Gallego

8/10 2026-01-09 cs.CL PDF

本文提出一种框架，通过文件化记忆系统和代理控制的工具调用，将瞬时批评转化为可检索的指导方针，从而降低推理时的计算成本。我们在基于评分标准的反馈基准数据集上评估了该方法。实验表明，增强后的LLM能够快速达到测试时优化流程的性能水平，同时显著减少推理成本。

Agent Memory 反馈蒸馏推理优化工具调用

论文核心提出基于记忆系统的反馈蒸馏框架，明确涉及Agent Memory机制与系统设计。

ACR：通过上下文重构操作符实现多轮对话的自适应上下文重构

ACR: Adaptive Context Refactoring via Context Refactoring Operators for Multi-Turn Dialogue

Jiawei Shen, Jia Zhu, Hanghui Guo, Weijie Shi, Yue Cui et al.

Hanghui Guo (Southeast University)

8/10 2026-01-09 cs.CL PDF

大型语言模型（LLMs）在多轮对话中表现出色，但在长期交互中仍难以保持与先前内容的一致性，避免事实错误。现有方法主要依赖扩展上下文窗口、引入外部记忆或进行上下文压缩，但存在上下文惯性和状态漂移等局限。为此，本文提出ACR框架，通过动态监控和重构对话历史，主动缓解上述问题。该框架基于一组上下文重构操作符，并采用教师引导的自我演化训练范式，学习何时干预以及如何重构上下文，从而将上下文管理与推理过程解耦。实验表明，该方法在多轮对话任务中显著优于现有基线，同时减少了token消耗。

Agent Memory 上下文管理多轮对话状态漂移自适应重构

论文提出ACR框架，直接针对对话中的上下文惯性和状态漂移问题，属于Agent Memory机制的核心研究。

AgentOCR：通过光学自压缩重构智能体历史记忆

AgentOCR: Reimagining Agent History via Optical Self-Compression

Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu et al.

8/10 2026-01-08 cs.LG PDF

大型语言模型（LLM）的最新进展支持基于强化学习训练的多轮交互智能体系统，但其实际部署受限于不断增长的文本历史记录，导致令牌预算和内存消耗激增。本文提出AgentOCR框架，利用视觉令牌更高的信息密度，将累积的观察-动作历史压缩为紧凑的渲染图像。为实现可扩展的多轮推理，AgentOCR引入分段光学缓存机制，通过将历史分解为可哈希片段并维护视觉缓存，避免冗余重渲染。此外，该框架还提出智能体自压缩机制，使智能体能主动输出压缩率，并通过压缩感知奖励进行训练，以自适应平衡任务成功率与令牌效率。在ALFWorld和基于搜索的问答等挑战性基准上的实验表明，AgentOCR在保持超过95%文本智能体性能的同时，显著降低令牌消耗（>50%），并实现一致的令牌与内存效率提升。

Agent Memory Memory Compression

提出视觉化压缩历史记忆机制，直接优化Agent Memory效率。

跨模态神经形态计算中的模态依赖性记忆机制

Modality-Dependent Memory Mechanisms in Cross-Modal Neuromorphic Computing

Effiong Blessing, Chiung-Yi Tseng, Somshubhra Roy, Junaid Rehman, Isaac Nkrumah

8/10 2025-12-21 cs.LG PDF

增强记忆的脉冲神经网络（SNNs）有望实现高能效的神经形态计算，但其在不同感官模态间的泛化能力尚未探索。本文首次对SNN中的记忆机制开展全面的跨模态消融研究，评估Hopfield网络、分层门控循环网络（HGRN）和监督对比学习（SCL）在视觉（N-MNIST）与听觉（SHD）神经形态数据集上的性能。结果揭示显著的模态依赖性：Hopfield网络在视觉任务上达97.68%准确率，但在听觉任务仅76.15%；SCL则表现更均衡。研究证明记忆机制具有任务特异性而非普适性，并通过多模态联合训练验证了统一部署的有效性。定量记忆痕迹分析显示跨模态对齐较弱（相似度0.038），支持并行架构设计。该工作首次为神经形态系统中模态特异性记忆优化提供实证依据，能效比传统神经网络提升603倍。

神经形态计算脉冲神经网络

聚焦记忆机制在神经形态计算中的跨模态表现，属核心记忆研究。

排序:

每页显示:

RE-TRAC：面向深度搜索智能体的递归轨迹压缩方法

RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents

Jialiang Zhu, Gongrui Zhang, Xiaolong Ma, Lin Xu, Miaosen Zhang et al.

8/10 2026-02-02 cs.CL PDF

基于大语言模型的深度研究智能体多采用ReAct框架，其线性设计难以回溯早期状态、探索替代路径或在长上下文中保持全局感知，易陷入局部最优与冗余搜索。本文提出Re-TRAC框架，通过在每条轨迹后生成结构化状态表示，汇总证据、不确定性、失败原因及后续计划，并以此引导后续轨迹，实现跨轨迹探索、迭代反思与全局信息驱动的规划，将研究重构为渐进式过程。实验表明，Re-TRAC在BrowseComp上相较ReAct提升15–20%；针对小模型引入Re-TRAC感知的监督微调，达到同规模SOTA性能。此外，工具调用与token消耗随轮次单调下降，表明其通过跨轨迹反思实现高效定向探索。

Agent Memory Trajectory Compression

提出跨轨迹状态表示以支持迭代反思与全局规划，属记忆机制关键应用。

不止于匆匆一瞥：克服KV缓存压缩中的贪婪偏差

More Than a Quick Glance: Overcoming the Greedy Bias in KV-Cache Compression

Aryan Sood, Tanvi Sharma, Vansh Agrawal

8/10 2026-02-02 cs.AI PDF

尽管大语言模型（LLMs）理论上支持超长上下文窗口，但其实际部署受限于键值（KV）缓存内存的线性增长。现有压缩策略虽通过剪枝机制缓解该问题，却常以牺牲语义召回为代价换取内存效率。本文提出LASER-KV（基于精确局部敏感哈希的层累积选择框架），在严格累积预算策略下探索KV压缩极限。不同于固定摘要大小的方法，该框架采用由保护除数（n）控制的分块累积策略，有效分离压缩效应与滑动窗口伪影。在Babilong基准上的实验表明，先前方法在多种长上下文任务中性能下降15–30%，而LASER-KV在128k上下文长度下保持稳定，准确率最高提升10%。研究挑战了“注意力分数足以作为token效用代理”的主流假设。

KV缓存压缩长上下文建模

聚焦KV缓存压缩，属LLM推理内存优化，与Agent Memory密切相关但非专为Agent设计。

多模态语言模型中用于KV缓存管理的分层自适应驱逐方法

Hierarchical Adaptive Eviction for KV Cache Management in Multimodal Language Models

Xindian Ma, Yidi Lu, Peng Zhang, Jing Zhang

8/10 2026-02-02 cs.LG PDF

将视觉信息融入大语言模型催生了多模态大语言模型（MLLMs），但Transformer架构的二次方内存与计算开销仍是瓶颈。现有KV缓存驱逐策略未能处理视觉与文本token间异构的注意力分布，导致效率低下或性能下降。本文提出分层自适应驱逐（HAE）框架，通过预填充阶段的双注意力剪枝（利用视觉token稀疏性与注意力方差）和受操作系统回收站启发的动态解码驱逐策略，优化MLLM中文本-视觉token交互。HAE在各层最小化KV缓存使用，通过索引广播降低计算开销，并在理论上保证优于贪心策略的信息完整性与更低误差界。实验表明，在Phi3.5-Vision-Instruct模型上，HAE在图像理解任务中减少41% KV缓存内存（准确率仅下降0.3%），并在故事生成任务中实现1.5倍推理加速且保持输出质量。

KV缓存管理多模态大语言模型

聚焦KV缓存管理，属LLM内存优化关键机制，但非通用Agent Memory架构。

通过自适应信息控制扩展搜索增强型大语言模型推理能力

Scaling Search-Augmented LLM Reasoning via Adaptive Information Control

Siheng Xiong, Oguzhan Gungordu, Blair Johnson, James C. Kerce, Faramarz Fekri

8/10 2026-02-02 cs.CL PDF

搜索增强型推理智能体通过多步推理与外部信息检索交替进行，但无约束的检索常导致冗余证据、上下文过载及学习不稳定。现有方法依赖基于结果的强化学习（RL），对信息获取调控指导有限。本文提出DeepControl框架，基于形式化的信息效用概念——衡量在给定推理状态下检索证据的边际价值——引入检索延续性与粒度控制机制，动态决定何时继续或停止检索以及扩展多少信息。通过退火控制策略，使智能体在训练中内化高效的信息获取行为。在七个基准上的实验表明，该方法显著优于强基线，在Qwen2.5-7B和Qwen2.5-3B上平均性能分别提升9.4%和8.6%，凸显自适应信息控制对复杂现实信息环境中扩展搜索增强型智能体的重要性。

信息检索控制搜索增强推理

聚焦信息获取控制，涉及记忆检索机制但非核心记忆架构。

实现原生位置无关缓存需要编码器

You Need an Encoder for Native Position-Independent Caching

Shiju Zhao, Junhao Hu, Jiaqi Zheng, Guihai Chen

8/10 2026-02-02 cs.LG PDF

大语言模型（LLMs）的键值（KV）缓存基于前缀，难以高效处理任意顺序检索的上下文。位置无关缓存（PIC）虽被提出以解除位置约束并支持KV复用，但现有方法常导致显著精度下降。本文通过在主流仅解码器LLM中重新引入编码器，并显式训练其支持PIC，提出原生PIC方案。同时开发了COMB——一种兼容现有推理框架的PIC感知缓存系统。实验表明，COMB在保持相当精度的前提下，将首Token生成时间（TTFT）降低51–94%，吞吐量提升3倍，并在DeepSeek-V2-Lite-Chat上验证了其通用性。

KV缓存位置无关缓存

聚焦KV缓存优化，属LLM推理内存机制关键改进。

Code

一种面向高效大语言模型推理的状态转移框架

A State-Transition Framework for Efficient LLM Reasoning

Liang Zhang, Yu Zhao, Longyue Wang, Tianqi Shi, Weihua Luo et al.

8/10 2026-02-01 cs.AI PDF

尽管长链式思维（CoT）推理显著提升了大语言模型（LLMs）在复杂推理任务上的性能，但生成长CoT序列带来的高昂计算与内存开销限制了其效率与实用性。现有方法通常通过压缩CoT序列提升效率，但这与测试时扩展相冲突，制约了模型的推理能力。本文提出一种高效推理框架，将LLM的推理过程建模为状态转移过程：首先利用线性注意力机制估计记录历史推理信息的“推理状态”；随后基于查询提示与该状态执行当前推理步骤并更新状态。借助线性注意力，当前步骤中的每个token可直接从状态中检索相关历史信息，无需显式关注先前步骤的token，从而将注意力计算复杂度从二次降至线性，大幅提升推理效率。此外，本文还提出基于状态的推理策略以缓解噪声推理步骤导致的过度思考问题。大量实验表明，该框架不仅提高了LLM的推理效率，还增强了其推理性能。

状态记忆高效推理

提出状态转移机制显式建模并维护历史推理信息，属于记忆机制的关键应用。

MedBeads：一种面向智能体、不可篡改的数据基底，用于构建可信医疗AI

MedBeads: An Agent-Native, Immutable Data Substrate for Trustworthy Medical AI

Takahito Nakajima

Takahito Nakajima (Diagnostic Imaging and Interventional Radiology, Institute of Medicine, University of Tsukuba)

8/10 2026-02-01 cs.AI PDF

背景：截至2026年，大语言模型（LLMs）已具备专家级医学知识，但作为自主“临床智能体”部署仍受限。现有电子病历（EMR）及FHIR等标准面向人类设计，导致“上下文错配”：AI智能体接收碎片化数据，需依赖概率推理（如RAG）重建病史，易产生幻觉且难以审计。方法：我们提出MedBeads——一种面向智能体的原生数据基础设施，将临床事件表示为不可变的“珠子”（Beads），构成Merkle有向无环图（DAG）节点，并通过密码学方式引用因果前驱。该“一次写入、多次读取”架构使篡改在数学上可检测。我们实现了包含Go核心引擎、Python中间件（用于LLM集成）和React可视化界面的原型系统。结果：基于合成数据成功验证工作流；FHIR到DAG的转换将扁平资源重构为因果图；广度优先搜索（BFS）上下文检索算法以O(V+E)复杂度遍历相关子图，支持实时决策；篡改证据由设计保障；可视化通过显式因果链提升临床理解。结论：MedBeads通过从概率检索转向确定性图遍历、从可变记录转向不可变链，解决了“上下文错配”，为“可信医疗AI”提供基础。其结构化Bead格式构成高效、面向AI的“原生语言”。项目已开源以推动面向智能体的数据标准发展。

Agent Memory Immutable Data Structure

提出面向Agent的不可变数据基底，解决上下文记忆的完整性与可追溯性问题。

钥匙孔效应：为何聊天界面在数据分析中失效

The Keyhole Effect: Why Chat Interfaces Fail at Data Analysis

Mohan Reddy

8/10 2026-02-01 cs.AI PDF

聊天界面已成为AI辅助数据分析的默认交互方式，但对于多步骤、状态依赖的分析任务而言，这是一种错误选择。本文基于Woods（1984）提出的“钥匙孔效应”——即通过狭窄视口观察大型信息空间所引发的认知代价——指出聊天界面通过五种机制系统性地损害分析表现：(1)持续内容替换干扰海马体空间记忆；(2)隐藏状态变量超出工作记忆容量（负载下约4个组块）；(3)强制语言化引发言语遮蔽，削弱视觉模式识别；(4)线性文本流阻碍认知外化与探索性操作；(5)序列化惩罚随数据维度增加而加剧。作者形式化认知超载为O = max(0, m - v - W)，并提出八种混合设计模式以缓解上述问题。

认知负荷工作记忆

深入探讨工作记忆与空间记忆在Agent交互中的认知负荷机制。

HyperOffload：面向SuperNode架构的大语言模型图驱动分层内存管理

HyperOffload: Graph-Driven Hierarchical Memory Management for Large Language Models on SuperNode Architectures

Fangxin Liu, Qinghua Zhang, Hanjing Shen, Qinghua Zhang, Zhibo Liang et al.

Fangxin Liu (Shanghai Jiao Tong University, Shanghai, China) | Qinghua Zhang (Huawei Technologies Co., Ltd., China) | Hanjing Shen (Shanghai Jiao Tong University, Shanghai, China)

8/10 2026-01-31 cs.DC PDF

随着大语言模型（LLMs）向长上下文推理和稀疏架构演进，其内存需求已远超单设备HBM容量。尽管新兴SuperNode架构通过高带宽互连提供TB级共享内存池，现有软件栈仍难以高效利用该硬件。本文提出SuperNode内存管理框架HyperOffload，采用编译器辅助的图驱动方法，将远程内存访问显式建模为计算图中的操作，专为分层SuperNode架构设计。该框架在编译器中间表示中引入缓存算子以表达数据移动，实现对张量生命周期与执行依赖的全局静态分析，并据此开发执行顺序优化算法，在计算密集区域隐藏远程内存延迟。在MindSpore中实现后，实验表明该方法在推理任务中最高可降低26%的峰值设备内存占用，同时保持端到端性能。

大语言模型内存管理

聚焦LLM内存管理，虽非专为Agent设计，但机制高度相关。

面向高效多智能体辩论的跨模态记忆压缩

Cross-Modal Memory Compression for Efficient Multi-Agent Debate

Jing Wu, Yue Sun, Tianpei Xie, Suiyao Chen, Jingyuan Bao et al.

8/10 2026-01-31 cs.AI PDF

多智能体辩论可提升推理质量并减少幻觉，但随着辩论轮次和智能体数量增加，上下文迅速膨胀。保留完整文本历史会导致令牌使用超出上下文限制，并常需重复摘要，带来额外开销与信息损失。本文提出DebateOCR——一种跨模态压缩框架，将冗长的文本辩论记录替换为紧凑的图像表示，并通过专用视觉编码器在后续轮次中加以利用。该方法可将通常达数万至数十万令牌的历史压缩92%以上，在多个基准上显著降低计算成本并加速推理。理论分析表明，智能体间的多样性有助于恢复被省略的信息：尽管单个压缩历史可能丢失细节，但聚合多个智能体的压缩视图可使集体表征以指数级高概率逼近信息瓶颈。

记忆压缩多智能体系统

提出跨模态记忆压缩机制，显著优化多智能体辩论中的记忆存储与使用效率。

受认知神经科学启发的分层元认知监控深度搜索

Deep Search with Hierarchical Meta-Cognitive Monitoring Inspired by Cognitive Neuroscience

Zhongxiang Sun, Qipeng Wang, Weijie Yu, Jingxuan Yang, Haolang Lu et al.

Qipeng Wang (Gaoling School of Artificial IntelligenceRenmin University of ChinaBeijingChina) | Weijie Yu (School of Information Technologyand ManagementUniversity of International Business and EconomicsBeijingChina)

8/10 2026-01-30 cs.CL PDF

基于大语言模型的深度搜索智能体在多步检索、推理和长周期任务执行中展现出强大能力，但其实际失败常源于缺乏对不确定环境下推理与检索状态的监控与调节机制。受认知神经科学启发，人类元认知具有分层结构，结合快速异常检测与选择性触发的经验驱动反思。本文提出DS-MCM框架，在深度搜索中嵌入显式的分层元认知监控机制：包含快速一致性监控器（轻量级检查外部证据与内部推理置信度的一致性）和慢速经验驱动监控器（基于历史智能体轨迹中的经验记忆选择性激活以指导纠正干预）。该机制直接嵌入推理-检索循环，决定何时干预及如何利用先验经验指导修正。在多个深度搜索基准和主干模型上的实验表明，DS-MCM显著提升性能与鲁棒性。

Agent Memory Metacognition

论文核心引入基于经验记忆的监控机制，Memory是关键组成部分。

EvoClinician：基于测试时进化学习的自演化多轮医疗诊断智能体

EvoClinician: A Self-Evolving Agent for Multi-Turn Medical Diagnosis via Test-Time Evolutionary Learning

Yufei He, Juncheng Liu, Zhiyuan Hu, Yulin Chen, Yue Liu et al.

8/10 2026-01-30 cs.AI PDF

当前主流医疗AI采用不切实际的“一次性”诊断模式，而真实临床诊断是一个迭代过程，医生需依次提问和安排检查以高效获取信息。为此，作者提出新基准Med-Inquire，基于真实病例模拟多轮诊断，通过Patient与Examination智能体隐藏完整病历，迫使诊断智能体主动获取信息。为应对该挑战，作者设计了EvoClinician——一种在测试时自演化的智能体，其核心为“诊断-评分-演化”循环：Actor执行诊断；Process Grader评估每步操作的临床价值与资源效率；Evolver据此反馈演化Actor的提示与记忆。实验表明，EvoClinician优于持续学习基线及其他自演化智能体。

Agent Memory Medical Diagnosis

论文核心机制包含通过演化更新Agent的记忆，Memory是策略优化的关键组成部分。

Code

大语言模型智能体并非始终忠实的自我进化者

Large Language Model Agents Are Not Always Faithful Self-Evolvers

Weixiang Zhao, Yingshuo Wang, Yichen Zhang, Yang Deng, Yanyan Zhao et al.

8/10 2026-01-30 cs.CL PDF

自我进化的大型语言模型（LLM）智能体通过积累和复用过往经验持续提升性能，但其是否真正依赖这些经验指导行为尚不明确。本文首次系统研究了自进化LLM智能体中“经验忠实度”——即智能体决策对其所获经验的因果依赖性。通过对原始与压缩形式经验进行受控因果干预，我们在10种LLM主干模型和9个环境中全面评估了四种代表性框架。研究发现显著不对称现象：智能体始终依赖原始经验，却常忽视或误读压缩经验，即使后者是唯一可用信息。该现象在单/多智能体设置及不同模型规模下均存在。根源在于压缩内容的语义局限、内部处理偏差抑制经验使用，以及预训练先验已足够应对的任务场景。结果挑战了当前自进化方法的假设，强调需更忠实可靠的经验整合机制。

经验忠实度自进化智能体

聚焦LLM Agent对经验（记忆）的依赖性与忠实度，属记忆使用机制研究。

基于大语言模型的图信息引导动作生成实现具身任务规划

Embodied Task Planning via Graph-Informed Action Generation with Large Lanaguage Model

Xiang Li, Ning Yan, Masood Mortazavi

8/10 2026-01-29 cs.CL PDF

尽管大语言模型（LLMs）展现出强大的零样本推理能力，但其作为具身智能体在长视野任务规划中仍面临根本挑战。标准LLM规划器常因上下文窗口限制或生成违反环境约束的幻觉转移而难以维持策略一致性。本文提出GiG框架，采用“图中图”架构组织智能体记忆：利用图神经网络（GNN）将环境状态编码为嵌入，并在经验记忆库中构建动作连接的执行轨迹图；通过聚类这些图嵌入，实现结构感知的先验知识检索，使当前决策能锚定于相关历史结构模式。此外，引入新颖的有界前瞻模块，结合符号转移逻辑增强基于记忆的动作投射能力。在Robotouille同步/异步及ALFWorld三个基准上，该方法以相当或更低计算成本显著超越现有最优基线。

Agent Memory Embodied Planning

提出基于图结构的经验记忆库，用于存储和检索执行轨迹，是规划中的关键记忆机制。

认知上下文学习：在基于大语言模型的多智能体系统中以正确方式建立信任

Epistemic Context Learning: Building Trust the Right Way in LLM-Based Multi-Agent Systems

Ruiwen Zhou, Maojia Song, Xiaobao Wu, Sitao Cheng, Xunjian Yin et al.

Ruiwen Zhou (National University of Singapore)

8/10 2026-01-29 cs.AI PDF

多智能体系统中的个体智能体常因盲目顺从而缺乏鲁棒性。本文指出该问题源于谄媚倾向及对同伴可靠性评估能力不足。为此，作者形式化了“历史感知引用”学习问题，将同伴的历史交互作为额外输入，使智能体能在不确定时依据可信同伴进行学习。该方法将任务从评估同伴推理质量转变为基于交互历史估计其可靠性。作者提出认知上下文学习（ECL）框架，通过显式构建同伴历史档案来调节预测，并结合强化学习与辅助奖励进行优化。实验表明，ECL使Qwen 3-4B小模型性能超越无历史感知的8倍大模型（Qwen 3-30B），并使前沿模型达到近100%准确率，且在多种多智能体配置中具有良好泛化能力。

多智能体系统信任建模

利用历史交互构建记忆以评估同伴可靠性，属记忆关键应用。

基于历史条件化多模态大语言模型的非马尔可夫多轮对话图像生成

Non-Markov Multi-Round Conversational Image Generation with History-Conditioned MLLMs

Haochen Zhang, Animesh Sinha, Felix Juefei-Xu, Haoyu Ma, Kunpeng Li et al.

Animesh Sinha (Meta)

8/10 2026-01-28 cs.CV PDF

对话式图像生成要求模型在多轮交互中遵循用户指令，并以累积的图文聊天历史为依据。现有方法多采用马尔可夫假设，仅依赖最新图像，忽略长程历史。本文提出非马尔可夫设定，支持用户回溯早期状态、撤销修改或引用多轮前引入的实体。为此，作者构建了包含回滚编辑和基于名称的跨轮个性化等非马尔可夫数据；设计了带token级缓存的历史条件化训练与推理框架，防止身份漂移；并引入基于重建的DiT解码器与多阶段微调策略，提升图像保真度与可编辑性。实验表明，该方法显著增强多轮一致性与指令遵循能力，同时保持单轮编辑性能。

多模态大语言模型对话记忆非马尔可夫交互图像生成

论文聚焦多轮对话中对历史状态的长期依赖与检索，涉及记忆机制的关键应用。

超越加速——利用KV缓存进行采样与推理

Beyond Speedup -- Utilizing KV Cache for Sampling and Reasoning

Zeyu Xing, Xing Li, Hui-Ling Zhen, Mingxuan Yuan, Sinno Jialin Pan

8/10 2026-01-28 cs.CL PDF

KV缓存通常仅用于加速自回归解码，但其编码的上下文信息可零成本复用于下游任务。本文提出将KV缓存视为一种轻量级表征，无需重新计算或存储完整隐藏状态。尽管弱于专用嵌入，KV衍生表征在两项关键应用中表现优异：(i) 嵌入链（Chain-of-Embedding），在Llama-3.1-8B-Instruct和Qwen2-7B-Instruct上达到竞争性甚至更优性能；(ii) 快/慢思维切换（Fast/Slow Thinking Switching），在Qwen3-8B和DeepSeek-R1-Distil-Qwen-14B上实现自适应推理，最多减少5.7倍的token生成，且精度损失极小。研究确立了KV缓存作为采样与推理的有效免费基底，为大语言模型推理中的表征复用开辟新方向。

KV缓存推理优化

将KV缓存作为轻量级记忆表征用于推理与采样，属记忆机制的重要应用。

Code

MALLOC：面向大规模序列推荐的内存感知长序列压缩基准

MALLOC: Benchmarking the Memory-aware Long Sequence Compression for Large Sequential Recommendation

Qihang Yu, Kairui Fu, Zhaocheng Du, Yuxuan Si, Kaiyuan Li et al.

Qihang Yu (Zhejiang UniversityHangzhouChina) | Kairui Fu (Zhejiang UniversityHangzhouChina) | Zhaocheng Du (Huawei Noah’s Ark LabHangzhouChina)

8/10 2026-01-28 cs.IR PDF

随着模型规模和数据量的增长，推荐系统面临高昂的计算开销，尤其在处理用户长行为序列时。现有方法常通过预存用户历史中间状态以避免重复计算，但忽视了由此带来的巨大内存开销。本文提出MALLOC，一个面向内存感知长序列压缩的综合基准，系统性地分类并评估适用于大规模序列推荐的内存管理技术。这些技术被集成至前沿推荐模型中，构建了一个可复现、易访问的评估平台。通过在准确性、效率与复杂度上的广泛实验，验证了MALLOC在推动大规模推荐系统发展中的整体可靠性。

序列推荐内存压缩

聚焦推荐系统中的长序列内存压缩，属Memory关键应用但非Agent核心架构。

PathWise：通过世界模型与自进化大语言模型实现自动化启发式设计的规划方法

PathWise: Planning through World Model for Automated Heuristic Design via Self-Evolving LLMs

Oguzhan Gungordu, Siheng Xiong, Faramarz Fekri

8/10 2026-01-28 cs.AI PDF

大语言模型（LLMs）已推动组合优化问题（COPs）中自动化启发式设计（AHD）的发展，但现有框架依赖固定进化规则和静态提示模板，易导致短视生成、冗余评估及推理能力不足。本文提出PathWise——一种多智能体推理框架，将启发式生成建模为在蕴含图上的序贯决策过程，该图作为紧凑且具状态性的记忆结构，记录搜索轨迹并支持跨代信息复用或规避。系统包含策略智能体规划进化动作、世界模型智能体生成条件启发式 rollout，以及批评家智能体提供路由反思以总结历史经验，从而将LLM驱动的AHD从试错式进化转向基于状态感知的规划推理。实验表明，PathWise在多种COP上更快收敛至更优启发式，兼容不同LLM主干，并可扩展至更大规模问题。

Agent Memory Automated Heuristic Design

提出基于蕴含图的状态化记忆机制，用于记录和复用搜索轨迹，是启发式生成的关键组件。

HARMONI：基于大语言模型的多模态多用户人机交互个性化框架

HARMONI: Multimodal Personalization of Multi-User Human-Robot Interactions with LLMs

Jeanne Malécot, Hamed Rahimi, Jeanne Cattoni, Marie Samson, Mouad Abrini et al.

Jeanne Malécot∗,1,2{}^{*,~1,~2}, Hamed Rahimi∗,2{}^{*,~2}, Jeanne Cattoni3, Marie Samson2, Mouad Abrini2, Mahdi Khoramshahi2, Maribel Pino3, Mohamed Chetouani2 (1Institut Curie, Université Paris-Saclay2Institute of Intelligent Systems and Robotics (ISIR), Sorbonne University3Assistance Publique – Hôpitaux de Paris (AP-HP), Université Paris CitéParisFrance)

8/10 2026-01-27 cs.RO PDF

现有人机交互系统在多用户环境中常缺乏持续个性化与动态适应机制，限制了其在现实场景中的有效性。本文提出HARMONI——一种多模态个性化框架，利用大语言模型使社交辅助机器人能够管理长期多用户交互。该框架整合四个关键模块：（i）感知模块用于识别活跃说话者并提取多模态输入；（ii）世界建模模块维护环境与短期对话上下文表示；（iii）用户建模模块更新长期说话者特定档案；（iv）生成模块产出上下文相关且符合伦理的回应。通过在四个数据集上的广泛评估、消融实验及养老院真实场景用户研究，验证了HARMONI在说话者识别、在线记忆更新和伦理对齐个性化方面的优越性，在用户建模准确性、个性化质量与用户满意度上均优于基线LLM方法。

Agent Memory 多用户交互

论文核心包含长期用户建模与在线记忆更新机制，是Agent Memory的关键应用。

SPARC-RAG：基于上下文管理的自适应顺序-并行扩展检索增强生成

SPARC-RAG: Adaptive Sequential-Parallel Scaling with Context Management for Retrieval-Augmented Generation

Yuxin Yang, Gangda Deng, Ömer Faruk Akgül, Nima Chitsazan, Yash Govilkar et al.

8/10 2026-01-22 cs.IR PDF

检索增强生成（RAG）通过外部证据支撑大语言模型输出，但在需要长推理的多跳问答任务中仍面临挑战。近期研究从两个互补维度扩展RAG：顺序深度用于迭代优化和并行宽度用于覆盖扩展。然而，简单扩展导致上下文污染和效率低下，计算增加但效果不升反降。为解决这些问题，本文提出SPARC-RAG，一种多智能体框架，在统一的上下文管理机制下协调顺序与并行推理扩展。SPARC-RAG采用专门智能体维护共享全局上下文，并对扩展过程进行显式控制。它为每个分支生成针对性、互补性子问题以实现多样化的并行探索，并根据答案正确性和证据支撑情况显式调节退出决策。为进一步优化扩展行为，本文引入一种轻量级微调方法，结合可验证的过程级偏好，提升了顺序扩展的效率和并行扩展的效果。在单跳和多跳问答基准测试中，SPARC-RAG始终优于之前的RAG基线模型，在更低的推理成本下平均F1值提升6.2。

RAG Agent Memory 多智能体系统上下文管理检索增强生成

论文提出SPARC-RAG框架，涉及上下文管理与多智能体协作，与Agent Memory密切相关。

ReCreate：基于经验驱动的推理与领域智能体构建

ReCreate: Reasoning and Creating Domain Agents Driven by Experience

Zhezheng Hao, Hong Wang, Jian Luo, Jianqing Zhang, Yuyan Zhou et al.

8/10 2026-01-16 cs.AI PDF

大语言模型智能体正在重塑工业格局，但多数实用智能体仍依赖人工设计，因任务差异大而成本高昂。本文提出ReCreate——一种由经验驱动的自动领域智能体构建框架，系统性地利用智能体交互历史，从中提取成功或失败的原因及改进路径。该框架引入“智能体即优化器”范式，包含三大组件：按需调用的经验存储与检索机制、将执行经验映射为脚手架编辑的推理-创建协同流水线，以及将实例级细节抽象为可复用领域模式的分层更新策略。实验表明，ReCreate在多个领域中优于人工设计及现有自动化方法，即使从极简初始脚手架出发亦表现优异。

Agent Memory Automated Agent Creation

论文核心利用交互历史（即经验记忆）驱动Agent创建与优化，涉及记忆存储、检索与抽象机制。

虚假奖励悖论：从机制上理解RLVR如何激活大语言模型中的记忆捷径

Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs

Lecheng Yan, Ruizhe Li, Guanhua Chen, Qing Li, Jiahui Geng et al.

8/10 2026-01-16 cs.LG PDF

基于可验证奖励的强化学习（RLVR）虽能有效提升大语言模型的推理能力，但近期研究表明，即使使用虚假或错误的奖励，如Qwen 2.5等模型仍能获得显著性能提升。本文发现这一现象背后存在“困惑度悖论”：虚假RLVR导致答案词元的困惑度下降，但提示侧的语义连贯性却退化，表明模型倾向于绕过推理而依赖记忆。通过路径修补、Logit Lens、JSD分析和神经微分方程，作者识别出一个隐藏的“锚点-适配器”回路：中层（L18–20）的功能锚点触发记忆检索，后续层（L21+）的结构适配器则调整表征以适应该捷径信号。进一步实验表明，调控该回路中特定MLP键可实现对污染驱动性能的双向因果干预。本研究为识别与缓解RLVR调优模型中的数据污染提供了机制性路线图。

Agent Memory Mechanistic Interpretability

论文揭示LLM在RLVR中通过记忆捷径绕过推理，深入分析记忆激活机制。

Code

LOOKAT：面向内存高效Transformer的查找优化键注意力机制

LOOKAT: Lookup-Optimized Key-Attention for Memory-Efficient Transformers

Aryan Karmore

8/10 2026-01-15 cs.LG PDF

在边缘设备部署大语言模型需压缩KV缓存。现有量化方法虽减少存储，但因注意力计算前需将INT4/INT8键反量化为FP16，未能降低带宽开销。本文指出注意力评分等价于内积相似性搜索，可借鉴向量数据库压缩技术。提出LOOKAT方法，通过乘积量化与非对称距离计算，将键向量分解为子空间、学习码本，并利用查找表计算注意力，使注意力计算从内存受限转为计算受限。在GPT-2上实现64倍压缩（输出保真度95.7%）和32倍压缩（95.0%），无需修改架构或重新训练，且保持排名相关性ρ>0.95。理论分析表明相关性退化率为O(d_k/mK)，在序列长度达1024时仍有效。

KV缓存压缩内存高效推理

聚焦KV缓存压缩，属LLM推理内存优化，与Agent Memory密切相关但非专为Agent设计。

由大语言模型驱动的角色扮演智能体：现状、挑战与未来趋势

Role-Playing Agents Driven by Large Language Models: Current Status, Challenges, and Future Trends

Ye Wang, Jiaxing Chen, Hongjiang Xiao

8/10 2026-01-15 cs.CL PDF

近年来，随着大语言模型（LLMs）的快速发展，角色扮演语言智能体（RPLAs）成为自然语言处理与人机交互交叉领域的研究热点。本文系统综述了RPLAs的发展现状与关键技术，梳理了从早期基于规则的模板范式，经由语言风格模仿阶段，到以人格建模与记忆机制为核心的认知模拟阶段的技术演进路径。文章总结了支撑高质量角色扮演的关键技术路径，包括基于心理量表的角色建模、记忆增强的提示机制，以及基于动机-情境的行为决策控制。在数据层面，分析了角色专用语料库构建的方法与挑战；在评估方面，整理了涵盖角色知识、人格保真度、价值对齐与交互幻觉的多维评估框架及基准数据集。最后，展望了人格演化建模、多智能体协同叙事、多模态沉浸式交互及与认知神经科学融合等未来方向。

角色扮演智能体记忆增强提示

论文将记忆机制作为角色扮演智能体认知模拟阶段的核心组成部分，并探讨记忆增强提示等关键技术。

Sparse-RL：通过稳定稀疏轨迹突破大语言模型强化学习中的内存墙

Sparse-RL: Breaking the Memory Wall in LLM Reinforcement Learning via Stable Sparse Rollouts

Sijia Luo, Xiaokang Zhang, Yuxuan Hu, Bohan Zhang, Ke Wang et al.

8/10 2026-01-15 cs.LG PDF

强化学习（RL）已成为激发大语言模型（LLM）复杂推理能力的关键手段。然而，在长周期轨迹生成过程中存储键值（KV）缓存带来的巨大内存开销，成为在有限硬件上高效训练的主要瓶颈。现有KV压缩技术虽适用于推理阶段，但直接用于RL训练会引发严重的策略不匹配，导致性能崩溃。为此，本文提出Sparse-RL，通过稀疏感知拒绝采样与基于重要性的重加权机制，校正因压缩导致的信息损失所引入的离策略偏差，从而实现稳定训练。实验表明，Sparse-RL在显著降低轨迹内存开销的同时保持了模型性能，并天然支持稀疏推理部署，提升模型鲁棒性。

LLM Agent Memory 强化学习

聚焦KV缓存压缩对RL训练的影响，属LLM Agent内存效率关键问题。

SPRInG：通过选择性参数适应与检索插值生成实现大语言模型的持续个性化

SPRInG: Continual LLM Personalization via Selective Parametric Adaptation and Retrieval-Interpolated Generation

Seoyeon Kim, Jaehyung Kim

8/10 2026-01-15 cs.AI PDF

大语言模型的个性化通常依赖静态检索或一次性适应，假设用户偏好恒定不变。然而，真实交互中用户兴趣持续演化，模型需在避免灾难性遗忘的同时适应偏好漂移。现有持续学习方法常因无差别更新噪声交互而失效，难以区分真实偏好变化与临时上下文。为此，本文提出SPRInG——一种新型半参数化持续个性化框架。训练阶段采用基于似然评分的漂移驱动选择性适应机制，仅在高新颖性交互上更新用户特定适配器，并将难学残差存入回放缓冲区；推理阶段通过严格相关性门控，结合参数化知识与检索历史进行logit插值。在长文本个性化生成基准上的实验表明，SPRInG显著优于现有基线，验证了其在现实持续个性化场景中的鲁棒性。

持续学习个性化半参数化记忆偏好漂移

论文聚焦持续个性化中的记忆机制，结合参数与检索记忆应对偏好漂移。

通过上下文页面实现检索增强生成的结构化知识表示

Structured Knowledge Representation through Contextual Pages for Retrieval-Augmented Generation

Xinze Li, Zhenghao Liu, Haidong Xin, Yukun Yan, Shuo Wang et al.

8/10 2026-01-14 cs.CL PDF

检索增强生成（RAG）通过引入外部知识提升大语言模型（LLM）性能。近期研究将迭代知识累积机制融入RAG，以逐步积累并优化与查询相关的知识，但缺乏连贯的组织结构，限制了知识表示的完整性与一致性。为此，本文提出PAGER——一种面向RAG的页面驱动自主知识表示框架。PAGER首先引导LLM为给定问题构建包含多个知识维度槽位的结构化认知提纲，随后迭代检索并精炼相关文档以填充各槽位，最终形成一个连贯的上下文页面，用以指导答案生成。在多个知识密集型基准和主干模型上的实验表明，PAGER显著优于现有RAG方法。进一步分析显示，其构建的知识表示质量更高、信息更密集，能更有效缓解知识冲突，并提升LLM对外部知识的利用效率。

检索增强生成结构化记忆知识表示大语言模型

提出结构化知识表示框架，用于迭代构建和组织外部记忆，是Agent Memory的关键组成部分。

Code

面向长期任务的智能体：在动态环境中主动维持长期意图

Long-term Task-oriented Agent: Proactive Long-term Intent Maintenance in Dynamic Environments

Qinglong Shi, Donghai Wang, Hantao Zhou, Jiguo Li, Jun Xu et al.

8/10 2026-01-14 cs.AI PDF

当前大语言模型智能体主要采用被动响应范式，难以在动态环境中维持用户长期意图并自适应调整。本文提出一种主动式任务导向智能体新范式，通过两项核心能力实现：（i）基于对话历史自主构建触发条件的意图条件监控；（ii）在检测到有益环境更新时主动与用户交互。为此，我们构建了高质量数据合成流程，生成动态环境下的复杂多轮对话数据，并提出新基准ChronosBench以弥补动态任务导向交互评估标准的缺失。实验表明，现有主流模型在此类长期任务中表现不足，而基于合成数据微调的模型在包含用户意图变化的复杂任务上达到85.19%的任务完成率，验证了所提数据驱动策略的有效性。

Agent Memory Proactive Interaction

论文聚焦长期意图维护，涉及记忆机制以支持主动监控与环境适应。

PrivacyReasoner：大语言模型能否模拟类人的隐私心智？

PrivacyReasoner: Can LLM Emulate a Human-like Privacy Mind?

Yiwen Tu, Xuan Liu, Lianhui Qin, Haojian Jin

8/10 2026-01-14 cs.AI PDF

本文提出PRA，一种用于模拟个体用户如何基于现实新闻形成隐私关切的人工智能代理设计。区别于群体层面的情感分析，PRA融合隐私理论与认知理论，利用用户历史评论和上下文线索构建其个性化的“隐私心智”。该代理通过模拟有限理性的上下文过滤器动态激活相关隐私记忆，并生成反映用户在新隐私场景下可能反应的合成评论。研究还引入一个经校准的LLM-as-a-Judge评估器，依据既定隐私关切分类体系量化生成推理的忠实度。在Hacker News真实讨论数据上的实验表明，PRA在隐私关切预测上优于基线代理，并能跨AI、电商和医疗等领域迁移推理模式。

隐私推理记忆建模

论文核心机制依赖隐私记忆的动态激活与重构，属Agent Memory关键应用。

不要破坏缓存：长周期代理任务中提示缓存的评估

Don't Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks

Elias Lumer, Faheem Nizar, Akshaya Jangiti, Kevin Frank, Anmol Gulati et al.

8/10 2026-01-09 cs.CL PDF

近年来，大型语言模型（LLM）代理在执行需要大量工具调用的复杂多轮任务方面取得了进展，但提示缓存对这类任务的效益尚未被充分研究。本文对OpenAI、Anthropic和Google三家主要LLM提供商的提示缓存策略进行了全面评估，比较了三种缓存方法，并在DeepResearch Bench基准上测试了其效果。结果表明，提示缓存可显著降低API成本并提升首次响应时间。研究还发现，通过合理控制缓存块布局可以更一致地提高性能，而全上下文缓存可能反而增加延迟。此外，研究揭示了不同提供商在缓存策略上的差异。

LLM代理提示缓存成本优化多轮任务

论文重点研究了提示缓存对代理任务的影响，涉及记忆机制优化和成本控制。

BackdoorAgent：面向基于大语言模型智能体的后门攻击统一框架

BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents

Yunhao Feng, Yige Li, Yutao Wu, Yingshui Tan, Yanming Guo et al.

8/10 2026-01-08 cs.AI PDF

大语言模型（LLM）智能体通过结合规划、记忆和工具使用的多步工作流执行任务，这种设计虽提升了自主性，却也扩大了后门威胁的攻击面。针对现有研究碎片化、缺乏对跨阶段后门触发机制系统理解的问题，本文提出BackdoorAgent——一个模块化、阶段感知的统一框架，从智能体中心视角结构化分析规划攻击、记忆攻击和工具使用攻击三类功能阶段。该框架支持对触发器在不同阶段间激活与传播的系统性研究，并构建了涵盖Agent QA、Agent Code、Agent Web和Agent Drive四大典型应用的标准化基准。实验表明，单阶段植入的触发器可在多步中持续存在并传播，其中记忆攻击在GPT基座模型上触发持久率达77.97%，凸显智能体工作流对后门威胁的脆弱性。

LLM Agent Memory Attack

论文将记忆攻击作为三大核心攻击阶段之一，系统分析其在Agent工作流中的触发与传播机制。

Mind2Report：面向专家级商业报告合成的认知深度研究智能体

Mind2Report: A Cognitive Deep Research Agent for Expert-Level Commercial Report Synthesis

Mingyue Cheng, Daoyu Wang, Qi Liu, Shuo Yu, Xiaoyu Tao et al.

8/10 2026-01-08 cs.CL PDF

从海量且嘈杂的网络信息中合成高质量商业报告对高风险商业决策至关重要。尽管现有深度研究智能体已取得显著进展，其生成报告在质量、可靠性和覆盖范围方面仍显不足。本文提出Mind2Report——一种模拟商业分析师的认知深度研究智能体，通过细粒度意图探测、动态网络检索与信息即时记录，并迭代合成报告。该系统采用无需训练的智能体工作流，为通用大语言模型（LLMs）引入动态记忆机制，以支持长篇幅认知任务。作者构建包含200个真实商业任务的QRC-Eval评测集，并设计综合评估策略。实验表明，Mind2Report优于OpenAI和Gemini等主流深度研究智能体。

Agent Memory Dynamic Memory

提出动态记忆机制支持长程认知过程，是报告生成的关键组件。

Code

智能体漂移：量化多智能体大语言模型系统在长期交互中的行为退化

Agent Drift: Quantifying Behavioral Degradation in Multi-Agent LLM Systems Over Extended Interactions

Abhishek Rath

8/10 2026-01-07 cs.AI PDF

多智能体大语言模型（LLM）系统已成为复杂任务分解与协作求解的强大架构，但其长期行为稳定性尚未得到充分研究。本文提出“智能体漂移”概念，指智能体在长期交互中行为、决策质量及相互一致性逐渐退化的现象，并构建包含语义漂移、协调漂移和行为漂移的理论框架。作者设计了涵盖12个维度的智能体稳定性指数（ASI）以量化漂移，并通过仿真分析揭示其对任务准确率和人工干预需求的负面影响。为缓解该问题，论文提出三种策略：情景记忆巩固、漂移感知路由协议和自适应行为锚定，理论分析表明这些方法可显著降低漂移错误并维持系统吞吐量。

agent drift episodic memory consolidation

提出情景记忆巩固作为缓解策略，Memory是关键组成部分。

仓灵-知流：面向综合遥感应用的统一知识与流程融合智能体

CangLing-KnowFlow: A Unified Knowledge-and-Flow-fused Agent for Comprehensive Remote Sensing Applications

Zhengchao Chen, Haoran Wang, Jing Yao, Pedram Ghamisi, Jun Zhou et al.

8/10 2025-12-17 cs.AI PDF

针对遥感数据处理缺乏统一端到端智能框架的问题，本文提出CangLing-KnowFlow，融合程序性知识库（PKB）、动态工作流调整机制与进化记忆模块。该系统基于1,008个专家验证的工作流案例指导任务规划，显著减少大模型幻觉；在运行失败时可自主诊断并重规划，其进化记忆模块持续从经验中学习，迭代提升性能。在包含324个工作流的新基准KnowFlow-Bench上，该方法在13种主流大模型上均优于Reflexion基线至少4%的任务成功率，展示了将专家知识转化为可适应、可验证流程的强大潜力。

Agent Memory Remote Sensing

提出进化记忆模块，是系统关键组件但非唯一焦点

推荐系统：当记忆至关重要时

Recommender systems: when memory matters

Aleksandra Burashnikova, Marianne Clausel, Massih-Reza Amini, Yury Maximov, Nicolas Dante

8/10 2021-12-04 cs.IR PDF

本文研究了长时记忆在包含用户隐式反馈的序列推荐系统可学习性中的作用。我们提出一种在线算法，其模型参数按用户逐块更新，每一块由一系列未点击项目后接一个点击项目构成。通过全面的实证评估表明，根据用户与系统交互中所包含的长时记忆程度进行筛选，可显著提升MAP和NDCG指标性能，尤其在大规模推荐系统训练场景下效果更为突出。

推荐系统长时记忆

聚焦用户交互中的长时记忆对推荐系统性能的影响，属记忆机制应用研究。

影响的焦虑：Transformer注意力头中的布隆过滤器

The Anxiety of Influence: Bloom Filters in Transformer Attention Heads

Peter Balogh

7/10 2026-02-19 cs.LG PDF

一些Transformer注意力头似乎充当成员检测器，用于判断某个标记是否在上下文中出现过。本文在四个语言模型（GPT-2小、中、大；Pythia-160M）中识别出这些头，并展示了它们形成了一种成员检测策略的光谱。其中两个头表现出高精度的成员过滤功能，错误率极低。第三个头符合经典布隆过滤器的容量曲线，而第四个头在控制混淆因素后被重新归类为通用前缀注意力头。研究发现，这些真正的成员检测头构成一个多分辨率系统，集中在早期层中，具有距离敏感特性，并且能够广泛泛化到任何重复的标记类型。消融实验表明，这些头参与重复和新标记的处理，说明成员测试与其他计算任务共存。

Transformer 注意力机制布隆过滤器成员检测语言模型

论文探讨了Transformer中注意力头的成员检测机制，与记忆相关，但非唯一主题。

Code

所有泄露都重要，有些更重要：LLM回测中的可解释性时间污染检测

All Leaks Count, Some Count More: Interpretable Temporal Contamination Detection in LLM Backtesting

Zeyu Zhang, Ryan Chen, Bradly C. Stadie

7/10 2026-02-19 cs.AI PDF

为了评估LLM是否能准确预测未来事件，需要在已解决的事件上进行回测。这要求模型仅使用指定过去日期前的信息进行推理。然而，LLM可能在训练过程中无意中泄露了截止日期后的时间信息，从而影响回顾性评估的有效性。本文提出了一种基于声明级别的框架，用于检测和量化这种时间知识泄露。该方法将模型的推理分解为原子声明，并根据其时间可验证性进行分类，然后应用Shapley值衡量每个声明对预测的贡献，从而得到一个可解释的指标——Shapley-DCLR，用于衡量决策驱动推理中有多少来源于泄露信息。在此基础上，本文提出了TimeSPEC方法，通过生成与声明验证和再生的交替过程，主动过滤时间污染，确保所有支持性声明均可追溯至截止日期前的来源。实验结果表明，标准提示基线存在显著泄露，而TimeSPEC在保持任务性能的同时降低了Shapley-DCLR，证明显式的声明级验证优于基于提示的时间约束。

LLM Backtesting Temporal Knowledge Leakage Shapley Values Claim Verification

论文涉及LLM在回测中时间知识泄露问题，与Agent Memory机制相关，但非唯一主题。

通过动态谓词发明实现因果模型的持续学习与优化

Continual learning and refinement of causal models through dynamic predicate invention

Enrique Crespo-Fernandez, Oliver Ray, Telmo de Menezes e Silva Filho, Peter Flach

7/10 2026-02-19 cs.AI PDF

在复杂环境中高效导航需要智能体理解其世界的底层逻辑，而标准世界建模方法常面临样本效率低、透明度不足和可扩展性差的问题。本文提出一种框架，通过将连续模型学习与修复集成到智能体的决策循环中，利用元解释学习和谓词发明技术，发现语义上有意义且可复用的抽象概念，从而构建出层次化的解耦高质量概念体系。实验表明，该方法在具有复杂关系动态的领域中表现优异，其样本效率远高于基于PPO神经网络的基准方法。

因果建模谓词发明符号推理持续学习

论文涉及因果模型构建与符号推理，与Agent Memory相关但非核心主题。

Persona2Web: 基于用户历史的上下文推理个性化网络代理基准测试

Persona2Web: Benchmarking Personalized Web Agents for Contextual Reasoning with User History

Serin Kim, Sangam Lee, Dongha Lee

7/10 2026-02-19 cs.CL PDF

大型语言模型已推动了网络代理的发展，但当前代理缺乏个性化能力。由于用户很少明确说明其意图的所有细节，实用的网络代理必须能够通过推断用户偏好和上下文来解释模糊查询。为了解决这一挑战，我们提出了Persona2Web，这是首个在真实开放网络上评估个性化网络代理的基准测试，基于澄清以实现个性化的原理，要求代理基于用户历史而非显式指令解决模糊性。Persona2Web包含：(1) 长时间跨度内隐式揭示偏好的用户历史，(2) 需要代理推断隐式用户偏好的模糊查询，以及(3) 一种支持细粒度个性化评估的推理感知评估框架。我们在多种代理架构、主干模型、历史访问方案和不同模糊程度的查询上进行了广泛实验，揭示了个性化网络代理行为中的关键挑战。为确保可重复性，我们的代码和数据集已在https://anonymous.4open.science/r/Persona2Web-73E8公开。

Agent Memory 个性化代理用户历史模糊查询评估框架

论文涉及基于用户历史的个性化代理，与Agent Memory相关但非唯一主题。

DeepContext: 大型语言模型中多轮对抗意图漂移的有状态实时检测

DeepContext: Stateful Real-Time Detection of Multi-Turn Adversarial Intent Drift in LLMs

Justin Albrethsen, Yash Datta, Kunal Kumar, Sharath Rajasekar

7/10 2026-02-18 cs.AI PDF

尽管大型语言模型（LLM）的能力已经扩展，但其安全防护机制大多仍为无状态，将多轮对话视为一系列独立事件。这种缺乏时间感知的方式导致了“安全漏洞”，使得诸如Crescendo和ActorAttack等对抗性策略能够逐步在对话轮次之间渗透恶意意图，从而绕过无状态过滤器。本文提出DeepContext，一种有状态的监控框架，旨在映射用户意图的时间轨迹。DeepContext摒弃了孤立评估模型，采用递归神经网络（RNN）架构，输入经过微调的每轮嵌入序列。通过在对话中传播隐藏状态，DeepContext捕捉到无状态模型忽略的风险累积。实验表明，DeepContext在多轮越狱检测中显著优于现有基线，达到最先进的F1分数0.84，相较于主流云服务提供商和开源模型如Llama-Prompt-Guard-2（0.67）和Granite-Guardian（0.67）有明显提升。此外，DeepContext在T4 GPU上的推理开销低于20ms，确保了实时应用的可行性。这些结果表明，对意图序列演化的建模是一种更有效且计算效率更高的替代方案，而非依赖大规模无状态模型。

意图建模对抗检测 RNN LLM安全对话系统

论文提出基于RNN的序列建模方法，用于捕捉对话中的意图演变，与Agent Memory相关。

AgentLAB：针对长期攻击的LLM代理基准测试

AgentLAB: Benchmarking LLM Agents against Long-Horizon Attacks

Tanqiu Jiang, Yuhui Wang, Jiacheng Liang, Ting Wang

7/10 2026-02-18 cs.AI PDF

随着LLM代理越来越多地部署在长期、复杂的环境中以解决具有挑战性的问题，它们也暴露于利用多轮用户-代理-环境交互实现单轮设置中无法达成目标的长期攻击。为衡量代理对这些风险的脆弱性，我们提出了AgentLAB，这是首个专门用于评估LLM代理对自适应长期攻击易感性的基准。目前，AgentLAB支持五种新型攻击类型，包括意图劫持、工具链、任务注入、目标漂移和记忆污染，涵盖28个现实的代理环境和644个安全测试用例。通过AgentLAB，我们评估了代表性LLM代理，发现它们仍然极易受到长期攻击；此外，为单轮交互设计的防御措施无法可靠缓解长期威胁。我们预计AgentLAB将作为跟踪实际场景中保护LLM代理进展的重要基准。

LLM Agents Security Benchmark Long-Horizon Attacks Memory Poisoning

论文涉及Agent Memory相关的攻击类型，如记忆污染，但核心是评估LLM Agent的安全性。

Code

通过上下文共玩家推理实现多智能体协作

Multi-agent cooperation through in-context co-player inference

Marissa A. Weis, Maciej Wołczyk, Rajai Nasser, Rif A. Saurous, Blaise Agüera y Arcas et al.

Marissa A. Weis (Equal contribution) | Maciej Wołczyk (Equal contribution) | Rajai Nasser (Google, Paradigms of Intelligence Team)

7/10 2026-02-18 cs.AI PDF

在多智能体强化学习中，实现自利智能体之间的合作仍是一个基本挑战。近期研究表明，能够考虑并塑造共玩家学习动态的“学习感知”智能体可以诱导相互合作。然而，现有方法通常依赖于硬编码且常不一致的共玩家学习规则假设，或严格区分“天真学习者”和“元学习者”。本文表明，序列模型的上下文学习能力可以在无需硬编码假设或显式时间尺度分离的情况下实现共玩家学习感知。我们发现，对多样化的共玩家进行训练可自然诱导出上下文最佳响应策略，这些策略在快速的单次回合时间尺度上有效地充当了学习算法。我们发现，先前工作中识别的合作机制——即对勒索的脆弱性驱动相互塑造——在此设置中自然出现：上下文适应使智能体易受勒索，而由此产生的相互压力促使它们学习对手的上下文学习动态，最终演化为合作行为。我们的结果表明，结合序列模型的标准去中心化强化学习与共玩家多样性，为学习合作行为提供了一条可扩展的路径。

多智能体强化学习上下文学习合作机制序列模型

论文涉及基于上下文的协同学习机制，与Agent Memory中的动态适应和学习过程相关。

通过上下文蒸馏更新参数化知识以保留微调后的能力

Updating Parametric Knowledge with Context Distillation Retains Post-Training Capabilities

Shankar Padmanabhan, Mustafa Omer Gul, Tanya Goyal

7/10 2026-02-17 cs.CL PDF

微调使预训练的大型语言模型具备多种期望技能，如遵循指令和推理。然而，这些微调后的模型仅编码到某个截止日期的知识，需要持续适应。现有解决方案无法同时从适应文档语料库中学习新知识并缓解早期学习能力的遗忘。为此，我们引入了基于上下文蒸馏的持续知识适应方法DiSC。该方法通过在训练样本的不同片段上生成学生和教师分布，并最小化共享标记之间的KL散度，从而高效应用上下文蒸馏而无需显式生成步骤。我们在四个微调模型和两个适应领域上进行了实验，结果表明，与之前的微调和蒸馏方法相比，DiSC在学习新知识和缓解先前技能（如指令遵循、推理和事实知识）遗忘之间取得了最佳平衡。

持续学习知识蒸馏语言模型微调

论文提出了一种持续知识适应方法，涉及防止遗忘和学习新知识，与Agent Memory相关。

改进基于自然语言反馈的交互式上下文学习

Improving Interactive In-Context Learning from Natural Language Feedback

Martin Klissarov, Jonathan Cook, Diego Antognini, Hao Sun, Jingling Li et al.

Martin Klissarov (Google DeepMind) | Jonathan Cook (Google DeepMind) | Diego Antognini (Google DeepMind)

7/10 2026-02-17 cs.AI PDF

人类学习中根据纠正性反馈调整思维过程是一项关键能力，尤其在协作环境中。相比之下，当前大语言模型的训练范式主要依赖于建模大量静态语料库，忽视了模型动态适应上下文所需的交互反馈循环。本文提出了一种框架，将这种交互式上下文学习能力视为一种可训练的技能而非涌现特性。我们引入了一种可扩展的方法，将单轮可验证任务转化为由信息不对称驱动的多轮教学互动。实验表明，当前主流模型在复杂推理任务上难以整合纠正性反馈，而采用本文方法训练的模型显著提升了从语言反馈中交互式学习的能力。更具体地，较小模型的多轮性能几乎达到一个数量级更大的模型水平。此外，我们在数学问题上的交互式训练能够泛化到编程、谜题和迷宫导航等不同领域。定性分析表明，这一改进源于上下文可塑性的增强。最后，我们展示了该范式为模型自我改进提供了一条统一路径：通过训练模型预测教师的批评，有效建模反馈环境，将外部信号转化为内部能力，使模型即使没有教师也能自我修正。

交互式学习反馈机制模型可塑性自监督学习

论文探讨了模型通过交互式反馈进行动态学习，涉及记忆的可塑性和适应性，与Agent Memory相关但非核心主题。

GlobeDiff: 多智能体系统中部分可观测性的状态扩散过程

GlobeDiff: State Diffusion Process for Partial Observability in Multi-Agent Systems

Yiqin Yang, Xu Yang, Yuhua Jiang, Ni Mu, Hao Hu et al.

7/10 2026-02-17 cs.AI PDF

在多智能体系统领域，部分可观测性是有效协调与决策的关键障碍。现有方法如信念状态估计和智能体间通信往往效果不佳。基于信念的方法受限于对过去经验的依赖，而通信方法缺乏有效利用辅助信息的模型。为了解决这一问题，本文提出全局状态扩散算法（GlobeDiff），通过局部观测推断全局状态。将状态推断过程建模为多模态扩散过程，GlobeDiff克服了状态估计中的模糊性，并能高保真地推断全局状态。我们证明了GlobeDiff在单模态和多模态分布下的估计误差均可被限制。大量实验结果表明，GlobeDiff性能优越，能够准确推断全局状态。

多智能体系统部分可观测性状态推断扩散过程

论文提出GlobeDiff算法解决多智能体系统的部分可观测性问题，涉及全局状态推断，与Agent Memory相关。

学习检索可导航候选以实现高效的视觉与语言导航

Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation

Shutian Gu, Chengkai Huang, Ruoyu Wang, Lina Yao

7/10 2026-02-17 cs.CV PDF

视觉与语言导航（VLN）要求智能体根据自然语言指令在未见过的环境中进行导航。近期方法越来越多地采用大语言模型（LLMs）作为高层导航器，因其灵活性和推理能力。然而，基于提示的LLM导航常因决策效率低下而受到限制，因为模型必须在每一步从头开始解释指令并处理冗余的导航候选。本文提出了一种检索增强框架，在不修改或微调底层语言模型的前提下，提升基于LLM的VLN的效率和稳定性。该方法在两个互补层次引入检索：在任务层面，使用指令级嵌入检索器选择语义相似的成功导航轨迹作为上下文示例；在步骤层面，使用模仿学习的候选检索器在LLM推理前剪枝无关的导航方向，减少动作歧义和提示复杂度。两种检索模块均轻量、模块化且独立于LLM训练。我们在Room-to-Room（R2R）基准上评估了该方法，实验结果表明在已见和未见环境中成功率、Oracle成功率和SPL均有显著提升。消融研究进一步表明，指令级示例检索和候选剪枝分别对全局引导和步骤级决策效率提供了互补性贡献。这些结果表明，检索增强的决策支持是提升基于LLM的视觉与语言导航的有效且可扩展策略。

视觉与语言导航大语言模型检索增强导航效率

论文通过检索机制增强LLM导航效率，涉及记忆相关的内容，但非唯一主题。

增强世界模型的网络代理与行动修正

World-Model-Augmented Web Agents with Action Correction

Zhouzhou Shen, Xueyu Hu, Xiyun Li, Tianqing Fang, Juncheng Li et al.

7/10 2026-02-17 cs.AI PDF

基于大语言模型的网络代理在自动化网络任务方面展现出良好的能力。然而，当前网络代理由于预测环境变化的能力有限，难以推理出合理的行动，并可能缺乏对执行风险的全面认知，从而过早采取高风险行动导致损失和任务失败。为解决这些问题，我们提出了WAC，一种结合模型协作、后果模拟和反馈驱动行动优化的网络代理。为克服单个模型的认知孤立，我们引入了多代理协作过程，使行动模型可以咨询作为网络环境专家的世界模型以获得战略指导；然后，行动模型将这些建议转化为可执行的行动，利用环境状态转移动态的先验知识来增强候选行动提案。为实现风险感知的弹性任务执行，我们引入了一个两阶段的推理链。一个专门研究环境状态转移的世界模型模拟行动结果，然后由判断模型进行审查，并在必要时触发行动修正反馈。实验表明，WAC在VisualWebArena上实现了1.8%的绝对提升，在Online-Mind2Web上实现了1.3%的绝对提升。

web agents action correction world model risk-aware execution

论文涉及基于世界模型的行动修正机制，与Agent Memory中的环境状态模拟和风险评估相关。

视觉虫洞：异构多智能体系统中的潜在空间通信

The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems

Xiaoze Liu, Ruowang Zhang, Weichen Yu, Siheng Xiong, Liu He et al.

7/10 2026-02-17 cs.CL PDF

由大型语言模型驱动的多智能体系统（MAS）实现了先进的协作推理，但受限于离散文本通信的低效性，导致运行时开销大且信息量化损失严重。尽管潜在状态转移提供了一种高带宽替代方案，现有方法要么假设发送方和接收方架构同质化，要么依赖特定配对的学习翻译器，限制了在具有不连续流形的不同模型家族中的可扩展性和模块化。本文提出了一种名为Vision Wormhole的新框架，通过重用视觉语言模型（VLMs）的视觉接口，实现模型无关、无需文本的通信。通过引入通用视觉编解码器，将异构推理轨迹映射到共享的连续潜在空间，并直接注入接收者的视觉路径中，从而将视觉编码器视为智能体间心灵感应的通用端口。该框架采用中心辐射式拓扑结构，将成对对齐复杂度从O(N^2)降低至O(N)，并利用无标签的教师-学生蒸馏目标，使高速视觉通道与文本路径的稳健推理模式保持一致。在多个异构模型家族（如Qwen-VL、Gemma）上的广泛实验表明，Vision Wormhole在受控比较中减少了端到端的墙钟时间，同时保持了与标准文本MAS相当的推理保真度。

多智能体系统潜在空间通信视觉语言模型异构模型通信

论文提出了一种基于视觉编码的异构多智能体通信框架，涉及隐空间信息传递，与Agent Memory相关。

Code

长上下文，少关注：通过隐私与个性化揭示LLM中的扩展差距

Long Context, Less Focus: A Scaling Gap in LLMs Revealed through Privacy and Personalization

Shangding Gu

7/10 2026-02-16 cs.LG PDF

大型语言模型（LLMs）越来越多地应用于隐私敏感和个性化场景，但上下文长度在塑造隐私泄露和个人化效果中的作用尚未得到充分研究。我们引入了一个大规模基准测试PAPerBench，系统研究上下文长度增加如何影响LLMs的个性化质量和隐私保护。该基准包含约29,000个实例，上下文长度从1K到256K tokens不等，共生成377K个评估问题。它联合评估了不同场景下的个性化性能和隐私风险，支持对长上下文模型行为的可控分析。对当前最先进的LLMs进行广泛评估，发现随着上下文长度增加，个性化和隐私保护性能均出现退化。我们进一步提供了关于上下文扩展下注意力稀释的理论分析，将这种行为解释为固定容量Transformer中软注意力的固有局限性。实证和理论结果共同表明，当前模型存在一个普遍的扩展差距——长上下文，少关注。我们发布该基准以支持可重复的评估和未来关于可扩展隐私与个性化的研究。

LLM Privacy Personalization Attention Mechanism Context Length

论文探讨了上下文长度对隐私和个性化的影响，涉及注意力机制的稀释问题，与Agent Memory相关。

Code

位置：从对话环境中获得的内省经验作为更好学习的途径

Position: Introspective Experience from Conversational Environments as a Path to Better Learning

Claudiu Cristian Musat, Jackson Tolins, Diego Antognini, Jingling Li, Martin Klissarov et al.

7/10 2026-02-16 cs.AI PDF

当前的人工智能训练方法将推理视为规模增长的副产品。本文认为，稳健的推理能力源于语言自我反思，而这种反思本身是通过高质量的社会互动内化的。基于维果茨基的发展心理学理论，本文提出了三个核心观点：首先，私人思维的社会起源表明，从对话环境中学习成为理解世界的新方式；与另一个智能体（无论是否为内部）对齐时产生的摩擦，有助于完善和固化推理过程。其次，通过对话构建的内省体验使智能体能够脱离即时数据流进行意义建构，将原始环境数据转化为丰富的、可学习的叙述。最后，对话质量即新的数据质量：智能体私密推理的深度及其测试时计算效率，取决于其掌握的对话多样性与严谨性。结论指出，优化这些对话框架是下一代通用智能的关键杠杆。

对话学习内省机制社会互动认知发展 AI训练

论文探讨了对话环境中的自我反思对学习的影响，与Agent Memory中通过交互优化推理过程相关。

Atomix：用于可靠智能体工作流的及时、事务性工具使用

Atomix: Timely, Transactional Tool Use for Reliable Agentic Workflows

Bardia Mohammadi, Nearchos Potamitis, Lars Klein, Akhil Arora, Laurent Bindschaedler

7/10 2026-02-16 cs.LG PDF

随着LLM代理越来越多地作用于外部系统，但工具的效果是即时的。在发生故障、推测或竞争时，丢失分支可能导致意外的副作用且无法安全回滚。本文提出Atomix，一个提供进度感知事务语义的运行时环境，用于代理工具调用。Atomix为每个调用标记一个纪元，跟踪每个资源的前沿，并仅在进度谓词表明安全时提交；可缓冲的效果可以延迟，而外部效果则被跟踪并在中止时进行补偿。通过注入故障的真实工作负载测试，事务重试提高了任务成功率，而前沿门控提交在推测和竞争下增强了隔离性。

LLM Agent 事务处理可靠工作流状态管理

论文涉及Agent工具调用的事务性语义，与可靠工作流中的记忆或状态管理相关。

基于先例的推理：通过测试时先例学习缓解大推理模型的过度思考问题

Precedent-Informed Reasoning: Mitigating Overthinking in Large Reasoning Models via Test-Time Precedent Learning

Qianyue Wang, Jinwu Hu, Huanxiang Lin, Bolin Chen, Zhiquan Wen et al.

7/10 2026-02-16 cs.AI PDF

大型语言模型（LLMs）在推理过程中常因冗长且低效的思维链而产生较高的计算成本并降低性能。受人类推理模式启发，本文提出基于先例的推理（PIR），将推理范式从耗尽式的自我探索转变为基于先例的引导学习。PIR主要解决两个关键挑战：如何选择合适的先例以及如何有效利用这些先例。首先，自适应先例选择（APS）为每个问题和模型构建一个语义相关且信息丰富的先例集合，并通过联合评分（语义相似度与模型困惑度）进行排序，以最大化困惑度的减少。其次，测试时经验内化（TEI）作为测试时的学习机制，通过更新轻量级适配器来内化解决方案模式，并将其作为后续推理的先验知识。实验结果表明，PIR在数学推理、科学问答和代码生成任务中均能有效缩短推理路径，同时保持或提升最终准确性，实现了优异的准确率-效率权衡。

Agent Memory 推理优化先例学习 LLM推理测试时学习

论文提出基于先例的推理机制，涉及记忆利用以优化推理过程，属于Agent Memory相关研究。

向谁查询什么：通过多轮LLM交互实现自适应群体信息获取

Whom to Query for What: Adaptive Group Elicitation via Multi-Turn LLM Interactions

Ruomeng Ding, Tianwei Gao, Thomas P. Zollo, Eitan Bachmat, Richard Zemel et al.

Ruomeng Ding (University of North Carolina at Chapel Hill) | Tianwei Gao* (University of North Carolina at Chapel Hill) | Thomas P. Zollo (Columbia University)

7/10 2026-02-15 cs.LG PDF

从调查和其他集体评估中获取信息以减少对潜在群体属性的不确定性，需要在真实成本和数据缺失的情况下合理分配有限的提问资源。尽管大语言模型支持自然语言下的自适应、多轮交互，但现有方法大多固定受访者群体，未能根据部分或不完整响应调整受访者选择或利用人口结构。为弥补这一不足，本文研究了自适应群体信息获取问题，在明确的查询和参与预算下，代理自适应地选择问题和受访者。我们提出了一种理论支撑的框架，结合（i）基于LLM的预期信息增益目标来评分候选问题，以及（ii）异构图神经网络传播，用于聚合观察到的响应和参与者属性，以填补缺失响应并指导每轮受访者的选取。该闭环过程在查询少量具有信息量的个体的同时，通过结构相似性推断群体层面的响应。在三个现实世界的观点数据集上，我们的方法在受限预算下一致提升了群体层面的响应预测性能，包括在10%受访者预算下CES指标超过12%的相对提升。

LLM 群体信息获取图神经网络自适应查询

论文涉及基于LLM的自适应信息获取，与Agent Memory中的响应选择和信息聚合相关。

面向视觉-语言模型长视频理解的双信号自适应KV缓存优化

Dual-Signal Adaptive KV-Cache Optimization for Long-Form Video Understanding in Vision-Language Models

Vishnu Sai, Dheeraj Sai, Srinath B, Girish Varma, Priyesh Shukla

7/10 2026-02-15 cs.CV PDF

视觉-语言模型（VLMs）在处理长视频内容时面临关键的内存瓶颈，因为Key-Value（KV）缓存随序列长度线性增长。现有解决方案主要采用反应式驱逐策略，在丢弃token前计算完整的注意力矩阵，导致大量计算浪费。本文提出Sali-Cache，一种新颖的先验优化框架，通过主动内存管理实现双信号自适应缓存。该方法结合基于光流分析的时间滤波器以检测帧间冗余，并利用显著性检测的空间滤波器识别视觉重要区域，从而在进入计算密集型注意力操作之前智能管理内存分配。在LLaVA 1.6架构上的实验评估表明，该方法在保持BLEU、ROUGE-L和Exact Match指标100%准确率的同时，有效内存使用量达到2.20倍的压缩比。此外，在相同的内存预算约束下，Sali-Cache能够在更长的时间范围内保留上下文丰富的特征，而不会降低模型性能，从而实现在消费级硬件上高效处理长视频内容。

KV缓存优化视觉-语言模型长视频处理内存管理

论文聚焦KV缓存优化，涉及内存管理机制，是长视频处理中的关键问题。

REDSearcher：一种可扩展且成本高效的长时域搜索代理框架

REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents

Zheng Chu, Xiao Wang, Jack Hong, Huiming Fan, Yuqi Huang et al.

7/10 2026-02-15 cs.AI PDF

大型语言模型正在从通用知识引擎向现实问题求解器转变，但在深度搜索任务上的优化仍具挑战性。主要瓶颈在于高质量搜索轨迹和奖励信号的极端稀疏性，这源于可扩展长时域任务构建的困难以及外部工具调用带来的高交互成本。为解决这些问题，我们提出了REDSearcher，一个统一的框架，联合设计复杂任务合成、中期训练和后期训练以实现可扩展的搜索代理优化。具体而言，REDSearcher引入了以下改进：（1）我们将任务合成视为双约束优化问题，通过图拓扑和证据分布精确控制任务难度，从而生成复杂且高质量的任务。（2）我们引入工具增强查询，鼓励主动使用工具而非被动回忆。（3）在中期训练中，我们显著增强了核心原子能力，包括知识、规划和函数调用，大幅降低了收集高质量轨迹的成本。（4）我们构建了一个本地模拟环境，支持快速、低成本的强化学习算法迭代。在文本和多模态搜索代理基准测试中，我们的方法均达到最先进水平。为促进未来对长时域搜索代理的研究，我们将发布10K条高质量复杂文本搜索轨迹、5K条多模态轨迹和1K条文本强化学习查询集，并提供代码和模型检查点。

搜索代理强化学习任务合成工具调用长时域优化

论文涉及搜索代理的长期任务优化，与记忆机制相关但非核心主题。

Code

文本先于视觉：分阶段知识注入对超高分辨率遥感理解中智能体强化学习的重要性

Text Before Vision: Staged Knowledge Injection Matters for Agentic RLVR in Ultra-High-Resolution Remote Sensing Understanding

Fengxiang Wang, Mingshuo Chen, Yueying Li, Yajie Yang, Yuhao Zhou et al.

7/10 2026-02-15 cs.AI PDF

超高分辨率（UHR）遥感的多模态推理通常受限于视觉证据的获取：模型需要在庞大的像素空间中定位微小的任务相关区域。尽管使用放大工具的智能体强化学习与可验证奖励（RLVR）提供了一种解决方案，但我们发现标准强化学习在没有结构化领域先验的情况下难以导航这些庞大的视觉空间。本文研究了后训练范式之间的相互作用，比较了冷启动监督微调（SFT）、RLVR和智能体RLVR在UHR遥感基准上的表现。受控研究表明，高质量的地球科学文本问答是推动UHR视觉推理提升的主要因素。尽管缺乏图像，特定领域的文本可以注入指导视觉证据检索所需的概念、机制解释和决策规则。基于此，我们提出了一种分阶段的知识注入方法：（1）通过可扩展且知识图谱验证的地球科学文本问答进行冷启动，以建立推理结构；（2）在SFT阶段使用相同的困难UHR图文示例进行“预热”，以稳定并增强后续基于工具的强化学习。该方法在XLRS-Bench上实现了60.40%的Pass@1，显著优于更大的通用模型（如GPT-5.2、Gemini 3.0 Pro、Intern-S1），并建立了新的最先进水平。

Agent Memory RLVR 知识注入遥感理解多模态推理

论文探讨了知识注入对Agent在视觉推理中的作用，涉及记忆机制的应用。

迈向自主O-RAN：面向实时网络控制与管理的多尺度智能体AI框架

Toward Autonomous O-RAN: A Multi-Scale Agentic AI Framework for Real-Time Network Control and Management

Hojjat Navidan, Mohammad Cheraghinia, Jaron Fontaine, Mohamed Seif, Eli De Poorter et al.

7/10 2026-02-15 cs.NI PDF

开放无线接入网络（O-RAN）通过解耦和软件驱动的组件以及开放接口，为6G网络提供了灵活的接入方式，但其可编程性也增加了操作复杂性。服务管理层和RAN智能控制器（RIC）中存在多个控制回路，而独立开发的控制应用可能以非预期的方式交互。近期生成式人工智能（AI）的进步推动了从孤立AI模型向智能体AI系统的转变，这些系统能够解释目标、协调多个模型和控制功能，并随时间调整行为。本文提出了一种适用于O-RAN的多尺度智能体AI框架，将RAN智能组织为跨非实时（Non-RT）、近实时（Near-RT）和实时（RT）控制回路的协调层次结构：（i）在Non-RT RIC中，一个大型语言模型（LLM）代理将运营商意图转化为策略并管理模型生命周期；（ii）在Near-RT RIC中，小型语言模型（SLM）代理执行低延迟优化，并能激活、调整或禁用现有控制应用；（iii）靠近分布式单元的无线物理层基础模型（WPFM）代理提供接近空中接口的快速推理。我们描述了这些代理如何通过标准化的O-RAN接口和遥测数据进行协作。使用基于开源模型、软件和数据集的原型实现，我们在两个代表性场景中展示了所提出的智能体方法：在非平稳条件下的鲁棒运行和意图驱动的切片资源控制。

O-RAN 智能体AI 多层级控制意图驱动生成式AI

论文涉及Agent在O-RAN中的多层级协作，包含记忆和意图的处理机制，但非核心研究主题。

NEST：初生的编码隐写思想

NEST: Nascent Encoded Steganographic Thoughts

Artem Karpov

7/10 2026-02-15 cs.AI PDF

监控思维链（CoT）推理是大型语言模型（LLM）代理的基础安全技术；然而，如果模型学会隐藏其推理过程，这种监控将受到威胁。本文探讨了隐写式CoT的可能性——即模型在无害文本中隐藏秘密推理，以用于风险评估和部署策略。我们系统地评估了28个模型（从早期到当前前沿）的隐写能力限制，并测量了四个数据集上的监控规避、拒绝率、编码保真度和隐藏任务准确性，将隐写式首字母缩略词与普通推理和填充标记基线进行比较。我们发现当前模型尚无法在复杂的数学和算术任务中维持隐藏推理。然而，在简化计数实验中，Claude Opus 4.5在隐藏任务上达到了92%的准确率，表明其具备初步能力。值得注意的是，在极少数情况下（<1%），GPT-5.2可能在拒绝隐写指令的同时仍遵守它们。我们的研究强调了对隐写风险进行持续评估的必要性。本研究提供了一种方法，可提前检测和防止可能助长对齐偏差和欺骗行为的隐藏推理。

隐写术思维链 LLM安全 Agent记忆风险评估

论文探讨了LLM通过隐写术隐藏推理过程的能力，涉及Agent Memory中的隐蔽性与监控问题。

上下文塑造基于LLM的检索增强事实核查效果

Context Shapes LLMs Retrieval-Augmented Fact-Checking Effectiveness

Pietro Bernardelle, Stefano Civelli, Kevin Roitero, Gianluca Demartini

Pietro Bernardelle (The University of QueenslandBrisbaneAustralia) | Stefano Civelli (The University of QueenslandBrisbaneAustralia) | Kevin Roitero (University of UdineUdineItaly)

7/10 2026-02-15 cs.CL PDF

大型语言模型（LLMs）在各种任务中表现出强大的推理能力，但其在扩展上下文中的表现仍不一致。尽管先前研究强调了问答任务中中段上下文退化现象，本研究则考察了基于LLM的事实验证中上下文的影响。使用三个数据集（HOVER、FEVEROUS和ClimateFEVER）以及五个不同参数规模（7B、32B和70B）和模型家族（Llama-3.1、Qwen2.5和Qwen3）的开源模型，评估了参数化事实知识及不同上下文长度下证据位置的影响。我们发现，LLMs展现出非平凡的参数化事实知识，并且随着上下文长度增加，其验证准确性通常下降。与之前的研究结果相似，上下文中相关证据的位置起着关键作用，当相关证据出现在提示的开头或结尾时，准确性较高；而当证据位于中间时，准确性较低。这些结果突显了在检索增强的事实核查系统中提示结构的重要性。

LLM Fact-Checking Context Length Evidence Placement Retrieval-Augmented

论文探讨了上下文对事实核查的影响，涉及提示结构和证据位置，与Agent Memory相关。

提示驱动的低空边缘智能：模块化代理与生成式推理

Prompt-Driven Low-Altitude Edge Intelligence: Modular Agents and Generative Reasoning

Jiahao You, Ziye Jia, Chao Dong, Qihui Wu

7/10 2026-02-15 cs.AI PDF

大型人工智能模型（LAMs）在感知、推理和多模态理解方面表现出强大能力，能够为低空边缘智能提供先进功能。然而，LAMs在边缘部署仍受到一些根本性限制。首先，任务与特定模型紧密绑定，限制了灵活性；其次，全规模LAMs的计算和内存需求超出了大多数边缘设备的容量；此外，当前的推理流程通常是静态的，难以应对任务的实时变化。为了解决这些挑战，本文提出了一种提示到代理的边缘认知框架（P2AECF），实现灵活、高效和自适应的边缘智能。具体而言，P2AECF通过三种关键机制将高层语义提示转换为可执行的推理工作流。第一，基于提示的认知解析将任务意图转化为抽象且与模型无关的表示形式；第二，基于代理的模块化执行根据当前资源条件动态选择轻量级且可重用的认知代理来实例化任务；第三，扩散控制的推理规划通过结合运行时反馈和系统上下文自适应地构建和优化执行策略。此外，本文通过一个代表性的低空智能网络用例展示了该框架的能力，证明其可以为实时低空空中协作提供自适应、模块化和可扩展的边缘智能。

边缘计算模块化代理生成式推理动态资源管理低空智能

论文涉及基于提示的边缘智能框架，包含动态推理和资源管理，与Agent Memory相关但非核心主题。

用于软提示的认知分块：通过分块因果掩码加速压缩器学习

Cognitive Chunking for Soft Prompts: Accelerating Compressor Learning via Block-wise Causal Masking

Guojie Liu, Yiqi Wang, Yanfeng Yang, Wenqi Fan, Songlei Jian et al.

Yiqi Wang (National University of Defense TechnologyChangshaChina) | Yanfeng Yang (National University of Defense TechnologyChangshaChina)

7/10 2026-02-15 cs.AI PDF

通过提示提供广泛上下文对于利用大语言模型（LLMs）的能力至关重要。然而，长上下文显著增加了推理延迟，因为自注意力计算成本随序列长度呈二次增长。为缓解此问题，上下文压缩——特别是软提示压缩——已成为广泛研究的解决方案，其通过训练好的压缩器将长上下文转换为较短的记忆嵌入。现有方法通常不加区分地将整个上下文压缩为一组记忆标记，要求压缩器捕捉全局依赖关系，并需要大量预训练数据以学习有效的模式。受人类工作记忆中的分块机制以及记忆嵌入相对于原始标记的空间特化性的启发，我们提出并行迭代压缩（PIC）。通过简单修改Transformer的注意力掩码，PIC明确限制记忆标记的感受野至顺序局部块，从而降低压缩器训练难度。在多个下游任务上的实验表明，PIC始终优于竞争基线，在高压缩场景下表现尤为突出（例如在64倍压缩比下，问答任务的F1分数和EM分数分别提高了29.8%和40.7%）。此外，PIC显著加快了训练过程。具体而言，在训练16倍压缩器时，它超越了竞争基线的峰值性能，同时将训练时间减少了约40%。

上下文压缩软提示 Transformer优化记忆嵌入分块机制

论文涉及基于记忆压缩的上下文处理，与Agent Memory相关但非唯一主题。

从流畅到可验证：面向深度研究代理的声明级可审计性

From Fluent to Verifiable: Claim-Level Auditability for Deep Research Agents

Razeen A Rasheed, Somnath Banerjee, Animesh Mukherjee, Rima Hazra

Razeen A Rasheed (Indian Institute of Science) | Somnath Banerjee (IIT Kharagpur, Cisco Systems) | Animesh Mukherjee (IIT Kharagpur)

7/10 2026-02-14 cs.AI PDF

深度研究代理可以在几分钟内生成流畅的科学报告；然而，仔细阅读后发现，真正的成本并非阅读本身，而是追溯：哪句话由哪个段落支持，哪些内容被忽略，以及证据之间存在冲突。我们认为，随着研究生成变得容易，可审计性成为瓶颈，主要风险也从孤立的事实错误转变为具有科学风格但声明-证据联系薄弱、缺失或误导的输出。本文提出声明级可审计性作为深度研究代理设计和评估的核心目标，总结了长期失败模式（目标漂移、瞬时约束和不可验证推理），并引入了可审计自主研究（AAR）标准，这是一个紧凑的度量框架，通过溯源覆盖率、溯源正确性、矛盾透明性和审计努力来测试可审计性。我们还主张使用语义溯源与协议化验证：持久且可查询的溯源图谱，编码声明-证据关系（包括冲突），并在合成过程中而非发布后进行持续验证，并提供实用的仪器模式以支持大规模部署。

Agent Memory 可审计性溯源深度研究代理验证框架

论文聚焦于研究代理的可审计性，涉及证据追踪与溯源，与Agent Memory相关但非唯一主题。

PrivAct：通过多智能体偏好训练实现上下文隐私保护的内化

PrivAct: Internalizing Contextual Privacy Preservation via Multi-Agent Preference Training

Yuhan Cheng, Hancheng Ye, Hai Helen Li, Jingwei Sun, Yiran Chen

7/10 2026-02-14 cs.CL PDF

大型语言模型（LLM）代理越来越多地用于涉及敏感、上下文依赖信息的个性化任务，在此过程中，由于上下文隐私的隐含性，代理的行为可能导致隐私泄露。现有方法依赖于外部推理时的干预措施，这些方法脆弱且场景特定，可能扩大隐私攻击面。本文提出PrivAct，一种上下文隐私感知的多智能体学习框架，将上下文隐私保护直接内化到模型的生成行为中，以确保符合隐私规范的代理行为。通过将隐私偏好嵌入每个代理，PrivAct增强了系统的上下文完整性，同时实现了更优的隐私与实用性权衡。在多个LLM主干和基准上的实验表明，PrivAct在上下文隐私保护方面表现出一致的改进，泄漏率降低了高达12.32%，同时保持了相当的实用性，并具备零样本泛化能力和对多样化的多智能体拓扑结构的鲁棒性。

隐私保护多智能体学习上下文完整性 LLM代理

论文涉及隐私保护与多智能体生成行为，间接关联记忆机制。

Code

MAS-on-the-Fly：测试时基于LLM的多智能体系统的动态适应

MAS-on-the-Fly: Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time

Guangyi Liu, Haojun Lin, Huan Zeng, Heng Wang, Quanming Yao

7/10 2026-02-14 cs.MA PDF

基于大语言模型（LLM）的多智能体系统（MAS）已成为解决复杂任务的一种有前途的范式。然而，现有工作通常依赖于手动设计或“一刀切”的自动化方法，缺乏部署后的动态适应能力。受生物系统适应方式的启发，本文提出MASFly，一种新型多智能体框架，能够在测试时实现动态适应。为适应系统生成，MASFly采用了一种检索增强的标准操作程序（SOP）实例化机制，利用自构建的成功协作模式库，使LLM能够为新查询组装定制化的MAS。在适应执行方面，MASFly引入了经验引导的监督机制，其中专门的Watcher代理通过参考个性化经验池监控系统行为并提供实时干预。大量实验表明，MASFly在TravelPlanner基准测试中实现了61.7%的成功率，表现出强大的任务适应性和鲁棒性。

多智能体系统动态适应经验引导监督 LLM

论文涉及动态适应机制，与Agent Memory相关，但非核心主题。

PT-RAG：面向学术论文的结构保真检索增强生成

PT-RAG: Structure-Fidelity Retrieval-Augmented Generation for Academic Papers

Rui Yu, Tianyi Wang, Ruixia Liu, Yinglong Wang

Rui Yu (Qilu University of Technology (Shandong Academy of Sciences)JinanShandongChina) | Tianyi Wang (National University of SingaporeSingaporeSingapore) | Ruixia Liu (Qilu University of Technology (Shandong Academy of Sciences)JinanShandongChina)

7/10 2026-02-14 cs.IR PDF

检索增强生成（RAG）在长篇学术论文的问答任务中应用日益广泛，其中在固定token预算下准确分配证据至关重要。现有方法通常将学术论文预处理为无结构的块，破坏了其原生的层次结构。这种损失迫使检索在无序空间中进行，导致上下文碎片化、token被错误分配到非证据区域，并增加下游语言模型的推理负担。为此，本文提出PT-RAG，一种RAG框架，将学术论文的原生层次结构视为低熵检索先验。PT-RAG首先继承原生层次结构构建结构保真的PaperTree索引，防止源端熵增加；然后设计路径引导检索机制，将查询语义对齐到相关部分，并在固定token预算下选择高相关性的根到叶路径，从而生成紧凑、连贯且低熵的检索上下文。与现有RAG方法相比，PT-RAG避免了破坏性预处理引起的熵增加，并为后续检索提供了原生的低熵结构基础。为评估该设计，本文引入基于熵的结构诊断方法，量化检索碎片化和证据分配准确性。在三个学术问答基准测试中，PT-RAG在段落熵和证据对齐交叉熵方面均优于强基线，表明其上下文碎片化减少且更精确地分配到证据区域。这些结构优势直接提升了答案质量。

RAG 结构检索学术问答低熵检索上下文优化

论文涉及RAG框架中信息检索与上下文构建，与Agent Memory中的证据分配和结构保持相关。

通过基于熵的理解评估和经验检索实现异构LLM多智能体系统中的引导协作

Guided Collaboration in Heterogeneous LLM-Based Multi-Agent Systems via Entropy-Based Understanding Assessment and Experience Retrieval

Linlin Wang, Tianqing Zhu, Laiqiao Qin, Longxiang Gao, Wanlei Zhou

7/10 2026-02-14 cs.AI PDF

随着大型语言模型（LLMs）在推理、规划和复杂任务生成方面的突破，人工智能系统正从孤立的单智能体架构向具有协作智能的多智能体系统转变。然而，在异构多智能体系统（HMAS）中，智能体之间的能力差异导致了一致性的认知问题，强弱模型无法有效贡献。本文将协作定义为强弱系统，并通过全面实验揭示了一个反直觉现象：强弱协作可能表现不如弱弱组合，表明认知不匹配是限制异构协作的关键瓶颈。为克服这些挑战，我们提出了一种基于熵的自适应引导框架，动态地根据每个智能体的认知状态调整引导强度。该框架通过多维熵度量（包括表达、不确定性、结构、一致性和相关性）量化弱智能体的理解能力，并以轻度、中度和重度三种级别自适应调整引导强度。此外，引入了检索增强生成（RAG）机制，保留成功的协作经验，实现即时适应和长期学习。在GSM8K、MBPP和CVRP三个基准数据集上的广泛实验表明，我们的方法显著提升了异构协作的有效性和稳定性。结果表明，自适应引导不仅缓解了认知不平衡，还为更稳健、协作的多智能体智能提供了可扩展的路径。

多智能体系统熵评估协作机制 RAG 异构系统

论文涉及基于熵的认知评估与经验检索，与Agent Memory相关但非核心主题。

上下文自主网络事件响应：一种端到端的大型语言模型代理方法

In-Context Autonomous Network Incident Response: An End-to-End Large Language Model Agent Approach

Yiran Gao, Kim Hammar, Tao Li

7/10 2026-02-13 cs.CR PDF

随着网络攻击的快速演变，需要能够自主学习和适应威胁的事件响应系统。先前的研究主要依赖强化学习方法，但该方法需要人工构建模拟器，并且会抑制原始系统日志和警报中的有用语义。为了解决这些问题，本文提出利用大型语言模型（LLM）的预训练安全知识和上下文学习能力，构建一个端到端的代理解决方案用于事件响应规划。具体而言，该代理集成了感知、推理、规划和行动四个功能模块，整合于一个轻量级的LLM（14b模型）中。通过微调和链式推理，该LLM代理能够处理系统日志并推断底层网络状态（感知），更新其对攻击模型的推测（推理），模拟不同响应策略下的后果（规划），并生成有效的响应（行动）。通过将LLM模拟结果与实际观测进行比较，代理不断优化其攻击推测和相应响应，从而实现上下文自适应。该代理方法无需建模，可在普通硬件上运行。在文献中报告的事件日志上的评估表明，该代理的恢复速度比前沿LLM快23%。

LLM Agent 网络安全事件响应上下文学习

论文涉及LLM代理在网络安全中的应用，包含感知、推理、规划和行动模块，与记忆机制相关但非核心。

向内看以探索向外：通过分层强化学习从LLM内部状态中学习温度策略

Look Inward to Explore Outward: Learning Temperature Policy from LLM Internal States via Hierarchical RL

Yixiao Zhou, Yang Li, Dongzhou Cheng, Hehe Fan, Yu Cheng

7/10 2026-02-13 cs.LG PDF

基于可验证奖励的强化学习（RLVR）通过采样轨迹训练大型语言模型（LLMs），使解码策略成为学习的核心组成部分，而不仅仅是推理时的选择。采样温度直接通过调节策略熵控制探索与利用的权衡，但现有方法依赖静态值或启发式适应，这些方法与任务级奖励脱节。本文提出Introspective LLM，一种分层强化学习框架，能够在生成过程中学习控制采样温度。在每个解码步骤中，模型根据其隐藏状态选择温度，并从相应分布中采样下一个标记。温度和标记策略通过坐标上升方案从下游奖励中联合优化。在数学推理基准上的实验表明，所学温度策略优于固定和启发式基线，并表现出与推理不确定性一致的可解释探索行为。

强化学习 LLM采样策略探索-利用平衡分层学习

论文涉及LLM内部状态与温度策略学习，与Agent Memory相关但非唯一主题。

知得更多，知得更清楚：面向大语言模型知识增强的元认知框架

Know More, Know Clearer: A Meta-Cognitive Framework for Knowledge Augmentation in Large Language Models

Hao Chen, Ye He, Yuchun Fan, Yukun Yan, Zhenghao Liu et al.

7/10 2026-02-13 cs.CL PDF

知识增强显著提升了大语言模型在知识密集型任务中的表现。然而，现有方法通常基于一个简单前提，即模型性能等同于内部知识，忽视了导致过度自信错误或不确定真相的知识-置信度差距。为弥合这一差距，本文提出了一种新的元认知框架，通过差异化的干预和对齐实现可靠的知识增强。该方法利用内部认知信号将知识空间划分为掌握、困惑和缺失区域，指导有针对性的知识扩展。此外，我们引入了一致性机制，使主观确定性与客观准确性同步，确保校准后的知识边界。大量实验表明，我们的框架在多个基准测试中均优于现有方法，验证了其不仅提升知识能力，还能促进更好区分已知与未知的认知行为。

知识增强元认知框架不确定性处理大语言模型

论文涉及知识增强与模型自信度的关联，间接关联到Agent Memory中的知识管理与不确定性处理。

WebClipper: 基于图的轨迹剪枝实现网络代理的高效进化

WebClipper: Efficient Evolution of Web Agents with Graph-based Trajectory Pruning

Junjie Wang, Zequn Xie, Dan Yang, Jie Feng, Yue Shen et al.

7/10 2026-02-13 cs.AI PDF

基于网络代理的深度研究系统在解决复杂信息检索任务方面展现出强大潜力，但其搜索效率仍鲜有研究。我们发现许多最先进的开源网络代理依赖于长工具调用轨迹、循环推理和无生产力分支的探索。为了解决这一问题，我们提出了WebClipper框架，通过基于图的剪枝压缩网络代理的轨迹。具体而言，我们将代理的搜索过程建模为状态图，并将轨迹优化转化为最小必要有向无环图（DAG）挖掘问题，从而生成保留关键推理步骤并去除冗余步骤的精简轨迹。在这些优化后的轨迹上进行持续训练，使代理能够进化出更高效的搜索模式，在减少约20%的工具调用次数的同时提高准确性。此外，我们引入了一个新的指标F-AE分数，用于衡量模型在准确性和效率之间的平衡能力。实验表明，WebClipper能够在保持优异性能的同时压缩工具调用次数，为网络代理设计中平衡效果与效率提供了实用见解。

轨迹优化图结构代理效率工具调用

论文提出基于图的轨迹剪枝方法，优化Agent搜索效率，与记忆机制相关。

快速与慢速思考：面向LLM代理的步骤级认知深度自适应

Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents

Ruihan Yang, Fanghua Ye, Xiang We, Ruoqing Zhao, Kang Luo et al.

7/10 2026-02-13 cs.AI PDF

大型语言模型（LLMs）越来越多地被部署为自主代理，用于多轮决策任务。然而，当前代理通常依赖于固定的认知模式：非思考模型生成即时响应，而思考模型则进行统一的深度推理。这种刚性对于长期任务效率低下，因为每一步的认知需求差异较大，有些需要战略规划，而有些只需常规执行。本文引入CogRouter框架，训练代理在每一步动态调整认知深度。基于ACT-R理论，设计了从本能反应到战略规划的四个层次认知级别。两阶段训练方法包括认知感知监督微调（CoSFT）以建立稳定的层级特定模式，以及认知感知策略优化（CoPO），通过置信度感知优势重新加权实现步骤级信用分配。关键见解是适当的认知深度应最大化结果动作的置信度。在ALFWorld和ScienceWorld上的实验表明，CogRouter在效率方面达到最先进的性能。使用Qwen2.5-7B时，其成功率达到82.3%，优于GPT-4o、OpenAI-o3和GRPO，同时使用的token减少了62%。

LLM Agent Cognitive Depth Adaptation ACT-R Theory Multi-step Decision Making

论文提出动态调整认知深度的框架，与Agent Memory机制相关，但非唯一主题。

AttentionRetriever：注意力层实际上是秘密的长文档检索器

AttentionRetriever: Attention Layers are Secretly Long Document Retrievers

David Jiahao Fu, Lam Thanh Do, Jiayu Li, Kevin Chen-Chuan Chang

7/10 2026-02-12 cs.IR PDF

检索增强生成（RAG）已被广泛用于帮助大型语言模型（LLMs）处理涉及长文档的任务。然而，现有的检索模型并未专门设计用于长文档检索，无法解决长文档检索中的几个关键挑战，包括上下文感知、因果依赖性和检索范围。在本文中，我们提出了AttentionRetriever，一种新的长文档检索模型，该模型利用注意力机制和基于实体的检索方法，为长文档构建上下文感知的嵌入并确定检索范围。通过大量实验，我们发现AttentionRetriever在长文档检索数据集上的表现显著优于现有检索模型，同时保持了与密集检索模型相当的效率。

长文档检索注意力机制 RAG 上下文感知

论文提出了一种针对长文档检索的模型，涉及上下文感知和检索范围，与Agent Memory相关。

基于策略的上下文蒸馏用于语言模型

On-Policy Context Distillation for Language Models

Tianzhu Ye, Li Dong, Xun Wu, Shaohan Huang, Furu Wei

7/10 2026-02-12 cs.CL PDF

上下文蒸馏使语言模型能够将上下文中的知识内化为其参数。在本研究中，我们提出了一种名为On-Policy Context Distillation (OPCD)的框架，通过在学生模型自身生成的轨迹上进行训练，并最小化与条件上下文教师模型之间的反向Kullback-Leibler散度，从而连接了基于策略的蒸馏与上下文蒸馏。我们在两个重要应用中验证了OPCD的有效性：经验性知识蒸馏，即模型从历史解决方案中提取并巩固可迁移的知识；系统提示蒸馏，即模型内化优化提示中编码的有益行为。在数学推理、基于文本的游戏和特定领域任务中，OPCD始终优于基线方法，在提高任务准确性的同时更好地保留了分布外能力。此外，我们还表明OPCD能够实现有效的跨规模蒸馏，较小的学生模型可以从较大的教师模型中内化经验性知识。

知识蒸馏上下文学习语言模型 Agent Memory

论文涉及模型内部化上下文知识，与Agent Memory相关，但非唯一主题。

面向查询和记忆感知的长上下文处理重排序框架

Query-focused and Memory-aware Reranker for Long Context Processing

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin et al.

7/10 2026-02-12 cs.CL PDF

本文基于对大语言模型中检索头的现有分析，提出了一种替代的重排序框架，训练模型使用所选头部的注意力分数来估计文档与查询的相关性。该方法提供了一种列表级解决方案，在排序过程中利用整个候选短名单中的整体信息。同时，它自然地生成连续的相关性分数，使得可以在任意检索数据集上进行训练，而无需Likert量表监督。该框架轻量且有效，仅需小规模模型（如4B参数）即可实现良好性能。大量实验表明，该方法在多个领域（包括维基百科和长叙事数据集）上优于现有的最先进的点级和列表级重排序器。此外，它还在LoCoMo基准测试中建立了新的最先进水平，评估了对话理解和记忆使用的能力。我们进一步证明，该框架支持灵活的扩展。例如，通过向候选段落添加上下文信息可以进一步提高排序准确性，而从中间层训练注意力头则能提升效率而不牺牲性能。

重排序注意力机制长上下文处理记忆相关

论文涉及记忆相关的重排序机制，但核心是检索与重排序，非纯粹记忆系统研究。

用于多智能体诊断、协调与通信的可微模态逻辑

Differentiable Modal Logic for Multi-Agent Diagnosis, Orchestration and Communication

Antonin Sulc

7/10 2026-02-12 cs.AI PDF

随着多智能体AI系统从简单的聊天机器人发展为自主群体，调试语义失败需要推理知识、信念、因果关系和义务，这正是模态逻辑所设计的形式化内容。然而，传统模态逻辑需要手动指定在实际系统中未知或动态的关系结构。本教程展示了通过模态逻辑神经网络（MLNNs）实现的可微模态逻辑（DML），使系统能够仅从行为数据中学习信任网络、因果链和监管边界。我们通过四个模态提出统一的神经符号调试框架：认识论（信任谁）、时间（事件何时导致故障）、道义（允许哪些动作）和信念（如何解释智能体信心）。每个模态都在具体的多智能体场景中进行了演示，例如从外交游戏中发现欺骗性联盟到检测LLM幻觉，并展示了如何将逻辑矛盾转化为可学习的优化目标。关键贡献包括：（1）可解释的学习结构，其中信任和因果关系是显式参数而非不透明嵌入；（2）通过可微分公理注入知识以指导稀疏数据下的学习；（3）组合多模态推理，结合认识论、时间和道义约束；以及（4）用于监控、主动控制和通信的多智能体系统的实用部署模式。所有代码均提供为可执行的Jupyter笔记本。

多智能体系统模态逻辑神经符号系统信任网络因果推理

论文涉及多智能体系统的信任网络和因果链学习，与Agent Memory相关，但非唯一主题。

LawThinker：一种用于动态环境的深度法律研究代理

LawThinker: A Deep Research Legal Agent in Dynamic Environments

Xinyu Yang, Chenlong Deng, Tongyu Wen, Binyu Xie, Zhicheng Dou

Xinyu Yang (Renmin University of ChinaBeijingChina) | Chenlong Deng (Renmin University of ChinaBeijingChina) | Tongyu Wen (Renmin University of ChinaBeijingChina)

7/10 2026-02-12 cs.AI PDF

法律推理不仅需要正确的结果，还需要符合程序规范的推理过程。然而，现有方法缺乏对中间推理步骤的验证机制，导致错误（如不适用的法规引用）在推理链中未被检测到。为此，我们提出了LawThinker，一种采用探索-验证-记忆策略的自主法律研究代理，适用于动态司法环境。其核心思想是在每次知识探索后强制执行验证操作。一个名为DeepVerifier的模块从知识准确性、事实与法律的相关性以及程序合规性三个维度检查每个检索结果，并通过记忆模块实现长周期任务中的跨轮次知识复用。在动态基准J1-EVAL上的实验表明，LawThinker相比直接推理方法提升了24%，相比基于工作流的方法提升了11%，尤其在过程导向的指标上表现突出。在三个静态基准上的评估进一步验证了其泛化能力。代码可在https://github.com/yxy-919/LawThinker-agent获取。

Legal Agent Memory Reuse Verification Mechanism Dynamic Environment

论文提出了一种基于探索-验证-记忆策略的法律推理代理，其中包含跨轮次知识复用的记忆模块，与Agent Memory相关。

Code

用于网络安全的智能体AI：一种可治理自主性的元认知架构

Agentic AI for Cybersecurity: A Meta-Cognitive Architecture for Governable Autonomy

Andrei Kojukhov, Arkady Bovshover

7/10 2026-02-12 cs.CR PDF

当前由人工智能驱动的网络安全系统主要被设计为以模型为中心的检测和自动化流程，优化任务级性能指标如准确率和响应延迟。尽管这些架构在有限分类任务中有效，但在对抗性不确定性下难以支持可问责的决策，其中行动必须得到证明、监管并符合组织和法规约束。本文认为，网络安全编排应重新构想为一个智能体多智能体认知系统，而非单纯的检测与响应组件序列。我们引入了一个概念性架构框架，其中负责检测、假设形成、上下文解释、解释和治理的异构AI代理通过显式的元认知判断函数进行协调。该函数管理决策准备度，并在证据不完整、冲突或操作风险较高时动态校准系统自主性。通过综合分布式认知理论、多智能体系统研究和负责任的人工智能治理框架，我们证明现代安全运营实际上已作为分布式认知系统运行，但缺乏明确的组织原则。我们的贡献是将这种认知结构在架构上显式化并使其可治理，通过将元认知判断嵌入为首要系统功能。

网络安全多智能体系统元认知自主性治理分布式认知

论文提出基于元认知的判断函数，涉及自主性治理与记忆相关的决策机制。

当代理与自身意见不一致时：衡量基于LLM的代理行为一致性

When Agents Disagree With Themselves: Measuring Behavioral Consistency in LLM-Based Agents

Aman Mehta

7/10 2026-02-12 cs.AI PDF

将相同的LLM代理应用于相同任务两次，是否会产生相同的行为？研究发现答案通常是否定的。通过对HotpotQA任务上三个模型（Llama 3.1 70B、GPT-4o和Claude Sonnet 4.5）共计3,000次代理运行的分析，我们观察到ReAct风格的代理在每次运行中平均会产生2.0至4.2个不同的动作序列，即使输入完全相同。更重要的是，这种变化预测了失败：行为一致的任务（≤2条唯一路径）准确率为80–92%，而高度不一致的任务（≥6条唯一路径）准确率仅为25–60%，差距达32–55个百分点。我们将这种变化归因于早期决策，其中69%的分歧发生在第二步，即第一次搜索查询。研究结果表明，在执行过程中监控行为一致性可以实现早期错误检测并提高代理的可靠性。

LLM Agent Behavior Consistency Error Detection Task Performance

论文探讨了基于LLM的Agent在执行任务时的行为一致性问题，与记忆机制密切相关。

多智能体通信的五个W：谁与谁交谈、何时、说什么以及为何——从MARL到涌现语言和LLMs的综述

The Five Ws of Multi-Agent Communication: Who Talks to Whom, When, What, and Why -- A Survey from MARL to Emergent Language and LLMs

Jingdi Chen, Hanqing Yang, Zongjun Liu, Carlee Joe-Wong

7/10 2026-02-12 cs.AI PDF

多智能体序列决策在许多现实系统中发挥着重要作用，例如自动驾驶车辆、机器人和协作AI助手。在动态且部分可观测的环境中，通信通常是减少不确定性并实现协作的关键。本综述通过五个W（Who, What, When, Where, Why）框架回顾了多智能体通信（MA-Comm）。该框架提供了一种清晰的方式，将不同研究方向的思想联系起来。我们追踪了通信方法在三个主要范式中的演变过程：在多智能体强化学习（MARL）中，早期方法使用手工设计或隐式协议，随后发展为端到端学习的通信方法以优化奖励和控制。尽管这些方法取得了成功，但它们通常任务特定且难以解释，这促使了对涌现语言（EL）的研究，其中智能体可以通过交互发展出更结构化或符号化的通信方式。然而，EL方法仍面临语义锚定、泛化和可扩展性方面的挑战，这推动了近期对大型语言模型（LLMs）的兴趣，因为LLMs能够带来自然语言先验知识，用于更开放场景下的推理、规划和协作。我们强调了在MARL、EL和基于LLM的系统中，不同选择如何塑造通信设计，主要权衡点以及尚未解决的问题，并提炼出实用的设计模式和开放挑战，以支持未来结合学习、语言和控制的混合系统，实现可扩展且可解释的多智能体协作。

multi-agent communication MARL emergent language LLMs agent collaboration

论文涉及多智能体通信机制，与Agent Memory相关，但非核心主题。

AgentLeak：用于多智能体大语言模型系统隐私泄露的全栈基准测试

AgentLeak: A Full-Stack Benchmark for Privacy Leakage in Multi-Agent LLM Systems

Faouzi El Yagoubi, Ranwa Al Mallah, Godwin Badu-Marfo

7/10 2026-02-12 cs.AI PDF

多智能体大型语言模型（LLM）系统带来了当前基准无法衡量的隐私风险。当代理协调任务时，敏感数据通过代理间消息、共享内存和工具参数传递，而输出审计从未检查这些路径。本文提出AgentLeak，据我们所知，这是首个覆盖内部通道的全栈隐私泄露基准测试，涵盖医疗、金融、法律和企业等领域的1000个场景，并配有32类攻击分类和三级检测流程。通过对GPT-4o、Claude 3.5 Sonnet等五种模型进行测试发现，多代理配置虽然减少了单通道输出泄露，但引入了未被监控的内部通道，使系统整体暴露率上升至68.9%。研究表明，代理间通信是主要漏洞，强调了在内部通信中加强隐私保护的重要性。

隐私泄露多智能体系统共享内存内部通信安全审计

论文重点研究多智能体系统中的隐私泄露问题，涉及共享内存和内部通信渠道，与Agent Memory密切相关。

Code

在線性表示假設下，語言模型能存儲多少特徵？

How Many Features Can a Language Model Store Under the Linear Representation Hypothesis?

Nikhil Garg, Jon Kleinberg, Kenny Peng

7/10 2026-02-11 cs.LG PDF

本文引入了一个数学框架来研究线性表示假设（LRH），该假设认为语言模型中间层以线性方式存储特征。作者将该假设分为两个部分：线性表示（特征在线性神经元激活中嵌入）和线性可访问性（特征可通过线性解码）。文章探讨了需要多少个神经元 $d$ 才能同时实现对 $m$ 个特征的线性表示和线性访问。经典压缩感知理论表明，对于 $k$-稀疏输入，若允许非线性解码算法，则 $d = O(k ext{log}(m/k))$ 足够。但加入线性解码要求后，问题进入线性压缩感知领域。本文的主要理论结果建立了线性压缩感知的上下界，并证明了线性可访问性比线性表示更强，为“叠加假设”提供了理论支持。

线性表示压缩感知特征存储语言模型

论文探讨了语言模型中特征存储的线性表示假设，与Agent Memory中的信息存储和访问机制相关。

ICA：面向视觉基础长时程信息检索代理的信息感知信用分配

ICA: Information-Aware Credit Assignment for Visually Grounded Long-Horizon Information-Seeking Agents

Cong Pang, Xuyu Feng, Yujie Yi, Zixuan Chen, Jiawei Hong et al.

7/10 2026-02-11 cs.LG PDF

尽管基于强化学习的信息检索代理在性能上表现出色，但在开放网络环境中，学习过程仍受到低信噪比反馈的严重限制。文本解析器通常会忽略布局语义并引入无结构噪声，而长时程训练则依赖稀疏的结果奖励，难以明确哪些检索动作真正重要。为此，本文提出了一种基于视觉的搜索框架，将网页表示为视觉快照，使代理能够利用布局线索快速定位关键证据并抑制干扰项。为了从这些高维观测中有效学习，我们引入了信息感知信用分配（ICA）方法，通过后验分析估计每个检索快照对最终结果的贡献，并将密集的学习信号回传至关键搜索步骤。结合基于GRPO的训练流程，我们的方法在多个信息检索基准测试中均优于基于文本的基线方法，证明了视觉快照结合信息级信用分配可以缓解开放网络环境中的信用分配瓶颈。

Agent Memory Reinforcement Learning Visual Search Credit Assignment

论文提出ICA方法，涉及信息归因与记忆机制，用于解决长期任务中的信用分配问题。

Code

AIvilization v0：迈向具有统一智能体架构和自适应智能体档案的大规模人工社会模拟

AIvilization v0: Toward Large-Scale Artificial Social Simulation with a Unified Agent Architecture and Adaptive Agent Profiles

Wenkai Fan, Shurui Zhang, Xiaolong Wang, Haowei Yang, Tsz Wai Chan et al.

Wenkai Fan∗ (The Hong Kong University of Science and Technology) | Shurui Zhang∗ (The Hong Kong University of Science and Technology) | Xiaolong Wang (The Hong Kong University of Science and Technology)

7/10 2026-02-11 cs.MA PDF

AIvilization v0是一个公开部署的大规模人工社会系统，结合了资源受限的沙盒经济与统一的LLM智能体架构，旨在实现长期自主性并适应快速变化的环境。为缓解目标稳定性与反应正确性之间的矛盾，本文引入了三个关键机制：(i) 分层分支思维规划器，将生活目标分解为并行目标分支，并通过模拟引导验证和分层重规划确保可行性；(ii) 具有双过程记忆的自适应智能体档案，分离短期执行轨迹与长期语义整合，使身份保持持久且持续演化；(iii) 人机协同控制接口，在适当抽象层级注入长期目标和短期指令，效果通过记忆传播而非脆弱的提示覆盖。该环境集成了生理生存成本、不可替代的多级生产体系、基于AMM的价格机制以及门控教育-职业系统。利用平台成熟阶段的高频交易数据，发现稳定的市场能够再现关键特征事实（重尾收益和波动聚集），并产生由教育和访问限制驱动的结构化财富分层。实验表明，简化规划器在特定任务中表现良好，而完整架构在多目标、长期设置下更具鲁棒性，支持延迟投资和持续探索。

Agent Memory LLM Agent 人工社会模拟多目标规划自适应智能体

论文提出双过程记忆机制，用于区分短期执行与长期语义整合，属于Agent Memory相关研究。

可操作性使LLM实现部分世界建模

Affordances Enable Partial World Modeling with LLMs

Khimya Khetarpal, Gheorghe Comanici, Jonathan Richens, Jeremy Shar, Fei Xia et al.

7/10 2026-02-11 cs.LG PDF

完整的世界模型需要复杂且详尽的知识。尽管预训练的大模型由于在大量互联网数据上进行预训练，被认为可能包含类似知识，但直接使用它们进行搜索效率低下且不准确。相反，部分模型专注于对状态和动作子集进行高质量预测，这些状态和动作通过可操作性实现用户意图。本文正式回答了是否可以将大模型视为部分世界模型的问题，并证明了实现任务无关、语言条件意图的代理必然拥有由可操作性引导的预测性部分世界模型。在多任务设置中，我们引入了分布稳健的可操作性，并展示了如何提取部分模型以显著提高搜索效率。在桌面机器人任务中的实证评估表明，我们的可操作性感知部分模型减少了搜索分支因子，并相比完整世界模型实现了更高的奖励。

LLM Affordances Partial World Models Search Efficiency Agent Memory

论文探讨了基于affordances的LLM作为部分世界模型，与Agent Memory中的预测和状态建模相关。

潜在思维调优：通过融合潜在标记中的信息连接上下文与推理

Latent Thoughts Tuning: Bridging Context and Reasoning with Fused Information in Latent Tokens

Weihao Liu, Dehai Min, Lu Cheng

7/10 2026-02-10 cs.CL PDF

尽管显式的Chain-of-Thought（CoT）方法赋予大语言模型（LLMs）强大的推理能力，但其要求模型在文本标记中明确表达每一步中间过程，限制了模型思维的表达空间。最近，基于连续潜在空间的推理方法成为一种有前景的替代方案，能够实现超越离散标记约束的鲁棒推理和灵活计算。然而，当前的潜在空间方法常因特征坍缩和不稳定性而受到限制，这源于重复使用隐藏状态作为输入嵌入时的分布不匹配问题，或依赖辅助模型时的对齐问题。为了解决这些问题，我们提出了潜在思维调优（LT-Tuning）框架，重新定义了潜在思维的构建与部署方式。该方法不再仅依赖原始隐藏状态，而是引入了上下文-预测-融合机制，联合利用上下文隐藏状态和词汇嵌入空间中的预测语义指导。结合渐进式三阶段课程学习流程，LT-Tuning还支持在潜在推理模式与显式推理模式之间动态切换。实验表明，我们的方法优于现有的潜在推理基线，有效缓解了特征坍塌问题，并实现了稳健的推理精度。

潜在空间推理隐式思维 Agent Memory 课程学习语义融合

论文探讨了隐式推理机制，涉及连续潜在空间中的记忆表示与构建，属于Agent Memory相关研究。

思维链：通过自适应认知模式进行推理

Chain of Mindset: Reasoning with Adaptive Cognitive Modes

Tianyi Jiang, Arctanx An, Hengyi Feng, Naixin Zhai, Haodong Li et al.

7/10 2026-02-10 cs.AI PDF

人类解决问题时并非依赖单一的认知模式，而是整合多种模式完成任务。然而现有LLM推理方法通常采用固定模式，限制了模型性能。本文提出Chain of Mindset（CoM）框架，一种无需训练的智能体框架，支持在推理步骤中自适应地切换四种功能异构的认知模式：空间、收敛、发散和算法。通过Meta-Agent动态选择最优模式，并利用双向上下文门控机制过滤跨模块信息流，以保持效率和效果。实验表明，CoM在多个基准测试中表现优异，显著优于现有基线模型。

LLM推理认知模式智能体框架自适应推理

论文提出基于不同认知模式的推理框架，涉及动态选择和信息流控制，与Agent Memory相关。

Code

解耦推理与隐式事实标记（DRIFT）：一种用于高效长上下文推理的双模型框架

Decoupled Reasoning with Implicit Fact Tokens (DRIFT): A Dual-Model Framework for Efficient Long-Context Inference

Wenxuan Xie, Yujia Wang, Xin Tan, Chaochao Lu, Xia Hu et al.

7/10 2026-02-10 cs.CL PDF

将大量动态知识整合到大型语言模型（LLMs）中仍是一个重大挑战，因为事实数据与推理模式之间存在固有的纠缠。现有的解决方案，从非参数检索增强生成（RAG）到参数化知识编辑，通常在实践中受到有限上下文窗口、检索器噪声或灾难性遗忘风险的限制。本文提出DRIFT，一种新颖的双模型架构，旨在显式地将知识提取与推理过程解耦。不同于静态提示压缩，DRIFT采用轻量级知识模型，根据查询动态地将文档块压缩为隐式事实标记。这些密集表示被投影到推理模型的嵌入空间中，以替代原始冗余文本，同时保持推理准确性。大量实验表明，DRIFT在长上下文任务中显著提升了性能，在可比规模模型中优于强基线。我们的方法为扩展LLMs的有效上下文窗口和推理能力提供了一种可扩展且高效的范式。

长上下文推理隐式事实表示双模型架构知识压缩

论文提出了一种解耦知识提取与推理的框架，涉及长上下文推理和隐式事实表示，与Agent Memory相关。

Code

通过差异推理学习弥合临床代理中的推理差距

Closing Reasoning Gaps in Clinical Agents with Differential Reasoning Learning

Jinsong Liu, Yuhang Jiang, Ramayya Krishnan, Rema Padman, Yiye Zhang et al.

7/10 2026-02-10 cs.AI PDF

临床决策支持不仅需要正确答案，还需要具有临床有效性的推理过程。本文提出差异推理学习（DRL）框架，通过从参考推理依据（如医生撰写的临床理由、临床指南或更强大模型的输出）与代理的自由形式推理链中提取推理图，并利用临床加权图编辑距离进行差异分析。通过LLM作为评判者对语义等效节点进行对齐并诊断图之间的差异，将这些差异诊断转化为自然语言指令并存储在差异推理知识库（DR-KB）中。在推理阶段，通过检索增强生成（RAG）方法检索前k条指令以增强代理提示，修补可能的逻辑漏洞。实验结果表明，该方法在开放医学问答基准和内部临床数据的再入院预测任务上均优于基线方法，提高了最终答案准确性和推理一致性。消融研究验证了引入参考推理依据和前k检索策略的有效性。临床医生对输出的审查进一步确认了该方法的可靠性。结果表明，DRL有助于复杂推理场景下的更可靠临床决策，并提供了一种在有限token预算下部署的实用机制。

临床代理推理差异知识库检索增强生成图编辑距离

论文涉及通过记忆机制（如DR-KB）存储和检索推理差异，用于增强临床代理的推理能力。

大型语言模型搜索增强推理中的知识整合衰减

Knowledge Integration Decay in Search-Augmented Reasoning of Large Language Models

Sangwon Yu, Ik-hwan Kim, Donghun Kang, Bongkyu Hwang, Junhwa Choi et al.

Sangwon Yu (Seoul National University) | Ik-hwan Kim (Seoul National University)

7/10 2026-02-10 cs.CL PDF

现代大型语言模型（LLMs）通过使用搜索增强推理将外部知识整合到长链推理中，在复杂任务中表现出色。然而，我们发现这一范式中存在一个关键但尚未充分研究的瓶颈，称为知识整合衰减（KID）。具体而言，随着推理生成长度增加，模型越来越难以将检索到的证据整合到后续推理步骤中，即使相关信息可用，也会限制性能。为了解决这一问题，我们提出了自锚定知识编码（SAKE），一种无需训练的推理时策略，旨在稳定知识利用。通过在推理过程的开始和结束处锚定检索到的知识，SAKE防止其被先前上下文掩盖，从而保持其语义完整性。在多跳问答和复杂推理基准上的大量实验表明，SAKE显著缓解了KID并提升了性能，为代理式LLMs中的知识整合提供了一种轻量且有效的解决方案。

知识整合搜索增强推理 LLM推理优化语义完整性

论文探讨了知识整合衰减问题，与Agent Memory中的知识利用和保持相关。

InternAgent-1.5：面向长期自主科学发现的统一智能体框架

InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery

Shiyang Feng, Runmin Ma, Xiangchao Yan, Yue Fan, Yusong Hu et al.

7/10 2026-02-09 cs.AI PDF

本文介绍了InternAgent-1.5，这是一个专为端到端科学发现设计的统一系统，适用于计算和实证领域。该系统基于由生成、验证和演化三个协调子系统组成的结构化架构，并依赖于深度研究、解决方案优化和长时程记忆等基础能力。该架构使InternAgent-1.5能够在长时间的发现周期中持续运行并保持行为的一致性和改进性。同时，它还支持在单一系统内协调计算建模与实验室实验。我们在GAIA、HLE、GPQA和FrontierScience等科学推理基准上对InternAgent-1.5进行了评估，系统表现优异，展示了其强大的基础能力。此外，我们还评估了两类发现任务：在算法发现任务中，InternAgent-1.5自主设计了针对核心机器学习问题的竞争性方法；在实证发现任务中，它执行完整的计算或湿实验，并在地球、生命、生物和物理领域产生科学发现。总体而言，这些结果表明InternAgent-1.5提供了一个通用且可扩展的框架，用于实现自主科学发现。

科学发现智能体框架长时程记忆计算建模实验自动化

论文提到了长时程记忆机制，是系统的关键组成部分，但并非唯一研究重点。

Code

对语言模型代理目标导向性的行为与表征评估

A Behavioural and Representational Evaluation of Goal-Directedness in Language Model Agents

Raghu Arghal, Fade Chen, Niall Dalton, Evgenii Kortukov, Calum McNamara et al.

7/10 2026-02-09 cs.LG PDF

理解代理的目标有助于解释和预测其行为，但目前尚无可靠的方法来为代理系统分配目标。本文提出了一种结合行为评估与基于可解释性分析的模型内部表征的框架，用于评估目标导向性。以一个在二维网格世界中向目标状态移动的语言模型代理为例，从行为上评估其在不同网格大小、障碍密度和目标结构下的表现，发现其性能随任务难度增加而提升，并且对保持难度不变的变换和复杂目标结构具有鲁棒性。随后使用探针方法解码代理的环境状态和多步动作计划的内部表征，发现该代理非线性地编码了环境的粗略空间地图，保留了与其位置和目标位置相关的近似任务相关线索；其行为与这些内部表征基本一致；推理过程则重新组织了这些信息，从更广泛的环境结构线索转向支持即时动作选择的信息。研究结果表明，除了行为评估外，还需要进行内省分析，以了解代理如何表征和追求其目标。

Agent Memory LLM Internal Representation Goal-Directedness Behavioral Evaluation

论文探讨了LLM代理的目标导向性，涉及其内部表示和记忆机制，但非唯一主题。

人机交互中的信念卸载

Belief Offloading in Human-AI Interaction

Rose E. Guingrich, Dvija Mehta, Umang Bhatt

Rose E. Guingrich (Princeton University) | Dvija Mehta11footnotemark:1 (Eindhoven University of Technology) | Umang Bhatt (University of Cambridge)

7/10 2026-02-09 cs.AI PDF

当人们的信念来源于LLM提供的信息时，使用LLM聊天机器人作为思维伙伴可能导致认知卸载，进而对认知技能产生负面影响。本文定义并研究了一种特定的认知卸载形式——‘信念卸载’，即人们将形成和维持信念的过程外包给AI系统，并对其行为及信念体系产生后续影响。结合哲学、心理学和计算机科学的研究，本文明确了信念卸载发生的边界条件，并提供了描述性分类及其规范性含义。最后，文章提出了未来研究方向，以评估人机交互中信念卸载的潜力与后果。

认知卸载人机交互信念形成 AI伦理

论文探讨了人类将信念形成过程外包给AI系统，涉及认知卸载与记忆相关机制。

预测未来效用：面向任务无关的KV缓存淘汰的全局组合优化

Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction

Ziyao Tang, Pengkun Jiao, Xinhang Chen, Wei Liu, Shiyong Li et al.

7/10 2026-02-09 cs.LG PDF

鉴于注意力机制的二次复杂度，KV缓存淘汰对于加速模型推理至关重要。当前的KV缓存淘汰方法通常依赖于瞬时启发式指标，隐含假设所有注意力头中得分大小是重要性的有效代理。然而，这种方法忽略了不同注意力头在预测准确性上的异质性。一些头优先考虑令牌的即时贡献，而另一些则专注于捕捉长期效用。本文提出，最优预算分配应由保留长期语义信息的边际效用来决定。基于这一洞察，我们提出了LU-KV框架，通过凸包松弛和基于边际效用的贪心求解器实现近似最优精度的头部级预算分配。此外，我们实现了一个数据驱动的离线分析协议以促进LU-KV的实际部署。在LongBench和RULER基准上的广泛评估表明，LU-KV在保持性能基本不变的情况下，将KV缓存大小减少了80%，同时降低了推理延迟和GPU内存占用。

KV缓存注意力机制缓存淘汰语义信息边际效用

论文聚焦KV缓存淘汰策略，与Agent Memory中的缓存管理密切相关，但非唯一主题。

SCOUT-RAG：面向分布式领域的可扩展且成本高效的统一遍历方法用于智能体图-RAG

SCOUT-RAG: Scalable and Cost-Efficient Unifying Traversal for Agentic Graph-RAG over Distributed Domains

Longkun Li, Yuanben Zou, Jinghan Wu, Yuqing Wen, Jing Li et al.

7/10 2026-02-09 cs.AI PDF

图-RAG通过结构化知识提升大语言模型的推理能力，但传统设计依赖于集中式知识图谱。在分布式和访问受限的场景（如医院或跨国组织）中，检索必须在没有全局图谱可见性或全面查询的情况下选择相关领域和适当的遍历深度。为解决这一问题，我们提出了SCOUT-RAG（可扩展且成本高效的统一遍历），一种分布式智能体图-RAG框架，该框架通过逐步的跨领域检索来实现增量效用目标引导。SCOUT-RAG采用四个协作智能体：(i) 估计领域相关性，(ii) 决定何时扩展到其他领域进行检索，(iii) 调整遍历深度以避免不必要的图谱探索，以及(iv) 综合生成高质量答案。该框架旨在最小化检索遗憾（即遗漏有用领域信息），同时控制延迟和API成本。在多领域知识设置中，SCOUT-RAG的表现与集中式基线（如DRIFT和全面领域遍历）相当，同时显著减少了跨领域调用、处理的总令牌数和延迟。

Graph-RAG 分布式检索智能体协作知识图谱跨领域检索

论文涉及分布式Agent系统中的知识检索与记忆机制，但核心是Graph-RAG框架而非Memory本身。

使用监督思考状态的潜在推理

Latent Reasoning with Supervised Thinking States

Ido Amos, Avi Caciularu, Mor Geva, Amir Globerson, Jonathan Herzig et al.

Mor Geva (Google Research)

7/10 2026-02-09 cs.CL PDF

通过链式思维（CoT）进行推理使大型语言模型（LLMs）能够解决复杂任务，但由于生成长篇推理内容而产生显著的推理成本。本文提出了一种名为Thinking States的方法，在输入处理过程中进行推理。具体而言，Thinking States在每几个输入标记后生成一系列思考标记，将这些思考转换回嵌入空间，并将其添加到后续输入标记中。该方法具有两个关键优势：首先，它捕捉了CoT的递归性质，但思考标记是在输入处理过程中生成的；其次，由于思考以标记形式表示，因此可以从自然语言监督中学习，并利用可并行化的教师强制方法。实验证明，Thinking States在多个推理任务上优于其他潜在推理方法，在数学问题上缩小了与CoT的差距，并在2-Hop QA任务中实现了与CoT相当的性能且延迟更低。在状态跟踪任务中，我们展示了Thinking States比CoT表现出更强的推理行为，并成功地推广到训练时未见过的更长序列。

Agent Memory Chain-of-Thought Latent Reasoning Teacher Forcing Token Embedding

论文提出Thinking States方法，涉及推理过程中的隐式状态表示，与Agent Memory相关但非唯一主题。

SWE Context Bench: 一个用于代码中上下文学习的基准测试

SWE Context Bench: A Benchmark for Context Learning in Coding

Jared Zhu, Minhao Hu, Junde Wu

7/10 2026-02-09 cs.SE PDF

大型语言模型越来越多地被用作编程代理，以执行仓库级别的软件工程任务。尽管最近的基准测试评估了在真实代码库中的正确性，但它们大多将任务视为独立的，未评估代理是否能跨相关问题重用经验。因此，代理积累、检索和应用先前经验的能力以及由此带来的效率提升仍难以衡量。我们引入了SWE-ContextBench，这是一个专门设计用于明确评估编程代理中经验重用的基准测试。该基准基于SWE-Bench Lite，通过GitHub问题和拉取请求之间的实际依赖和引用关系，为300个基础任务增加了99个相关任务，形成具有共享上下文的任务序列。该基准从三个互补维度评估代理：预测准确性、时间效率和成本效率。利用SWE-ContextBench，我们研究了多种经验重用设置，包括由Oracle引导和自主检索，以及完整的执行轨迹和紧凑摘要。结果表明，正确选择的经验摘要可以提高解决准确性，并显著减少运行时间和标记成本，尤其是在较难的任务上。相比之下，未经筛选或错误选择的经验提供有限甚至负面的收益。这些发现突显了经验表示和检索质量的重要性，并确立了SWE-ContextBench作为研究编程代理中经验重用的原理性基准。

Agent Memory 编程代理经验重用基准测试上下文学习

论文探讨了编程代理中经验重用，涉及记忆的积累、检索与应用，属于Agent Memory相关研究。

何时上下文有帮助？大语言模型中上下文信息的错误动态分析

When Does Context Help? Error Dynamics of Contextual Information in Large Language Models

Dingzirui Wang, Xuanliang Zhang, Keyan Xu, Qingfu Zhu, Wanxiang Che et al.

7/10 2026-02-09 cs.CL PDF

推理时的上下文信息（如示例、检索知识或交互历史）可以在不更新参数的情况下显著提升大语言模型（LLMs）的性能，但其理论作用在除上下文学习（ICL）等特定场景外仍不明确。本文提出了一种统一的理论框架，用于分析基于Transformer的LLMs中任意上下文信息的影响。通过输出误差动态来刻画上下文影响，在单层Transformer中证明了条件上下文误差向量可分解为基线误差向量和上下文校正向量之和。这得出了误差减少所需的几何条件：上下文校正必须与负基线误差对齐并满足范数约束。进一步表明，上下文校正的范数受上下文-查询的相关性和互补性决定。这些结果可扩展到多上下文和多层Transformer。实验覆盖了ICL、检索增强生成和记忆演化，验证了理论，并提出了一种原理性的上下文选择策略，提升了0.6%的性能。

上下文学习 Transformer 误差动态记忆演化检索增强生成

论文探讨了上下文信息对LLM的影响，涉及记忆演化和检索增强生成，与Agent Memory相关但非唯一主题。

Puda：面向用户主权和隐私保护的个性化AI私有用户数据代理

Puda: Private User Dataset Agent for User-Sovereign and Privacy-Preserving Personalized AI

Akinori Maeda, Yuto Sekiya, Sota Sugimura, Tomoya Asai, Yu Tsuda et al.

Akinori Maeda (Research Institute of Advanced Technology, SoftBank Corp.Japan) | Yuto Sekiya (Research Institute of Advanced Technology, SoftBank Corp.Japan) | Sota Sugimura (Research Institute of Advanced Technology, SoftBank Corp.Japan)

7/10 2026-02-09 cs.AI PDF

当前主流平台提供商（如搜索引擎、社交网络服务和电子商务）对个人数据的集中化管理导致了封闭式生态系统，限制了用户的自主权，并阻碍了跨服务的数据使用。同时，基于大语言模型（LLM）的智能体迅速普及，推动了对高度个性化服务的需求，这需要动态提供多样化的个人数据。为此，本文提出Puda（Private User Dataset Agent），一种以用户主权为核心的架构，支持跨服务的数据聚合与客户端管理。Puda允许用户在三个隐私层级上控制数据共享：详细浏览历史、提取关键词以及预定义类别子集。我们将其实现为一个浏览器系统，作为跨多种服务的通用平台，并通过个性化旅行规划任务进行了评估。结果表明，在提供预定义类别子集的情况下，其个性化性能达到97.2%（通过LLM-as-a-Judge框架在三个标准下评估），接近于共享详细浏览历史时的表现。这些发现表明，Puda能够实现有效的多粒度管理，为缓解隐私与个性化之间的权衡提供了实用选择。总体而言，Puda为用户主权提供了原生的AI基础，使用户能够安全地发挥个性化AI的全部潜力。

用户主权隐私保护个性化AI LLM代理数据管理

论文涉及用户数据管理与隐私保护，与Agent Memory相关，但非核心主题。

何时以及需要多少想象：使用世界模型进行视觉空间推理的自适应测试时缩放

When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning

Shoubin Yu, Yue Zhang, Zun Wang, Jaehong Yoon, Huaxiu Yao et al.

7/10 2026-02-09 cs.CV PDF

尽管多模态大语言模型（MLLMs）取得了快速进展，但在正确答案依赖于未见过或替代视角下场景外观的情况下，视觉空间推理仍然不可靠。近期的研究通过引入世界模型增强推理能力以解决这一问题，但关于何时需要想象、多少想象是有益的以及何时想象会带来负面影响的问题仍不明确。在实际应用中，无差别地使用想象可能会增加计算量并引入误导性证据从而降低性能。本文对测试时的视觉想象作为可控资源进行了深入分析，研究静态视觉证据是否足够、想象如何提升推理以及过度或不必要的想象如何影响准确性和效率。为支持该分析，我们引入了AVIC框架，该框架在选择性调用和扩展视觉想象之前，显式推理当前视觉证据的充分性。实验结果表明，在多个空间推理基准（SAT、MMSI）和具身导航基准（R2R）上，想象在某些情况下是关键的、边际的或有害的，并且选择性控制可以在显著减少世界模型调用和语言标记的情况下匹配甚至优于固定想象策略。总体而言，我们的研究强调了分析和控制测试时想象对于实现高效可靠的空间推理的重要性。

视觉想象世界模型空间推理测试时资源控制 Agent Memory

论文探讨了测试时视觉想象的可控性，与Agent Memory中的资源管理及选择性调用相关。

Code

潜隐推理模型中涌现的搜索与回溯

Emergent Search and Backtracking in Latent Reasoning Models

Jasmine Cui, Charles Ye

7/10 2026-02-08 cs.CL PDF

当语言模型在无文字的情况下进行推理时会发生什么？标准的推理大语言模型通过链式思维（chain-of-thought）表达中间步骤，而潜隐推理变压器（LRTs）则完全在连续的隐藏空间中进行推理。本文研究了一种LRT，在多选问答基准测试中解码模型在每一步的演变信念。发现模型自发地学习了潜隐空间中的结构化搜索过程。推理遵循一致的轨迹：探索阶段概率质量分布在候选答案上，对领先者进行临时承诺，并最终收敛或回溯。回溯现象较为普遍（32%的实例），且具有益处（比非回溯实例准确率提高34%），主要导向语义上最接近的干扰项以外的正确答案。搜索是自适应的：将干扰项替换为不合理的替代选项可使探索时间缩短54%。潜隐推理模型在激活空间中实现了类似于链式思维的能力：能够犯错、察觉并恢复。

隐式推理回溯机制模型信念演化搜索策略

论文探讨了隐式推理模型中的搜索与回溯机制，涉及模型在隐藏空间中的动态信念演化，与Agent Memory相关。

MePo: 用于无回放通用持续学习的元后优化

MePo: Meta Post-Refinement for Rehearsal-Free General Continual Learnin

Guanglong Sun, Hongwei Yan, Liyuan Wang, Zhiqi Kang, Shuang Cui et al.

7/10 2026-02-08 cs.AI PDF

为了应对外部世界的不确定变化，智能系统必须从复杂、不断演变的环境中持续学习并实时响应。这种能力被称为通用持续学习（GCL），涵盖了在线数据流和模糊任务边界等实际挑战。尽管利用预训练模型（PTMs）已显著推进了传统持续学习（CL），但这些方法在单次传递中仍难以协调多样且时间混合的信息，导致GCL性能欠佳。受神经科学中元可塑性和重构性记忆的启发，本文提出了一种名为Meta Post-Refinement（MePo）的新方法，用于基于PTMs的GCL。该方法从预训练数据中构建伪任务序列，并开发了一个双层元学习范式来优化预训练主干网络，这相当于延长了预训练阶段，但大大促进了表示学习对下游GCL任务的快速适应。MePo进一步初始化一个元协方差矩阵作为预训练表示空间的参考几何，使GCL能够利用二阶统计量进行鲁棒输出对齐。MePo作为一种插件策略，在多种GCL基准测试和预训练检查点上实现了显著的性能提升，且无需回放（例如，在CIFAR-100、ImageNet-R和CUB-200上的Sup-21/1K任务中分别提升了15.10%、13.36%和12.56%）。我们的源代码可在https://github.com/SunGL001/MePo获取。

持续学习元学习记忆重构预训练模型

论文提出MePo方法，涉及记忆重构与元学习，用于持续学习中的表示对齐。

Code

高效表示即可控表示

Efficient Representations are Controllable Representations

Charles Ye, Jasmine Cui

7/10 2026-02-08 cs.LG PDF

如何以最直接的方式将可解释、可控的特征植入模型的激活中？通常控制LLM内部概念表示需要复杂的识别和干预方法。本文绕过了这些步骤，通过简单的辅助损失函数对LLM进行微调，训练其3072个残差流维度中的16个作为惰性可解释标志，用于指示生成所需的概念。模型会围绕这些标志重新组织，并在实际生成任务中依赖它们。结果表明，这些惰性标志成为真正的内部特征，允许在推理时控制生成。该方法有效的原因在于，当特征在固定位置可靠提供时，梯度下降会逐渐消除其他冗余编码，模型自身也会侵蚀替代表示。模型的效率压力是一种杠杆，可用于诱导可解释、可控的表示。

可控表示模型微调内部状态管理可解释性

论文探讨了通过可控特征实现模型内部表示的可解释性，与Agent Memory中的可控性和内部状态管理相关。

VideoTemp-o3：在智能体视频思维中协调时间定位与视频理解

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

Wenqi Liu, Yunxiao Wang, Shijie Ma, Meng Liu, Qile Su et al.

7/10 2026-02-08 cs.CV PDF

在长视频理解任务中，传统的均匀帧采样方法往往无法捕捉关键视觉证据，导致性能下降和幻觉增加。为解决这一问题，近期出现了基于智能体视频思维的范式，采用定位-剪辑-回答的流程，模型主动识别相关视频片段，并在这些片段内进行密集采样以生成答案。然而，现有方法效率较低，定位能力较弱且流程僵化。为此，我们提出VideoTemp-o3，一种统一的智能体视频思维框架，联合建模视频定位与问答任务。该框架具有强大的定位能力，支持按需剪辑并能优化不准确的定位。具体而言，在监督微调阶段，我们设计了一种统一的掩码机制，鼓励探索同时防止噪声干扰。在强化学习中，我们引入专用奖励以缓解奖励黑客问题。此外，从数据角度来看，我们开发了一个有效流程来构建高质量的长视频定位问答数据集，并配套相应的基准用于系统评估不同视频时长下的表现。实验结果表明，我们的方法在长视频理解和定位任务上均取得了显著性能提升。

视频理解智能体思维定位与剪辑强化学习问答系统

论文涉及基于视频的智能体思维框架，包含定位与记忆相关机制，但非唯一主题。

涌现的结构化表示支持大型语言模型的灵活上下文推理

Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models

Ningyu Xu, Qi Zhang, Xipeng Qiu, Xuanjing Huang

Ningyu Xu (Fudan University)

7/10 2026-02-08 cs.CL PDF

大型语言模型（LLMs）表现出类似人类推理的涌现行为。尽管近期研究已识别出这些模型中存在结构化的、类似人类的概念表示，但尚不清楚它们是否在推理过程中功能上依赖于这些表示。本文研究了LLMs在上下文概念推理过程中的内部处理机制。结果表明，在中间到后期层中出现了一个概念子空间，其表示结构在不同上下文中保持稳定。通过因果中介分析，我们证明该子空间不仅是伴随现象，而且是模型预测的核心功能部分，确立了其在推理中的因果作用。此外，我们发现注意力头在早期至中期层中整合上下文线索以构建和优化该子空间，随后由后期层利用该子空间生成预测。这些发现表明，LLMs能够动态构建并使用结构化的潜在表示来进行上下文推理，为理解其灵活适应的计算过程提供了见解。

LLM 结构化表示因果分析上下文推理

论文探讨了LLM中结构化表示在推理中的作用，与Agent Memory的动态构建和使用相关。

高斯匹配与复制：研究Transformer归纳能力的极简基准

Gaussian Match-and-Copy: A Minimalist Benchmark for Studying Transformer Induction

Antoine Gonon, Alexandre Cordonnier, Nicolas Boumal

7/10 2026-02-07 cs.LG PDF

匹配与复制是大型语言模型在推理时使用的核心检索原语，即从上下文中检索匹配的标记并复制其后续内容。然而，在自然数据上理解这种行为如何产生具有挑战性，因为检索和记忆是交织在一起的。为了解耦这两个因素，我们引入了Gaussian Match-and-Copy（GMC），一个通过纯粹的二阶相关信号隔离长距离检索的极简基准。数值研究表明，该任务保留了Transformer在实践中发展匹配与复制电路的关键定性特征，并根据其检索能力区分不同架构。我们还分析了简化注意力设置中的优化动态。尽管在回归目标下存在多种可能的解决方案，包括不实现检索的方案，但我们识别出一种隐式偏差模式，其中梯度下降驱动参数发散，而方向与最大边距分离器对齐，从而实现硬匹配选择。我们在满足显式技术条件的情况下，证明了GD轨迹在达到消失的经验损失时的最大边距对齐。

Transformer 检索机制记忆优化动态注意力机制

论文探讨了Transformer中match-and-copy机制，与记忆检索相关，但非唯一主题。

何时足够并非足够？搜索代理中的幻觉完成现象

When Is Enough Not Enough? Illusory Completion in Search Agents

Dayoon Ko, Jihyuk Kim, Sohyeon Kim, Haeju Park, Dahyun Lee et al.

7/10 2026-02-07 cs.AI PDF

近期的搜索代理通过多轮推理和搜索工具在多跳和长视野基准测试中表现出色。然而，尚不清楚它们是否能可靠地追踪、验证并维护多个条件以满足所有要求。本文研究了这一能力在多约束问题中的表现，其中有效答案必须同时满足多个约束条件。我们发现，幻觉完成现象频繁发生，即代理认为任务已完成，尽管存在未解决或违反的约束条件，导致答案验证不足。为诊断此行为，我们引入了认知账本（Epistemic Ledger），一个用于跟踪多轮推理过程中每个约束条件的证据支持和代理信念的评估框架。分析揭示了四种常见的失败模式：空断言、忽视反驳、停滞和提前退出。受这些发现的启发，我们研究了执行过程中显式跟踪约束状态是否能缓解这些失败，并提出了LiveLedger这一推理时的跟踪器。这种简单干预显著提升了性能，大幅减少了验证不足的答案（最多减少26.5%），并提高了多约束问题的整体准确性（最多提高11.6%）。

Agent Memory 多约束问题幻觉完成推理验证约束跟踪

论文探讨了搜索代理在多约束问题中的推理缺陷，涉及对约束状态的跟踪与验证，与Agent Memory相关。

意图不匹配导致大语言模型在多轮对话中迷失

Intent Mismatch Causes LLMs to Get Lost in Multi-Turn Conversation

Geng Liu, Fei Zhu, Rong Feng, Changyi Ma, Shiqi Wang et al.

7/10 2026-02-07 cs.CL PDF

多轮对话已成为大型语言模型（LLMs）的主要交互范式。用户通常通过后续问题来细化其意图，并期望LLMs能够动态适应。然而，最近的研究表明，与单轮交互相比，LLMs在多轮设置中的性能显著下降，这一现象被称为“对话中迷失”（LiC）。尽管先前的工作将LiC归因于模型不可靠性，但本文认为根本原因在于意图对齐的差距，而非模型本身的能力缺陷。本文首先证明LiC并非模型能力的失败，而是用户与LLMs之间交互的断裂。理论上表明，仅扩大模型规模或改进训练无法解决这一差距，因为其源于对话上下文的结构模糊性，而非表示限制。为了解决这一问题，我们提出通过中介者-助手架构将意图理解与任务执行解耦。利用基于历史交互模式的经验驱动的中介者，将用户输入解释为明确、结构良好的指令，从而有效弥合模糊用户意图与模型解释之间的差距。实验结果表明，该方法显著缓解了多种LLMs在多轮对话中的性能退化。

多轮对话意图对齐 LLM架构上下文理解

论文探讨了多轮对话中意图不匹配导致LLM性能下降的问题，涉及记忆与上下文理解的关联。

InftyThink+: 通过强化学习实现有效且高效的无限时间范围推理

InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

Yuchen Yan, Liang Jiang, Jin Jiang, Shuaicheng Li, Zujie Wen et al.

7/10 2026-02-06 cs.CL PDF

大规模推理模型通过扩展推理时的思维链实现强大性能，但该范式存在二次成本、上下文长度限制以及因中间丢失效应导致的推理退化问题。迭代推理通过定期总结中间思考缓解这些问题，但现有方法依赖监督学习或固定启发式规则，无法优化何时总结、保留什么以及如何恢复推理。我们提出InftyThink+，一种端到端的强化学习框架，优化整个迭代推理轨迹，基于模型控制的迭代边界和显式总结。InftyThink+采用两阶段训练方案，先进行监督冷启动，然后进行轨迹级强化学习，使模型能够学习战略性总结和继续推理的决策。在DeepSeek-R1-Distill-Qwen-1.5B上的实验表明，InftyThink+在AIME24上将准确率提高了21%，显著优于传统长思维链强化学习方法，并在分布外基准测试中表现出更好的泛化能力。此外，InftyThink+显著减少了推理延迟并加速了强化学习训练，展示了更强的性能和推理效率。

强化学习迭代推理思维链推理效率

论文涉及迭代推理中的中间结果总结，与Agent Memory相关，但非核心主题。

Code

关于时间差分信号在超越马尔可夫动力学学习中的链复形视角

Cochain Perspectives on Temporal-Difference Signals for Learning Beyond Markov Dynamics

Zuyuan Zhang, Sizhe Tang, Tian Lan

7/10 2026-02-06 cs.LG PDF

由于长程依赖、部分可观测性和记忆效应，现实环境中的非马尔可夫动态普遍存在。强化学习（RL）的核心贝尔曼方程在非马尔可夫条件下仅近似有效。现有工作多关注算法设计，对关键问题的理论分析不足，如哪些动态可以被贝尔曼框架捕捉，以及如何启发具有最优逼近的新算法类。本文提出一种基于拓扑的时间差分（TD）强化学习新视角，将TD误差视为状态转移拓扑空间中的1-链复形，而马尔可夫动态则被解释为拓扑可积性。该观点使我们通过贝尔曼-德·拉姆投影，将TD误差分解为可积成分和拓扑残差。进一步提出HodgeFlow Policy Search（HFPS）方法，通过拟合势能网络以最小化非可积投影残差，在RL中实现稳定性/敏感性保证。数值评估表明，HFPS在非马尔可夫环境下显著提升了RL性能。

强化学习非马尔可夫动态拓扑学时间差分学习潜在函数

论文探讨非马尔可夫动态下的强化学习，涉及记忆效应与拓扑分解，与Agent Memory相关。

表作为搜索：将长时程智能体信息检索任务转化为表格补全

Table-as-Search: Formulate Long-Horizon Agentic Information Seeking as Table Completion

Tian Lan, Felix Henry, Bin Zhu, Qianghuai Jia, Junyang Ren et al.

7/10 2026-02-06 cs.CL PDF

当前的信息检索（InfoSeeking）智能体在长时程探索过程中难以保持焦点和连贯性，因为在一个纯文本上下文中跟踪搜索状态（包括规划过程和大量搜索结果）本质上是脆弱的。为了解决这一问题，我们引入了Table-as-Search（TaS），一种结构化的规划框架，将信息检索任务重新表述为表格补全任务。TaS将每个查询映射到外部数据库中维护的结构化表格模式中，其中行表示搜索候选，列表示约束或所需信息。该表格精确地管理搜索状态：已填充的单元格严格记录历史和搜索结果，而空单元格则作为显式的搜索计划。关键的是，TaS统一了三种不同的信息检索任务：深度搜索、广度搜索以及具有挑战性的深度广度搜索。广泛的实验表明，TaS在三个类型的基准测试中显著优于众多最先进的基线方法，包括多智能体框架和商业系统。此外，我们的分析验证了TaS在长时程信息检索中的优越鲁棒性，同时具备高效性、可扩展性和灵活性。代码和数据集已在https://github.com/AIDC-AI/Marco-Search-Agent上公开发布。

Agent Memory 信息检索表格结构长时程任务

论文提出Table-as-Search框架，通过结构化表格管理搜索状态，涉及记忆机制的实现与优化。

Code

TrajAD：用于可信LLM代理的轨迹异常检测

TrajAD: Trajectory Anomaly Detection for Trustworthy LLM Agents

Yibing Liu, Chong Zhang, Zhongyi Han, Hansong Liu, Yong Wang et al.

7/10 2026-02-06 cs.CR PDF

本文研究了运行时轨迹异常检测问题，这是实现可信LLM代理的关键能力。当前的安全措施主要集中在静态输入/输出过滤上，但作者认为确保LLM代理可靠性需要审计中间执行过程。为此，本文提出了轨迹异常检测任务，目标不仅是检测异常，还要实现精确的错误定位，以支持高效的回滚和重试机制。为此，作者构建了TrajBench数据集，并通过实验发现通用LLM在零样本提示下难以识别和定位这些异常。为解决此问题，作者提出TrajAD，一种基于细粒度过程监督训练的专用验证器，其性能优于基线方法，表明专门监督对于构建可信代理至关重要。

LLM Agent 轨迹异常检测过程监督可信AI

论文涉及LLM代理的轨迹异常检测，与执行过程监控相关，间接关联到Agent Memory。

TrailBlazer：基于历史引导的黑盒大语言模型越狱强化学习方法

TrailBlazer: History-Guided Reinforcement Learning for Black-Box LLM Jailbreaking

Sung-Hoon Yoon, Ruizhi Qian, Minda Zhao, Weiyue Li, Mengyu Wang

7/10 2026-02-06 cs.CL PDF

大型语言模型（LLMs）已成为许多领域的重要组成部分，因此其安全性成为关键问题。先前的越狱研究探索了多种方法，包括提示优化、自动化红队测试、混淆和基于强化学习的方法。然而，大多数现有技术未能有效利用早期交互中揭示的漏洞，导致攻击效率低下且不稳定。由于越狱涉及连续交互，每一步响应都会影响后续动作，强化学习为这一问题提供了自然的框架。受此启发，我们提出了一种基于历史信息的强化学习越狱框架，通过分析并重新加权先前步骤中的漏洞信号来指导未来决策。实验表明，仅引入历史信息即可提高越狱成功率。在此基础上，我们引入了一种基于注意力的重新加权机制，突出交互历史中的关键漏洞，从而在更少查询次数下实现更高效的探索。在AdvBench和HarmBench上的大量实验表明，我们的方法在越狱性能上达到最先进水平，并显著提升了查询效率。这些结果强调了历史漏洞信号在强化学习驱动的越狱策略中的重要性，并为推进大语言模型安全防护的对抗性研究提供了理论依据。

强化学习越狱攻击历史信息注意力机制 LLM安全

论文提出基于历史信息的强化学习框架，涉及记忆机制以提升攻击效率。

通过潜在动作实现自我改进的世界建模

Self-Improving World Modelling with Latent Actions

Yifu Qiu, Zheng Zhao, Waylon Li, Yftah Ziser, Anna Korhonen et al.

7/10 2026-02-05 cs.LG PDF

世界内部建模——预测在动作Z下的前一状态X与下一状态Y之间的转换——对于LLM和VLM的推理和规划至关重要。通常需要代价高昂的动作标记轨迹来学习此类模型。本文提出SWIRL，一种自改进框架，通过将动作视为潜在变量，并在前向世界建模（FWM）Pθ(Y|X,Z)和逆动力学建模（IDM）Qφ(Z|X,Y)之间交替，从仅包含状态的序列中进行学习。SWIRL迭代两个阶段：(1) 变分信息最大化，更新FWM以生成与潜在动作在给定先前状态下具有最大条件互信息的下一状态，鼓励可识别的一致性；(2) ELBO最大化，更新IDM以解释观察到的转换，有效执行坐标上升。两个模型均使用强化学习（具体为GRPO）进行训练，奖励信号为相反冻结模型的日志概率。我们为两种更新提供了理论可学习性保证，并在多个环境中对SWIRL进行了评估，包括单轮和多轮开放世界视觉动态以及用于物理、网络和工具调用的合成文本环境。SWIRL在AURORABench上实现了16%的提升，在ByteMorph上提升了28%，在WorldPredictionBench上提升了16%，在StableToolBench上提升了14%。

世界建模潜在变量逆动力学建模强化学习 LLM

论文涉及世界建模与隐式动作学习，与Agent Memory相关但非唯一主题。

KV-CoRE：评估LLMs中KV缓存的数据依赖低秩可压缩性基准

KV-CoRE: Benchmarking Data-Dependent Low-Rank Compressibility of KV-Caches in LLMs

Jian Chen, Zhuoran Wang, Jiayu Qin, Ming Li, Meng Wang et al.

7/10 2026-02-05 cs.CL PDF

大型语言模型依赖于KV缓存以避免自回归解码过程中的冗余计算，但随着上下文长度的增加，读写缓存会迅速占用GPU内存带宽。尽管已有研究探索了KV缓存压缩，但大多数方法忽略了KV缓存的数据依赖性和层间变化。本文提出KV-CoRE（基于奇异值分解的KV缓存可压缩性评估方法），用于量化KV缓存的数据依赖低秩可压缩性。该方法在Frobenius范数下计算最优低秩近似，并通过无梯度和增量方式实现高效的数据集级、逐层评估。利用该方法，我们分析了多个模型和数据集，涵盖五个英文领域和十六种语言，揭示了可压缩性与模型架构、训练数据和语言覆盖之间的系统性关联。作为分析的一部分，我们采用归一化有效秩作为可压缩性指标，并证明其与压缩下的性能下降高度相关。本研究建立了原理性的评估框架，并首次构建了LLMs中KV缓存可压缩性的大规模基准，为动态、数据感知的压缩和数据驱动的模型开发提供了见解。

KV-cache 低秩压缩模型优化内存管理数据驱动

论文聚焦KV-cache压缩性，与Agent Memory中的缓存管理密切相关，但非唯一主题。

用于角色扮演的编码有限状态机

Codified Finite-state Machines for Role-playing

Letian Peng, Yupeng Hou, Kun Zhou, Jingbo Shang

7/10 2026-02-05 cs.CL PDF

在使用大型语言模型（LLMs）进行角色扮演（RP）时，建模潜在角色状态对于保持一致性和互动性至关重要。然而，现有的基于提示的方法主要捕捉表面行为，往往无法跟踪驱动交互的潜在状态。本文重新审视了有限状态机（FSMs），该方法长期以来被用于游戏设计中建模状态转换。尽管传统的人工设计、基于规则的FSMs在小规模、明确的状态空间中有效，但在开放式的语义空间中难以适应。为了解决这一问题，我们引入了编码有限状态机（CFSMs），一种利用基于LLM的编码自动将文本角色档案转化为FSMs的框架。CFSMs直接从档案中提取关键状态和转换，生成可解释的结构以确保角色一致性。为进一步捕捉不确定性和变异性，我们将CFSMs扩展为编码概率有限状态机（CPFSMs），其中转换被建模为状态的概率分布。通过合成评估和现实世界中的RP场景测试，我们证明CFSM和CPFSM优于通用基线方法，验证了其不仅在结构化任务中有效，在开放式随机状态探索中也表现出色。

有限状态机角色扮演 LLM编码概率建模

论文涉及角色状态建模与一致性，与Agent Memory相关，但非唯一主题。

OdysseyArena：用于长时程、主动和归纳交互的大型语言模型基准测试

OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions

Fangzhi Xu, Hang Yan, Qiushi Sun, Jinyang Wu, Zixian Huang et al.

7/10 2026-02-05 cs.CL PDF

随着大型语言模型（LLMs）的快速发展，自主代理在复杂环境中的导航能力得到了显著提升。然而，现有评估主要采用演绎范式，即代理基于明确提供的规则和静态目标执行任务，通常具有有限的规划范围。这忽视了代理从经验中自主发现潜在转移规律的归纳必要性，而这是实现代理前瞻性思维和保持战略一致性的关键。为弥补这一差距，我们引入了OdysseyArena，将代理评估重新聚焦于长时程、主动和归纳交互。我们形式化并实例化了四个基本元素，将抽象的转移动态转化为具体的交互环境。在此基础上，我们建立了OdysseyArena-Lite以进行标准化基准测试，提供120个任务来衡量代理的归纳效率和长时程发现能力。进一步地，我们引入了OdysseyArena-Challenge，以极端交互范围（例如>200步）对代理稳定性进行压力测试。对15多个领先LLM的广泛实验表明，即使是最先进的模型在归纳场景中也存在不足，揭示了在复杂环境中实现自主发现的关键瓶颈。

Agent Evaluation Long-Horizon Interaction Inductive Learning Benchmarking

论文涉及长期交互与归纳学习，隐含对Agent Memory的需求，但未直接研究记忆机制。

Code

基于强化学习的世界模型训练用于LLM代理

Reinforcement World Model Learning for LLM-based Agents

Xiao Yu, Baolin Peng, Ruize Xu, Yelong Shen, Pengcheng He et al.

7/10 2026-02-05 cs.CL PDF

大型语言模型（LLMs）在语言相关任务中表现出色，但在代理设置中，它们往往难以预测行动后果并适应环境动态，这突显了LLM代理需要具备世界建模能力。我们提出了强化世界模型学习（RWML），一种自监督方法，通过使用模拟到现实的差距奖励，在文本状态上为LLM代理学习动作条件化的世界模型。该方法将模型生成的模拟下一状态与从环境中观察到的实际下一状态对齐，鼓励预训练嵌入空间中内部世界模拟与实际环境动态之间的一致性。与优先考虑标记级保真度（即重现确切措辞）而忽视语义等价性的下一状态标记预测不同，我们的方法提供了更稳健的训练信号，并且在经验上比LLM作为评判者更不容易受到奖励黑客攻击。我们在ALFWorld和$τ^2$ Bench上评估了我们的方法，尽管是完全自监督的，但仍观察到相对于基线模型有显著提升。当结合任务成功奖励时，我们的方法在ALFWorld和$τ^2$ Bench上的表现分别优于直接任务成功奖励强化学习6.9和5.7个百分点，同时匹配专家数据训练的性能。

世界模型强化学习 LLM代理自监督学习环境建模

论文提出世界模型学习方法，与Agent Memory相关，但非唯一主题。

LongR：通过密集效用奖励的强化学习释放长上下文推理能力

LongR: Unleashing Long-Context Reasoning via Reinforcement Learning with Dense Utility Rewards

Bowen Ping, Zijun Chen, Yiyao Yu, Tingfeng Hui, Junchi Yan et al.

7/10 2026-02-05 cs.CL PDF

强化学习已成为提升大语言模型（LLM）推理能力的关键方法。在长上下文场景中，如长对话理解和结构化数据分析，挑战不仅在于处理大量token，还在于进行严谨的推理。现有研究多关注数据合成或架构改进，但仅依赖稀疏结果奖励的方法效果有限。为此，本文提出LongR框架，整合动态“思考-阅读”机制与基于相对信息增益的上下文密度奖励，以量化相关文档的效用。实验表明，LongR在LongBench v2上提升了9%，并在RULER和InfiniteBench上表现稳定，且适用于多种RL算法。此外，研究还深入分析了推理链长度对效率及模型抗干扰能力的影响。

强化学习长上下文推理文档咨询效用奖励

论文涉及长上下文推理与文档咨询机制，与Agent Memory相关但非唯一主题。

反应式知识表示与异步推理

Reactive Knowledge Representation and Asynchronous Reasoning

Simon Kohaut, Benedict Flade, Julian Eggert, Kristian Kersting, Devendra Singh Dhami

Simon Kohaut (Artificial Intelligence and Machine Learning Group, TU DarmstadtDarmstadt, HesseGermany) | Benedict Flade (Honda Research Institute EUOffenbach am Main, HesseGermany) | Julian Eggert (Honda Research Institute EUOffenbach am Main, HesseGermany)

7/10 2026-02-05 cs.AI PDF

在复杂概率模型中进行精确推理通常会产生高昂的计算成本，这一问题在需要频繁实时信念更新的自主代理系统中尤为突出。现有方法在持续推理中效率低下，因为它们在任何变化发生时都会重新评估整个模型，未能利用现实世界信息流具有异质更新率的特点。为了解决这一问题，本文从反应式、异步的概率推理角度出发，提出了一种名为Resin的概率编程语言，该语言结合了概率逻辑与反应式编程。此外，为了提供高效的精确语义，本文还提出了反应式电路（Reactive Circuits, RCs）。RCs被定义为基于代数电路和异步数据流的元结构，是时间动态的有向无环图，能够根据输入信号的波动性自主调整自身结构。在高保真度的无人机群模拟实验中，本文的方法相比频率无关推理实现了多个数量级的速度提升。结果表明，RCs的结构适应性成功捕捉了环境动态，显著降低了延迟并促进了反应式实时推理。通过根据异步输入的估计变化频率对计算进行分区，大型推理任务可以分解为独立记忆化的子问题，从而确保仅重新评估受新信息影响的模型组件，大幅减少流式场景中的冗余计算。

概率推理异步计算反应式系统 Agent Memory 实时推理

论文涉及异步推理与动态更新机制，与Agent Memory相关，但非唯一主题。

面向供应链的AI Agent系统：结构化决策提示与记忆检索

AI Agent Systems for Supply Chains: Structured Decision Prompts and Memory Retrieval

Konosuke Yoshizato, Kazuma Shimizu, Ryota Higa, Takanobu Otsuka

7/10 2026-02-05 cs.MA PDF

本研究探讨了基于大语言模型（LLM）的多智能体系统（MASs）在库存管理中的应用，这是供应链管理的关键组成部分。尽管这些系统因其解决传统库存管理方法挑战的潜力而受到广泛关注，但其有效性仍存在不确定性。具体而言，尚不清楚基于LLM的MAS是否能持续得出最优订购策略并适应多样化的供应链场景。为解决这些问题，我们研究了一种带有固定订购策略提示的LLM-MAS，该提示编码了问题设定的分步过程和库存管理中常用的安全库存策略。实证结果表明，即使没有详细的提示调整，基于LLM的MAS也能在受限场景中确定最佳订购决策。为增强适应性，我们提出了一种新的代理AIM-RM，它通过相似性匹配利用类似的历史经验。结果表明，AIM-RM在各种供应链场景中优于基准方法，突显了其鲁棒性和适应性。

LLM 多智能体系统库存管理记忆检索供应链

论文涉及基于LLM的Agent系统中记忆检索机制，用于提升适应性，但非唯一主题。

PATHWAYS：评估AI网络代理的调查与上下文发现能力

PATHWAYS: Evaluating Investigation and Context Discovery in AI Web Agents

Shifat E. Arman, Syed Nazmus Sakib, Tapodhir Karmakar Taton, Nafiul Haque, Shahrear Bin Amin

7/10 2026-02-05 cs.AI PDF

本文介绍了PATHWAYS，一个包含250个多层次决策任务的基准测试，用于评估基于网络的智能体是否能够发现并正确使用隐藏的上下文信息。结果表明，尽管智能体通常能导航到相关页面，但在少数情况下才能获取关键的隐藏证据。当任务需要推翻误导性的表面信号时，性能显著下降，接近随机水平。智能体经常声称依赖于从未访问过的证据，从而产生虚假的推理过程。即使发现了正确的上下文，智能体也常无法将其整合到最终决策中。提供更明确的指令可以提高上下文发现能力，但往往降低整体准确性，揭示了程序合规性与有效判断之间的权衡。这些结果表明，当前网络智能体架构缺乏可靠的适应性调查、证据整合和判断覆盖机制。

Agent Memory Context Discovery Web Agents Evidence Integration

论文涉及Agent在任务中发现和使用隐藏上下文信息，与记忆机制相关，但非唯一主题。

ProAct：交互环境中智能体的前瞻性推理

ProAct: Agentic Lookahead in Interactive Environments

Yangbin Yu, Mingyu Yang, Junyou Li, Yiming Gao, Feiyu Liu et al.

7/10 2026-02-05 cs.AI PDF

现有的大型语言模型（LLM）代理在需要长期规划的交互环境中表现不佳，主要由于模拟未来状态时累积误差。为了解决这一问题，我们提出了ProAct框架，通过两阶段训练范式使代理能够内部化准确的前瞻性推理。首先，我们引入了基于环境搜索轨迹的监督微调方法Grounded LookAhead Distillation（GLAD），将复杂的搜索树压缩为简洁的因果推理链，从而无需推理时搜索即可学习前瞻性逻辑。其次，为了进一步提高决策准确性，我们提出了一种轻量级的蒙特卡洛批评者（MC-Critic），作为增强策略梯度算法（如PPO和GRPO）的辅助价值估计器。通过利用轻量级环境回滚校准价值估计，MC-Critic提供了低方差信号，有助于稳定策略优化，而无需依赖昂贵的模型基价值近似。实验表明，ProAct在随机（如2048）和确定性（如Sokoban）环境中显著提升了规划准确性。一个4B参数的ProAct模型超越了所有开源基线，并与最先进的闭源模型相媲美，同时展示了对未见过环境的鲁棒泛化能力。

Agent Planning Lookahead Reasoning Value Estimation Policy Optimization

论文涉及前瞻性推理和记忆机制，但核心是规划与决策优化。

Code

HugRAG：面向RAG的分层因果知识图设计

HugRAG: Hierarchical Causal Knowledge Graph Design for RAG

Nengbo Wang, Tuo Liang, Vikash Singh, Chaoda Song, Van Yang et al.

7/10 2026-02-04 cs.AI PDF

检索增强生成（RAG）通过引入外部知识增强了大型语言模型的能力，而基于图的RAG已成为结构化检索和推理的强大范式。然而，现有基于图的方法通常过度依赖表面级节点匹配，并缺乏显式的因果建模，导致答案不忠实或出现虚假信息。以往尝试引入因果性的方法通常局限于局部或单文档上下文，并且由于模块化图结构导致信息隔离，阻碍了可扩展性和跨模块因果推理。为了解决这些问题，我们提出了HugRAG，一种通过分层模块间的因果门控重新思考知识组织的框架。HugRAG显式建模因果关系，以抑制虚假相关性并实现大规模知识图上的可扩展推理。大量实验表明，HugRAG在多个数据集和评估指标上始终优于竞争性的基于图的RAG基线。我们的工作为结构化、可扩展且基于因果的RAG系统奠定了理论基础。

RAG 因果建模知识图谱模块化推理

论文涉及基于图的RAG系统，强调因果建模和知识组织，与Agent Memory中的知识检索和因果推理相关。

DeepRead：基于文档结构感知的推理以增强代理搜索

DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search

Zhanli Li, Huiwen Tian, Lvzhou Luo, Yixuan Cao, Ping Luo

Zhanli Li (Key Lab of Intelligent Information Processing of Chinese Academy of Sciences (CAS), Institute of Computing Technology, CASBeijing100190China) | Huiwen Tian (Key Lab of Intelligent Information Processing of Chinese Academy of Sciences (CAS), Institute of Computing Technology, CASBeijing100190China) | Lvzhou Luo (Key Lab of Intelligent Information Processing of Chinese Academy of Sciences (CAS), Institute of Computing Technology, CASBeijing100190China)

7/10 2026-02-04 cs.AI PDF

随着工具使用和代理式大语言模型（LLMs）的快速发展，检索增强生成（RAG）正从单次、被动检索演变为多轮、决策驱动的证据获取。尽管在开放领域取得了显著成果，现有代理搜索框架通常将长文档视为扁平化的块集合，未能充分利用文档本身的先验知识，如层次组织和顺序论述结构。本文提出DeepRead，一种结构感知的多轮文档推理代理，显式地利用这些先验知识进行长文档问答。DeepRead利用基于LLM的OCR模型将PDF转换为保留标题和段落边界的结构化Markdown格式。然后在段落级别对文档进行索引，并为每个段落分配一个编码其章节身份和节内顺序的坐标风格元数据键。在此基础上，DeepRead为LLM提供了两种互补工具：一个用于定位相关段落并暴露其结构坐标的检索工具（轻量级扫描上下文），以及一个允许在指定章节和段落范围内连续、保持顺序阅读的ReadSection工具。实验表明，DeepRead在文档问答任务中显著优于Search-o1风格的代理搜索。检索与阅读工具之间的协同效应也得到了验证。我们的细粒度行为分析揭示了一种类似于人类“定位后阅读”的读取与推理范式。

Agent Memory Document Retrieval LLM Agent RAG Structure-Aware Reasoning

论文涉及基于文档结构的多轮检索与阅读机制，与Agent Memory中的信息定位和存储相关。

CoWork-X：面向多智能体协作系统的经验优化共进化方法

CoWork-X: Experience-Optimized Co-Evolution for Multi-Agent Collaboration System

Zexin Lin, Jiachen Yu, Haoyang Zhang, Yuzhao Li, Zhonghang Li et al.

7/10 2026-02-04 cs.CL PDF

大型语言模型正在使交互环境中的语言条件代理成为可能，但高度协作的任务通常同时带来两个约束：亚秒级实时协调和在严格的在线token预算下持续的多回合适应。现有方法要么依赖频繁的回合内推理导致延迟和时间抖动，要么通过非结构化文本实现回合后改进，难以编译为可靠且低成本的执行方案。本文提出CoWork-X，一种主动共进化框架，将同伴协作视为跨回合的闭环优化问题，受快慢记忆分离启发。CoWork-X实例化了一个Skill-Agent，通过从结构化、可解释且组合化的技能库中进行HTN（分层任务网络）基础的技能检索来执行，并引入一个回合后Co-Optimizer，通过显式预算约束和漂移正则化进行补丁式技能整合。在具有挑战性的类似Overcooked-AI的实时协作基准测试中，实验表明CoWork-X实现了稳定的累积性能提升，同时逐步降低在线延迟和token使用量。

多智能体协作技能库共进化在线优化 LLM Agent

论文提出基于快慢记忆分离的框架，涉及技能库和在线优化，与Agent Memory相关。

分解提示无法弥补知识差距，但有助于模型说出“我不知道”

Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know"

Dhruv Madhwal, Lyuxin David Zhang, Dan Roth, Tomer Wolfson, Vivek Gupta

7/10 2026-02-04 cs.CL PDF

大型语言模型在封闭式问答任务中常难以识别自身知识的局限性，导致自信的幻觉。尽管分解提示通常用于提高准确性，本文研究其对可靠性的影晌。我们评估了三种任务等效的提示策略：直接、辅助和增量，在不同规模模型和多跳QA基准上进行测试。发现虽然分解带来的准确率提升在前沿模型中减弱，但不同提示策略之间的分歧仍能高度指示潜在错误。由于事实知识是稳定的而幻觉是随机的，跨策略的一致性提供了内部不确定性的精确信号。我们利用这一信号实现了一种无需检索或微调的训练自由弃权策略。结果表明，基于分歧的弃权方法优于标准不确定性基线作为错误检测器，在多种设置下提升了F1和AUROC指标。这表明基于分解的提示可以作为封闭式问答中模型可靠性的一种实用诊断工具。

LLM Prompting Uncertainty Detection Closed-book QA Model Reliability

论文探讨了分解提示对模型不确定性的检测作用，与Agent Memory中的可靠性机制相关。

推理模型中的流体表示

Fluid Representations in Reasoning Models

Dmitrii Kharlapenko, Alessandro Stolfo, Arthur Conmy, Mrinmaya Sachan, Zhijing Jin

7/10 2026-02-04 cs.AI PDF

推理语言模型在抽象问题上显著优于非推理语言模型，但其内部机制尚不明确。本文对专门训练以生成详细推理过程的QwQ-32B模型进行了机制分析，研究其如何处理抽象结构信息。在Mystery Blocksworld这一语义混淆的规划领域中，发现QwQ-32B在推理过程中逐步改进其动作和概念的内部表示，并发展出聚焦于结构而非具体动作名称的抽象编码。通过引导实验，证明这些适应性改进提升了问题解决能力：从成功推理轨迹中注入优化后的表示可提高准确性，而符号表示也能在性能损失最小的情况下替代许多混淆编码。研究发现，推理模型性能的一个关键驱动因素是上下文中的标记表示优化，即所谓的流体推理表示。

推理模型表示学习流体表示 Agent Memory 语义混淆任务

论文探讨了推理模型中表示的动态调整，与Agent Memory中的表示更新机制相关。

SE-Bench: 基于知识内化的自我进化基准测试

SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization

Jiarui Yuan, Tailin Jin, Weize Chen, Zeyuan Liu, Zhiyuan Liu et al.

Weize Chen (Tsinghua University)

7/10 2026-02-04 cs.CL PDF

真正的自我进化要求智能体作为终身学习者，将新经验内化以解决未来问题。然而，严格衡量这一基础能力受到两个障碍的限制：先验知识的纠缠，即“新”知识可能出现在预训练数据中；以及推理复杂性的纠缠，即失败可能源于问题难度而非无法回忆已学知识。本文引入SE-Bench，一个诊断环境，通过模糊NumPy库及其API文档为伪新包，并使用随机标识符。智能体被训练以内化该包，并在无文档访问的情况下进行简单编码任务评估，从而创建了一个干净的环境：拥有新API文档的任务对基础模型而言是简单的，而没有文档则不可能完成。研究揭示了三个发现：(1) 开放书籍悖论，使用参考文档训练会抑制保留，需要“闭书训练”来强制知识压缩到权重中；(2) 强化学习差距，标准RL因PPO裁剪和负梯度无法完全内化新知识；(3) 自我博弈对内化的可行性，证明当结合SFT时，模型可以从自生成的噪声任务中学习，但不能通过RL实现。总体而言，SE-Bench建立了用于知识内化自我进化的严格诊断平台。

Agent Memory Self-Evolution Knowledge Internalization Benchmarking

论文探讨了知识内化与自我进化，涉及记忆机制在长期学习中的作用。

Code

沉默是金：LLM能否在时间问答及更广泛领域中学会拒绝回答？

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

Xinyu Zhou, Chang Jin, Carsten Eickhoff, Zhijiang Guo, Seyed Ali Bahrainian

7/10 2026-02-04 cs.CL PDF

大型语言模型（LLMs）很少承认其不确定性，通常会生成流畅但具有误导性的答案，而不是拒绝回答。这种缺陷在时间问答任务中尤为明显，模型经常忽略时间敏感的证据并混淆不同时期的事实。本文首次对训练具备拒绝能力的LLM进行实证研究，特别是在时间问答推理中。我们提出了一种结合思维链监督与基于拒绝感知奖励的强化学习的流程，系统分析不同类型信息和训练技术对LLM在拒绝行为下的时间推理的影响。实验表明，强化学习显著提升了模型性能，并提高了对无法回答问题的识别率。此外，我们发现隐式推理线索对带有拒绝行为的推理帮助有限。本研究为联合优化拒绝与推理提供了新见解，为构建更可靠的LLM奠定了基础。

LLM Abstention Temporal QA Reinforcement Learning Uncertainty Handling

论文探讨了LLM在时间问答任务中如何通过学习‘拒绝回答’来提升可靠性，与Agent Memory中的不确定性处理和决策机制相关。

通过控制最小化实现持续学习

Continual Learning through Control Minimization

Sander de Haan, Yassine Taoudi-Benchekroun, Pau Vilimelis Aceituno, Benjamin F. Grewe

7/10 2026-02-04 cs.LG PDF

当任务按顺序训练时，神经网络仍面临灾难性遗忘这一根本性挑战。在本研究中，我们将持续学习重新表述为一个控制问题，其中学习信号和保留信号在神经活动动态中竞争。我们将正则化惩罚转化为保护先前任务表示的保留信号。学习过程通过最小化整合新任务所需的控制努力，同时与先前任务的保留进行竞争。在平衡状态下，神经活动产生的权重更新隐式编码了完整的先前任务曲率，我们称之为持续自然梯度，无需显式的曲率存储。实验表明，我们的学习框架能够恢复真实的先前任务曲率并实现任务区分，在标准基准测试中优于现有方法，且无需回放。

持续学习灾难性遗忘控制理论神经网络

论文探讨了连续学习中的记忆保持问题，与Agent Memory相关但非唯一主题。

ReThinker：通过引导性反思与置信度控制实现科学推理

ReThinker: Scientific Reasoning by Rethinking with Guided Reflection and Confidence Control

Zhentao Tang, Yuqi Cui, Shixiong Kai, Wenqian Zhao, Ke Ye et al.

7/10 2026-02-04 cs.AI PDF

大型语言模型在专家级科学推理任务上仍面临挑战，尤其是在如《人类最后考试》（HLE）等基准测试中，受限于固定的工具流程、脆弱的多代理协调以及低效的测试时扩展能力。本文提出ReThinker，一种基于置信度的智能体框架，通过分阶段的Solver-Critic-Selector架构协调检索、工具使用和多代理推理。不同于固定流程，ReThinker根据模型置信度动态分配计算资源，实现自适应工具调用、引导性的多维反思以及稳健的置信度加权选择。为支持无需人工标注的可扩展训练，我们进一步提出反向数据合成管道和自适应轨迹重用策略，将成功的推理过程转化为高质量的监督信号。实验表明，ReThinker在HLE、GAIA和XBench等基准上均优于现有最先进的基础模型和深度研究系统，在专家级推理任务中取得最先进结果。

Agent Memory 多代理系统科学推理置信度控制动态计算分配

论文涉及基于置信度的动态计算分配和多代理反思，与Agent Memory相关但非核心主题。

基于历史引导的迭代视觉推理与自我修正

History-Guided Iterative Visual Reasoning with Self-Correction

Xinglong Yang, Zhilin Peng, Zhanzhan Liu, Haochen Shi, Sheng-Jun Huang

7/10 2026-02-04 cs.CL PDF

自一致性方法是提升多模态大语言模型（MLLMs）推理可靠性的核心技术。通过重复采样生成多个推理结果，并通过投票选择最佳答案，在跨模态任务中发挥重要作用。然而，现有自一致性方法大多局限于固定的“重复采样和投票”范式，未能复用历史推理信息，导致模型难以主动纠正视觉理解错误并动态调整推理过程。受人类反复验证和动态纠错推理行为的启发，本文提出H-GIVR框架。在迭代推理过程中，MLLM多次观察图像，并以前生成的答案作为后续步骤的参考，实现动态纠错并提高答案准确性。我们在五个数据集和三个模型上进行了全面实验，结果表明H-GIVR框架能显著提升跨模态推理准确率，同时保持较低的计算成本。例如，在ScienceQA数据集上使用Llama3.2-vision:11b模型，平均每题需要2.57次响应即可达到78.90%的准确率，比基线提升了107%。

多模态学习自一致性方法视觉推理历史信息复用动态纠错

论文提出利用历史推理信息进行动态修正，与Agent Memory相关但非唯一主题。

从假设到行动：将LLM推理转化为具身智能体的不确定性感知规划

From Assumptions to Actions: Turning LLM Reasoning into Uncertainty-Aware Planning for Embodied Agents

SeungWon Seo, SooBin Lim, SeongRae Noh, Haneul Kim, HyeongYeop Kang

7/10 2026-02-04 cs.AI PDF

在多智能体、部分可观测和去中心化的环境中，具身智能体必须在对隐藏对象和合作者意图存在广泛不确定性的情况下进行规划和行动。尽管近期将大语言模型（LLMs）应用于具身智能体已解决了许多长期存在的挑战，如高层目标分解和在线适应，但不确定性仍主要通过频繁的智能体间通信来缓解。这会带来显著的token和时间成本，并可能干扰已有工作流程，尤其是在涉及人类合作伙伴时。本文提出PCE框架，该框架将LLM推理轨迹中隐含的碎片化假设转化为结构化的决策树。内部节点编码环境假设，叶子节点映射到动作；每条路径根据场景可能性、目标导向收益和执行成本进行评分，以指导理性行动选择，而无需大量通信。在两个具有挑战性的多智能体基准（C-WAH和TDW-MAT）和三种不同的LLM主干上，PCE在成功率和任务效率方面均优于以通信为中心的基线方法，同时显示出相当的token使用量。消融实验表明，当应用PCE时，通过扩展模型容量或推理深度获得的性能提升仍然存在，而PCE在容量和推理深度尺度上始终提高基线，证实了结构化不确定性处理可以补充这两种扩展方式。用户研究进一步表明，PCE生成的通信模式被人类合作伙伴视为更高效和可信。这些结果共同确立了一种原理性方法，将LLM潜在的假设转化为不确定性感知规划的可靠策略。

LLM 不确定性处理具身智能体规划系统多智能体

论文涉及LLM推理中的不确定性处理，与Agent Memory相关但非核心主题。

OMG-Agent：面向鲁棒缺失模态生成的解耦粗到细智能体工作流

OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows

Ruiting Dai, Zheyu Wang, Haoyu Yang, Yihan Liu, Chengzhi Wang et al.

7/10 2026-02-04 cs.AI PDF

数据不完整性严重阻碍了多模态系统的可靠性。现有的重建方法面临不同的瓶颈：传统的参数化/生成模型由于过度依赖内部记忆而容易产生幻觉，而检索增强框架则存在检索僵硬的问题。关键的是，这些端到端架构受到语义细节纠缠的结构性限制——逻辑推理与信号合成之间的冲突损害了保真度。本文提出了一种名为OMG-Agent的新框架，该框架将范式从静态映射转变为动态的粗到细智能体工作流。通过模仿“深思熟虑后行动”的认知过程，OMG-Agent显式地将任务分解为三个协同阶段：（1）由MLLM驱动的语义规划器，通过渐进上下文推理解决输入歧义，创建确定性的结构化语义计划；（2）非参数化的证据检索器，将抽象语义锚定在外部知识上；（3）检索注入执行器，利用检索到的证据作为灵活的特征提示，克服僵硬性并合成高保真细节。在多个基准上的大量实验表明，OMG-Agent始终优于最先进的方法，并在极端缺失情况下保持鲁棒性，例如在CMU-MOSI数据集上缺失率70%时提升了2.6个百分点。

多模态生成智能体工作流语义规划检索增强缺失模态恢复

论文涉及Agent Memory相关机制，如内部记忆依赖与检索增强框架的对比，但核心是多模态生成。

一种关于梦境的计算解释：学习与记忆巩固

A computational account of dreaming: learning and memory consolidation

Qi Zhang

7/10 2026-02-04 q-bio.NC PDF

许多研究认为梦境主要是由随机内部信号引起的，并认为梦境睡眠在我们的智力能力中作用不大。然而，功能研究表明梦境睡眠在学习和其他智力功能中起着重要作用，尤其是在海马体中近期清醒模式的神经重放现象之后。该研究提出了一种认知和计算模型，模拟梦境过程以执行学习和记忆巩固功能。模拟结果表明，随机信号可能导致学习和记忆巩固。因此，梦境被提出为大脑清醒活动的延续，处理来自海马体自发和随机激活的信号。该模型的特征与多种实证研究得出的结论一致。

梦境记忆巩固计算模型神经重放学习

论文重点探讨了梦境与记忆巩固的关系，涉及记忆机制但非唯一主题。

通过跨回合元强化学习扩展LLM的上下文在线学习能力

Scaling In-Context Online Learning Capability of LLMs via Cross-Episode Meta-RL

Xiaofeng Lin, Sirou Zhu, Yilei Chen, Mingyu Chen, Hejian Sang et al.

7/10 2026-02-03 cs.AI PDF

大型语言模型（LLMs）在所有任务相关信息提前可用的情况下表现出色，如静态预测和指令遵循问题。然而，许多现实世界中的决策任务本质上是在线的：关键信息必须通过交互获取，反馈延迟，并且有效行为需要在时间上平衡信息收集和利用。尽管上下文学习使模型能够在不更新权重的情况下进行适应，但现有LLMs通常难以可靠地利用上下文交互经验。本文表明，这一限制可以通过训练来解决。我们引入了ORBIT，一个支持多任务、多回合的元强化学习框架，用于训练LLMs从上下文交互中学习。经过元训练后，一个相对较小的开源模型（Qwen3-14B）在完全未见过的环境中表现出显著改进的上下文在线学习能力，其性能可与GPT-5.2媲美，并大幅优于标准的强化学习微调方法。扩展实验进一步表明，随着模型规模增大，性能持续提升，表明推理时学习决策代理具有较大的提升空间。

LLM 在线学习元强化学习 Agent Memory 上下文学习

论文探讨了LLM在在线学习中的记忆利用问题，提出通过跨回合元强化学习提升其能力，与Agent Memory相关。

Code

神经注意搜索线性：迈向自适应的标记级混合注意模型

Neural Attention Search Linear: Towards Adaptive Token-Level Hybrid Attention Models

Difan Deng, Andreas Bentzen Winje, Lukas Fehring, Marius Lindauer

7/10 2026-02-03 cs.CL PDF

Softmax变压器在长上下文场景中的二次计算复杂度已成为瓶颈。相比之下，线性注意力模型家族为更高效的序列模型提供了有前途的方向。这些线性注意力模型将过去的KV值压缩到一个隐藏状态中，从而在训练和推理过程中高效地降低复杂度。然而，它们的表现力仍受限于隐藏状态的大小。先前的工作提出通过交错softmax和线性注意力层来减少计算复杂度同时保持表现力。然而，这些模型的效率仍然受到softmax注意力层的限制。本文提出了Neural Attention Search Linear（NAtS-L），一种框架，在同一层内对不同标记应用线性注意力和softmax注意力操作。NAtS-L自动确定某个标记是否可以由线性注意力模型处理，即仅具有短期影响并可编码为固定大小隐藏状态的标记，或需要softmax注意力处理，即包含与长期检索相关的信息并需保留以供未来查询的标记。通过在标记间搜索最优的Gated DeltaNet和softmax注意力组合，我们表明NAtS-L提供了一种强大而高效的标记级混合架构。

注意力机制混合模型线性注意力 Agent Memory 序列建模

论文探讨了混合注意力机制，涉及对记忆状态的处理和选择性编码，与Agent Memory相关。

缓解多轮代理中的会话惯性

Mitigating Conversational Inertia in Multi-Turn Agents

Yang Wan, Zheng Cao, Zhenhao Zhang, Zhengwen Zeng, Shuheng Shen et al.

7/10 2026-02-03 cs.AI PDF

大型语言模型在提供适当示例时表现出优秀的少样本学习能力，但在多轮代理场景中，这种优势却导致模型错误地模仿其先前响应作为少样本示例。通过注意力分析，我们识别出会话惯性现象，即模型对先前响应表现出强烈的对角线注意力，这与限制探索的模仿偏差相关。这揭示了将少样本LLM转化为代理时的矛盾：更长的上下文可以丰富环境反馈以用于利用，但也加剧了会话惯性，从而削弱探索。我们的关键见解是，对于相同的状态，使用更长上下文生成的动作表现出更强的惯性，这使得可以在没有环境奖励的情况下构建偏好对。基于此，我们提出上下文偏好学习方法，校准模型偏好以优先选择低惯性响应。此外，我们在推理时提供了上下文管理策略，以平衡探索与利用。实验结果表明，我们的框架在八个代理环境中和一个深度研究场景中有效减少了会话惯性并提升了性能。

会话惯性上下文管理探索与利用平衡代理系统

论文探讨了多轮对话中模型对历史响应的注意力偏差（即会话惯性），与Agent Memory中的探索与利用平衡密切相关。

CL-bench: 一个用于上下文学习的基准测试

CL-bench: A Benchmark for Context Learning

Shihan Dou, Ming Zhang, Zhangyue Yin, Chenhao Huang, Yujiong Shen et al.

7/10 2026-02-03 cs.CL PDF

当前的语言模型在使用预训练知识进行提示推理方面表现出色，但现实任务更加复杂且依赖于上下文。模型需要从特定任务的上下文中学习，并利用超出预训练范围的新知识来解决任务。本文提出CL-bench，这是一个包含500个复杂上下文、1899个任务和31607个验证标准的现实世界基准测试，由领域专家设计。每个任务所需的新内容均包含在对应的上下文中。解决CL-bench任务需要模型从上下文中学习，包括新的领域知识、规则系统、复杂程序以及从经验数据中得出的法律等。评估结果显示，十种前沿语言模型平均仅能解决17.2%的任务，最佳模型GPT-5.1也仅能解决23.7%，表明当前模型尚未实现有效的上下文学习能力，这成为处理现实复杂任务的关键瓶颈。CL-bench为构建具备此基础能力的语言模型提供了重要一步。

上下文学习语言模型评估基准测试知识获取

论文探讨了模型从上下文学习新知识的能力，与Agent Memory中动态学习和利用上下文信息密切相关。

在需要时使用图：高效且自适应地将检索增强生成与图结构结合

Use Graph When It Needs: Efficiently and Adaptively Integrating Retrieval-Augmented Generation with Graphs

Su Dong, Qinggang Zhang, Yilin Xiao, Shengyuan Chen, Chuang Zhou et al.

Su Dong (The Hong Kong Polytechnic UniversityHung HomKowloonHong Kong) | Qinggang Zhang (The Hong Kong Polytechnic UniversityHung HomKowloonHong Kong) | Yilin Xiao (The Hong Kong Polytechnic UniversityHung HomKowloonHong Kong)

7/10 2026-02-03 cs.CL PDF

大型语言模型（LLMs）在知识密集型任务中常因幻觉和过时参数知识而表现不佳。尽管检索增强生成（RAG）通过整合外部语料库来解决这一问题，但其效果受到非结构化领域文档中碎片化信息的限制。图增强RAG（GraphRAG）通过结构化知识图谱增强了上下文推理能力，但在实际场景中却表现出显著的准确性下降和不可接受的延迟，尽管在复杂查询上有所提升。我们发现，GraphRAG对所有查询（无论复杂度如何）的刚性应用是根本原因。为了解决这一问题，我们提出了一种高效且自适应的GraphRAG框架EA-GraphRAG，通过语法感知的复杂度分析动态集成RAG和GraphRAG范式。我们的方法包括：(i) 一个句法特征构造器，解析每个查询并提取一组结构特征；(ii) 一个轻量级复杂度评分器，将这些特征映射到连续的复杂度评分；以及(iii) 一种基于评分的路由策略，对低评分查询选择密集型RAG，对高评分查询调用基于图的检索，并对边界情况应用复杂度感知的倒数排名融合。在包含两个单跳和两个多跳问答基准的全面基准测试中，我们的EA-GraphRAG显著提高了准确性，减少了延迟，并在处理混合场景（包含简单和复杂查询）方面达到了最先进的性能。

GraphRAG RAG 知识图谱检索增强生成复杂度分析

论文涉及GraphRAG与RAG的结合，用于增强记忆检索和推理，属于Agent Memory相关研究。

CRL-VLA：持续视觉-语言-动作学习

CRL-VLA: Continual Vision-Language-Action Learning

Qixin Zeng, Shuo Zhang, Hongyin Zhang, Renjie Wang, Han Zhao et al.

7/10 2026-02-03 cs.AI PDF

在开放世界环境中，终身学习对于具身智能体至关重要，强化学习微调已被证明是使视觉-语言-动作（VLA）模型通过环境交互掌握灵巧操作的重要范式。因此，持续强化学习（CRL）是将VLA模型部署于终身机器人场景中的有前途的路径，但现有方法在保持旧技能（稳定性）和学习新技能（可塑性）之间的平衡仍面临巨大挑战。本文提出CRL-VLA框架，用于VLA模型的持续后训练，并具有严格的理论界限。我们推导出一个统一的性能边界，将稳定性-可塑性权衡与目标条件优势幅度联系起来，并由策略差异进行缩放。CRL-VLA通过非对称调节解决这一困境：限制先前任务的优势幅度，同时允许新任务的受控增长。这通过一种简单而有效的双评论家架构实现，该架构采用新的目标条件价值公式（GCVF），其中冻结的评论家锚定语义一致性，而可训练的估计器驱动适应。在LIBERO基准上的实验表明，CRL-VLA有效地协调了这些冲突目标，在防止遗忘和向前适应方面优于基线方法。

持续学习视觉-语言-动作模型强化学习记忆管理机器人学习

论文涉及持续学习中的稳定性与可塑性平衡，与Agent Memory机制密切相关。

A-RAG：通过分层检索接口扩展智能体增强检索生成的规模

A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

Mingxuan Du, Benfeng Xu, Chiwei Zhu, Shaohan Wang, Pengyu Wang et al.

Chiwei Zhu (University of Science and Technology of China)

7/10 2026-02-03 cs.CL PDF

前沿语言模型已展现出强大的推理和长期工具使用能力。然而，现有的RAG系统未能充分利用这些能力，仍依赖于两种范式：（1）设计一种算法一次性检索段落并将其连接到模型输入中，或（2）预定义工作流程并提示模型逐步执行。这两种范式均不允许模型参与检索决策，从而限制了其随着模型改进而高效扩展的能力。本文提出了A-RAG，一种面向智能体的RAG框架，直接向模型暴露分层检索接口。A-RAG提供了三种检索工具：关键词搜索、语义搜索和块读取，使智能体能够跨多个粒度自适应地搜索和检索信息。在多个开放域问答基准测试中的实验表明，A-RAG在可比或更低的检索token数量下始终优于现有方法，证明了A-RAG有效利用模型能力并动态适应不同的RAG任务。我们进一步系统研究了A-RAG如何随模型规模和测试时计算量扩展。我们将发布我们的代码和评估套件以促进未来研究。

RAG 智能体检索增强生成分层检索信息检索

论文提出A-RAG框架，通过分层检索接口增强模型的检索能力，与Agent Memory相关。

Code

MedSAM-Agent: 借助多轮智能体强化学习提升交互式医学图像分割

MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning

Shengyuan Liu, Liuxin Bao, Qi Yang, Wanting Geng, Boyun Zheng et al.

7/10 2026-02-03 cs.CV PDF

医学图像分割正从任务特定模型向通用框架发展。近期研究利用多模态大语言模型（MLLMs）作为自主代理，采用可验证奖励的强化学习（RLVR）来协调专用工具如Segment Anything Model（SAM）。然而，这些方法通常依赖单轮、僵化的交互策略，并缺乏训练过程中的过程级监督，限制了其对交互工具动态潜力的充分利用并导致冗余操作。为弥补这一不足，我们提出MedSAM-Agent框架，将交互式分割重新定义为多步骤自主决策过程。首先，我们引入一种混合提示策略以生成专家标注的轨迹，使模型能够内化类似人类的决策启发式和自适应优化策略。此外，我们开发了一个两阶段训练流程，结合多轮端到端结果验证与临床保真度过程奖励设计，以促进交互简洁性和决策效率。在6种医学模态和21个数据集上的广泛实验表明，MedSAM-Agent实现了最先进的性能，有效统一了自主医学推理与稳健的迭代优化。

医学图像分割多模态大语言模型强化学习交互式分割智能体训练

论文涉及多轮交互与过程级奖励机制，与Agent Memory相关但非唯一主题。

Code

Accordion-Thinking：用于高效且可读的LLM推理的自调节步骤摘要

Accordion-Thinking: Self-Regulated Step Summaries for Efficient and Readable LLM Reasoning

Zhicheng Yang, Zhijiang Guo, Yinya Huang, Yongxin Wang, Wenlei Shi et al.

Zhicheng YANG (Sun Yat-Sen University)

7/10 2026-02-03 cs.AI PDF

通过扩展推理时的计算量，长链式推理（Chain-of-Thought）显著提升了模型的推理能力，但由于键值缓存线性增长和注意力复杂度二次增长，其面临实际限制。本文提出Accordion-Thinking，一种端到端框架，使LLM能够通过动态摘要自我调节推理步骤的粒度。该机制支持Fold推理模式，模型定期对其思考过程进行摘要并丢弃之前的思考，从而减少对历史token的依赖。我们应用强化学习进一步激励这一能力，发现Fold模式与Unfold模式之间的准确率差距在训练过程中逐渐缩小并最终消失。这表明模型学会了将关键推理信息编码为紧凑摘要，实现推理上下文的有效压缩。我们的Accordion-Thinker证明，在学习自压缩后，LLM可以在不牺牲解的质量的前提下，以极小的历史token开销处理复杂推理任务，并在48GB GPU内存配置下实现3倍的吞吐量，同时结构化的步骤摘要提供了可读的推理过程说明。

LLM推理动态摘要推理压缩强化学习 Agent Memory

论文提出通过动态总结机制减少对历史token的依赖，与Agent Memory相关，但非唯一主题。

DynSplit-KV：面向高效长上下文LLM推理的动态语义分割KV缓存压缩方法

DynSplit-KV: Dynamic Semantic Splitting for KVCache Compression in Efficient Long-Context LLM Inference

Jiancai Ye, Jun Liu, Qingchen Li, Tianlang Zhao, Hanbin Zhang et al.

7/10 2026-02-03 cs.LG PDF

尽管键值（KV）缓存在高效大语言模型（LLM）推理中至关重要，但在长上下文场景下其内存占用不断增长，成为显著瓶颈，因此KV缓存压缩变得尤为重要。当前的压缩方法依赖于固定的分割策略，如固定间隔或预定义分隔符。然而，这种刚性分割在不同场景下会导致显著的精度下降（5.5%至55.1%），因为语义边界具有场景依赖性。为此，本文提出了一种名为DynSplit-KV的KV缓存压缩方法，通过动态识别分隔符实现语义对齐。该方法包括两个创新点：（1）一种基于重要性感知的动态分隔符选择策略，提升了49.9%的精度；（2）一种统一映射策略，将可变长度的语义块转换为固定长度格式，减少了4.9倍的推理开销。实验表明，DynSplit-KV在长上下文场景中实现了最高精度，并相比FlashAttention实现了2.2倍的速度提升和2.6倍的峰值内存减少。

KV Cache 语义分割压缩算法长上下文推理

论文聚焦KVCache压缩，与Agent Memory中的上下文管理密切相关，但非唯一主题。

理解多智能体LLM框架：统一基准与实验分析

Understanding Multi-Agent LLM Frameworks: A Unified Benchmark and Experimental Analysis

Abdelghny Orogat, Ana Rostam, Essam Mansour

7/10 2026-02-03 cs.AI PDF

多智能体LLM框架被广泛用于加速基于大语言模型的智能体系统开发。这些框架通过特定的架构结构来规范智能体之间的交互、信息存储和任务协调。然而，其对系统性能的影响尚不明确。本文提出了一种架构分类法，并开发了MAFBench统一评估套件，以在标准化执行流程下对多个能力进行联合评估。实验结果表明，框架级别的设计选择可能显著影响延迟、规划准确性和协调成功率。最后，作者将研究结果转化为具体的架构设计原则和框架选择指南，并提出了未来的研究方向。

多智能体系统 LLM框架性能评估记忆行为

论文涉及多智能体LLM框架中的记忆行为评估，是关键部分但非唯一主题。

FedKRSO：一种通信和内存高效的大型语言模型联邦微调方法

FedKRSO: Communication and Memory Efficient Federated Fine-Tuning of Large Language Models

Guohao Yang, Tongle Wu, Yuanxiong Guo, Ying Sun, Yanmin Gong

7/10 2026-02-03 cs.LG PDF

微调是将通用大语言模型（LLMs）适应到特定领域任务的关键。联邦学习（FL）作为一种隐私保护框架，在LLM微调中日益受到关注，但面临传输完整模型参数和计算完整梯度的高成本问题。尽管参数高效微调（PEFT）方法被广泛用于降低通信和内存成本，但通常会牺牲模型性能。本文提出FedKRSO（联邦K-种子随机子空间优化），一种在联邦环境中实现通信和内存高效微调的新方法。在FedKRSO中，客户端在服务器生成的共享随机低维子空间内更新模型以节省内存使用。此外，客户端在每轮联邦学习中仅发送沿子空间的模型更新累加器，从而实现高效的全局模型聚合和分发。通过这些策略，FedKRSO显著减少了通信和内存开销，同时克服了PEFT的性能限制，接近联邦全量微调的性能。在GLUE基准测试中的广泛实验表明，FedKRSO在多种联邦学习场景下均表现出优越的性能和较低的通信与内存开销，为资源受限边缘设备上的联邦LLM微调铺平了道路。

联邦学习大语言模型参数高效微调内存优化通信效率

论文提出FedKRSO方法，通过低维子空间减少内存和通信开销，与Agent Memory相关。

从感知到行动：空间AI代理与世界模型

From Perception to Action: Spatial AI Agents and World Models

Gloria Felicia, Nolan Bryant, Handi Putra, Ayaan Gazali, Eliel Lobo et al.

7/10 2026-02-02 cs.LG PDF

尽管大型语言模型已成为代理推理和规划的主要方法，但其在符号域的成功难以直接应用于物理世界。空间智能，即感知三维结构、推理物体关系并在物理约束下行动的能力，是具身代理的重要能力。现有综述分别单独探讨代理架构或空间领域，未提供统一框架。本文通过回顾2000多篇论文，提出一个连接代理能力和空间任务的三轴分类体系。关键发现包括：分层记忆系统对长期空间任务至关重要；GNN-LLM集成对结构化空间推理有前景；世界模型对跨尺度安全部署必不可少。最后，本文指出了六个重大挑战，并提出了未来研究方向。

空间智能代理系统记忆系统世界模型 GNN-LLM集成

论文提及了记忆系统在空间智能中的重要性，但并非核心研究主题。

DeltaEvolve: 通过动量驱动的进化加速科学发现

DeltaEvolve: Accelerating Scientific Discovery through Momentum-Driven Evolution

Jiachen Jiang, Tianyu Ding, Zhihui Zhu

7/10 2026-02-02 cs.AI PDF

基于LLM的进化系统在自动化科学发现中展现出潜力，但现有方法如AlphaEvolve依赖完整的代码历史，导致上下文效率低下且进化指导较弱。本文将进化代理形式化为一个通用的期望最大化框架，在E步中语言模型生成候选程序，M步中系统根据评估反馈更新控制上下文。传统的完整代码快照作为M步实现方式存在冗余细节，削弱了核心算法思想的表达。为此，本文提出DeltaEvolve，一种动量驱动的进化框架，用结构化的语义差分代替完整代码历史，记录连续节点间修改如何及为何影响性能。由于程序通常可分解，语义差分包含许多可转移的有效组件，能更有效地推动改进。通过多级数据库和渐进披露机制组织语义差分，进一步减少输入标记数量。实验证明，该框架在多个科学领域任务中，相比基于完整代码的进化代理，能以更少的标记消耗发现更优解。

进化算法语义差分 LLM代理上下文优化科学发现

论文提出DeltaEvolve框架，通过语义差分替代完整代码历史，优化进化过程中的上下文表示，与Agent Memory相关。

人工代理中主观视角的最小计算前提条件

Minimal Computational Preconditions for Subjective Perspective in Artificial Agents

Hongju Pae

7/10 2026-02-02 cs.AI PDF

本研究通过一个最小的、现象学驱动的内部结构来实现人工代理中的主观视角。该视角被实现为一个缓慢演变的全局潜在状态，它调节快速的策略动态，但不直接优化行为结果。在无奖励且存在制度转变的环境中，这种潜在结构表现出方向依赖性的滞后效应，而策略层面的行为则相对反应性较强。作者认为，这种滞后效应构成了机器系统中类似主观视角的可测量特征。

主观视角潜在状态滞后效应 Agent Memory

论文探讨了人工代理的主观视角，涉及潜在状态与记忆相关的滞后现象，属于Agent Memory相关研究。

分层神经选项与抽象世界模型的联合学习

Joint Learning of Hierarchical Neural Options and Abstract World Model

Wasu Top Piriyakulkij, Wolfgang Lehrach, Kevin Ellis, Kevin Murphy

7/10 2026-02-02 cs.LG PDF

构建能够通过组合现有技能来学习新技能的智能体是AI代理研究的长期目标。为此，本文探讨了如何高效地获取一系列技能，形式化为分层神经选项。然而，现有的无模型分层强化学习算法需要大量数据。我们提出了一种新的方法，称为AgentOWL（Option and World model Learning Agent），该方法以样本高效的方式联合学习一个抽象世界模型（同时对状态和时间进行抽象）以及一组分层神经选项。我们在一组以物体为中心的Atari游戏中进行了实验，结果表明，与基线方法相比，我们的方法在使用更少数据的情况下可以学习到更多的技能。

分层强化学习世界模型技能学习样本效率

论文提出联合学习抽象世界模型与分层神经选项，涉及记忆机制，但非唯一主题。

持续学习中数据重放的可证明效果：从特征学习视角分析

Provable Effects of Data Replay in Continual Learning: A Feature Learning Perspective

Meng Ding, Jinhui Xu, Kaiyi Ji

7/10 2026-02-02 cs.LG PDF

持续学习（CL）旨在使模型在一系列任务上进行训练，同时保持对先前任务的性能。该设置中的核心挑战是灾难性遗忘，即新学习会干扰旧知识。在各种缓解策略中，数据重放方法通过定期回顾过去样本被认为简单而有效，尤其是在内存约束较宽松的情况下。然而，关于全数据重放（训练过程中可以访问所有历史数据）的理论有效性仍鲜有研究。本文从特征学习的角度出发，提出了一种全面的理论框架来分析持续学习中的全数据重放训练。采用多视图数据模型，我们识别出信噪比（SNR）是影响遗忘的关键因素。针对跨M个任务的任务增量二分类问题，我们的分析验证了两个关键结论：（1）当后期任务的累积噪声主导早期任务的信号时，即使在全数据重放下仍可能发生遗忘；（2）随着信号积累，数据重放可以恢复早期任务，即使其初始学习表现较差。值得注意的是，我们发现了一个新的任务排序见解：优先处理高信号任务不仅有助于低信号任务的学习，还能防止灾难性遗忘。我们通过合成和现实世界的实验验证了这些理论发现，并可视化了不同信噪比和任务相关性条件下的信号学习与噪声记忆之间的相互作用。

持续学习数据重放特征学习灾难性遗忘信噪比

论文探讨了数据重放对持续学习中记忆的影响，与Agent Memory相关但非唯一主题。

从任务求解到LLM代理的鲁棒现实世界适应

From Task Solving to Robust Real-World Adaptation in LLM Agents

Pouya Pezeshkpour, Estevam Hruschka

Pouya Pezeshkpour (University of California Irvine)

7/10 2026-02-02 cs.CL PDF

大型语言模型越来越多地被部署为专门的代理，用于规划、调用工具并在长时域内采取行动。然而，许多现有评估假设了一个“干净的接口”，其中动态是明确且稳定的，工具和传感器是可靠的，成功由单一显式目标衡量，这往往高估了其在现实世界中的准备程度。实际上，代理面临规则不明确、信号不可靠、环境变化以及隐含的多利益相关者目标。因此，挑战不仅是解决问题，而是在解决问题的同时进行适应：决定信任什么、想要什么、何时验证以及何时回退或升级。我们通过四种操作情境对部署相关的鲁棒性进行了压力测试：部分可观测性、动态环境、噪声信号和动态代理状态。我们在一个基于网格的游戏环境中对代理型LLM进行了基准测试，该游戏具有简单的目标但需要长时域执行。这些场景违反了“干净接口”的假设，但仍可解决，迫使代理推断规则、支付信息成本、适应环境和内部变化，并在噪声下谨慎行动。通过对五种最先进的LLM代理的测试，我们发现名义上的任务求解能力与类似部署的鲁棒性之间存在显著差距。随着网格大小和时间跨度的增加，性能通常下降，但排名不稳定：当策略与不确定性环境匹配时，较弱的模型可能击败较强的模型。尽管没有明确指示，代理仍然在完成度、效率和避免惩罚之间进行权衡，表明它们能够部分推断目标。消融实验和特征分析揭示了模型特定的敏感性和失败驱动因素，推动了在部分可观测性、噪声和非平稳性下的验证、安全动作选择和目标推断的研究。

LLM Agents Robustness Partial Observability Dynamic Environments Objective Inference

论文探讨了LLM Agent在复杂环境中的适应性，涉及部分可观测性和噪声等与记忆相关的挑战。

ATLAS：具有任务分布式多LLM支持者的自进化研究代理

ATLAS : Adaptive Self-Evolutionary Research Agent with Task-Distributed Multi-LLM Supporters

Ujin Jeon, Jiyong Kwon, Madison Ann Sullivan, Caleb Eunho Lee, Guang Lin

7/10 2026-02-02 cs.AI PDF

近期的多LLM代理系统在提示优化和自动化问题求解方面表现出色，但许多系统在微调后保持求解器冻结或依赖静态偏好优化循环，这在长期任务中变得难以处理。我们提出了ATLAS（用于代理自进化的任务分布式学习），一个任务分布框架，该框架通过迭代开发轻量级研究代理，并将探索、超参数调整和参考策略管理等互补角色委托给专门的支持代理。我们的核心算法EvoDPO（进化直接偏好优化）能够自适应地更新阶段索引的参考策略。我们为概念漂移下的基于偏好的上下文老虎机提供了理论遗憾分析。此外，在非平稳线性上下文老虎机和科学机器学习（SciML）损失重新加权（以1D Burgers方程为例）上进行了实验。结果表明，ATLAS在稳定性与性能上优于静态单代理基线。

多LLM协作自进化代理偏好优化上下文老虎机

论文涉及Agent的自进化机制和多LLM协作，与记忆相关但非核心主题。

daVinci-Agency: 高效解锁长期目标代理数据

daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

Mohan Jiang, Dayuan Fu, Junhao Shi, Ji Zeng, Weiye Si et al.

7/10 2026-02-02 cs.LG PDF

尽管大型语言模型（LLMs）在短期任务中表现出色，但将其扩展到长期目标代理工作流程仍面临挑战。核心瓶颈在于缺乏能够捕捉真实长期依赖结构和跨阶段演化动态的训练数据。现有合成方法要么局限于受模型分布约束的单一特征场景，要么需要高昂的人工标注成本，无法提供可扩展的高质量监督。本文通过重新审视现实世界中的软件演化过程，提出了一种基于Pull Request（PR）序列的数据合成方法。PR序列自然包含了长期学习所需的监督信号，将复杂目标分解为可验证的提交单元，并通过错误修复历史编码真实的优化模式。基于此，我们提出了daVinci-Agency，通过三个相互关联的机制系统地挖掘链式PR中的结构化监督：(1) 通过连续提交进行渐进式任务分解；(2) 通过统一的功能目标强制长期一致性；(3) 从真实的错误修复轨迹中实现可验证的优化。与独立处理每一步的合成轨迹不同，daVinci-Agency的PR基础结构天然保留了因果依赖和迭代优化，有助于教授持续的目标导向行为，并自然对齐项目级、全周期任务建模。

Agent Memory 数据合成长期目标学习软件演化 LLM微调

论文涉及长期目标导向行为的训练数据生成，与Agent Memory中的因果依赖和迭代优化相关。

微调语言模型以了解其自身知识

Fine-Tuning Language Models to Know What They Know

Sangjun Park, Elliot Meyerson, Xin Qiu, Risto Miikkulainen

7/10 2026-02-02 cs.NE PDF

元认知是智能的重要组成部分，尤其涉及对自身知识的意识。虽然人类依赖共享的内部记忆来回答问题并报告其知识状态，但这种依赖在大型语言模型（LLMs）中仍鲜有研究。本研究提出了一种框架，使用双提示方法测量元认知能力 $d_{ m{type2}}'$，随后引入用于元认知对齐的进化策略（ESMA），以将模型的内部知识与其显式行为绑定。ESMA在多种未训练设置中表现出强大的泛化能力，表明模型参考自身知识的能力有所增强。此外，参数分析表明这些改进源于一组关键的稀疏修改。

元认知知识对齐 LLM微调内部记忆

论文探讨了LLM的元认知能力与知识状态，涉及模型内部知识与其行为的对齐，与Agent Memory相关。

Avenir-Web：基于人类经验模仿的多模态网页智能体与混合定位专家系统

Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts

Aiden Yiliu Li, Xinyue Hao, Shilong Liu, Mengdi Wang

7/10 2026-02-02 cs.AI PDF

尽管多模态大语言模型取得进展，自主网页智能体在复杂动态网页界面上执行长周期任务仍面临挑战。现有方法常受限于元素定位不准、缺乏站点特定流程知识，以及在复杂DOM结构中长期任务跟踪与记忆不稳定。为此，本文提出Avenir-Web，在真实部署环境下于Online-Mind2Web基准上达到开源新SOTA。该系统结合混合定位专家、经验模仿规划以引入流程先验，并采用任务追踪清单与自适应记忆机制，实现跨多样化用户界面的鲁棒交互。实验表明，Avenir-Web显著优于先前开源智能体，性能媲美顶尖闭源模型。

Agent Memory Web Agents

提出自适应记忆机制用于长期任务跟踪，是关键但非唯一核心。

ReasonCACHE：在不更新权重的情况下教会大语言模型推理

ReasonCACHE: Teaching LLMs To Reason Without Weight Updates

Sharut Gupta, Phillip Isola, Stefanie Jegelka, David Lopez-Paz, Kartik Ahuja et al.

7/10 2026-02-02 cs.LG PDF

大语言模型（LLMs）能否仅通过上下文学习（ICL）而无需任何权重更新来掌握推理能力？尽管ICL样本效率高，但在复杂推理任务中需大量示例，而简单扩展上下文会因注意力成本剧增、性能饱和或下降而失效。本文提出ReasonCACHE，利用前缀调优将示例蒸馏为固定键值缓存，在不占用上下文窗口且不更新模型权重的前提下实现高效推理。在GPQA-Diamond等挑战性基准上，其性能优于标准ICL，并媲美甚至超越基于权重更新的方法，同时在数据效率、推理开销和可训练参数数量上更具优势。理论上，ReasonCACHE比低秩权重更新更具表达能力，因其绕过了输入秩对表达力的限制。

in-context learning key-value cache

提出基于固定KV缓存的推理机制，涉及记忆存储与检索，但非以Agent Memory为核心目标。

Code

TIDE：基于轨迹的大语言模型智能体测试时改进诊断评估

TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

Hang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding et al.

7/10 2026-02-02 cs.AI PDF

近期自主大语言模型（LLM）智能体展现出通过与环境迭代交互提升性能的能力，本文将其定义为“测试时改进”（Test-Time Improvement, TTI）。然而，TTI成功或失败的内在机制尚不明确，现有评估指标难以刻画任务优化效率、错误行为后的适应能力，以及工作记忆对任务完成的具体效用。为此，本文提出TIDE（Test-time Improvement Diagnostic Evaluation）框架，该框架与智能体和环境无关，将TTI分解为三个相互关联的维度：(1)任务完成的整体时间动态，(2)性能是否受限于递归循环行为，(3)是否受累于累积记忆负担。大量实验表明，提升智能体性能不仅依赖内部推理扩展，更需显式优化智能体与环境的交互动态。

Agent Memory Test-Time Improvement

论文聚焦TTI评估，将工作记忆作为关键维度之一进行分析。

线性注意力大语言模型中的状态秩动态

State Rank Dynamics in Linear Attention LLMs

Ao Sun, Hongtao Zhang, Heng Zhou, Yixuan Ma, Yiran Qin et al.

7/10 2026-02-02 cs.LG PDF

线性注意力大语言模型（LLMs）通过将上下文压缩为固定大小的状态矩阵，提供了一种高效的循环推理形式，实现常数时间推理。然而，该压缩状态的内部动态尚不清晰。本文对当前先进线性注意力模型的运行时状态动态进行了系统研究，揭示了一种称为“状态秩分层”的基本现象：不同注意力头在谱特性上呈现明显分化——一组头的有效秩趋近于零并持续振荡，另一组则迅速增长并收敛至上界。大量实验表明，这种动态在不同推理场景下高度一致，说明头的低秩或高秩属性是预训练阶段获得的固有结构特征，而非输入依赖的瞬态表现。进一步分析发现，低秩头对模型推理至关重要，而高秩头则具有显著冗余。基于此，作者提出联合秩范数剪枝策略，在零样本设置下减少38.9%的KV缓存开销，同时基本保持模型精度。

线性注意力状态压缩 KV缓存优化模型剪枝

研究线性注意力LLM的内部状态动态，涉及上下文压缩与KV缓存，属记忆机制关键部分。

通过背景故事的多步推理编辑知识，而不仅是事实

Edit Knowledge, Not Just Facts via Multi-Step Reasoning over Background Stories

Ya Gao, Kalle Kujanpää, Pekka Marttinen, Harri Valpola, Alexander Ilin

7/10 2026-02-02 cs.AI PDF

使人工智能系统（尤其是大语言模型）能够整合新知识并在推理中灵活应用，仍是一项核心挑战。现有知识编辑方法侧重于原子事实，虽提升事实回忆能力，却难以将新信息融入可跨情境使用的连贯框架。本文认为知识内化本质上是推理问题而非记忆问题，因此提出一种基于三原则的训练策略：首先，以连贯的背景故事引入新知识；其次，利用模型自生成的多跳问题进行多步推理训练；最后，通过知识蒸馏使学生模型在无法访问新信息的情况下内化教师的推理行为。实验表明，该策略能有效支持模型在推理中利用新知识，并在需融合多个新事实的复杂问题上表现卓越。

知识编辑多步推理

聚焦知识内化与推理，涉及记忆整合但非直接研究记忆机制。

FlyPrompt：受脑启发的随机扩展路由与时间集成专家用于通用持续学习

FlyPrompt: Brain-Inspired Random-Expanded Routing with Temporal-Ensemble Experts for General Continual Learning

Hongwei Yan, Guanglong Sun, Kanglei Zhou, Qian Li, Liyuan Wang et al.

7/10 2026-02-02 cs.LG PDF

通用持续学习（GCL）要求智能系统在无明确任务边界、单次遍历的非平稳数据流中持续学习。现有基于预训练模型的参数高效微调方法通常依赖多轮训练和显式任务提示，难以适用于GCL场景，且缺乏对专家参数分配与表征能力提升的针对性设计。受果蝇具有稀疏扩展与模块化集成特性的分层记忆系统启发，本文提出FlyPrompt框架，将GCL分解为专家路由与专家能力提升两个子问题，引入随机扩展的解析路由器实现样本级专家激活，并采用输出头的时间集成动态调整决策边界。实验表明，FlyPrompt在CIFAR-100、ImageNet-R和CUB-200上分别超越当前最优基线达11.23%、12.43%和7.62%。

持续学习脑启发架构

受果蝇分层记忆系统启发，提出专家路由与集成机制，涉及记忆结构但非LLM Agent核心记忆研究。

Code

打破静态图：面向鲁棒检索增强生成的上下文感知遍历方法

Breaking the Static Graph: Context-Aware Traversal for Robust Retrieval-Augmented Generation

Kwun Hang Lau, Fangyuan Zhang, Boyu Ruan, Yingli Zhou, Qintian Guo et al.

7/10 2026-02-02 cs.CL PDF

近期检索增强生成（RAG）研究从简单向量相似性转向结构感知方法，如HippoRAG，利用知识图谱（KG）和个性化PageRank捕捉多跳依赖。然而，此类方法存在“静态图谬误”：其转移概率在索引阶段固定，忽视了边相关性对查询的依赖性，导致语义漂移，使随机游走偏向高连接度“枢纽”节点，难以获取完整证据链。为此，本文提出CatRAG——一种上下文感知遍历框架，在HippoRAG 2基础上将静态KG转化为查询自适应导航结构，通过符号锚定、查询感知动态边权重调整及关键事实段落权重增强三项机制引导随机游走。在四个多跳基准上的实验表明，CatRAG显著提升推理完整性，有效弥合部分上下文检索与全证据链推理之间的差距。

检索增强生成知识图谱多跳推理上下文感知

论文聚焦RAG中的检索机制，涉及记忆结构的动态构建与利用，但未直接研究Agent Memory架构。

Code

视觉语言模型引导的经验回放

VLM-Guided Experience Replay

Elad Sharony, Tom Jurgenson, Orr Krupnik, Dotan Di Castro, Shie Mannor

7/10 2026-02-02 cs.LG PDF

近期大语言模型（LLMs）与视觉语言模型（VLMs）的发展为强化学习（RL）带来了强大的语义与多模态推理能力，有助于提升样本效率、高层规划与可解释性。尽管已有研究将LLMs和VLMs集成到RL的多个组件中，但作为存储与重用经验的核心组件——经验回放缓冲区仍未被充分探索。本文提出利用VLM指导回放缓冲区中经验的优先级排序，核心思想是使用一个冻结的预训练VLM（无需微调）作为自动评估器，识别并优先选择智能体经验中的高潜力子轨迹。在涵盖游戏与机器人、离散与连续动作空间的多种场景中，采用该方法的智能体相比现有方法平均成功率提升11–52%，样本效率提高19–45%。

经验回放视觉语言模型

聚焦经验回放缓冲区的优先级机制，属记忆管理关键环节。

COMI：基于边际信息增益的由粗到精上下文压缩方法

COMI: Coarse-to-fine Context Compression via Marginal Information Gain

Jiwei Tang, Shilei Liu, Zhicheng Zhang, Yujin Yuan, Libin Zheng et al.

7/10 2026-02-02 cs.CL PDF

大语言模型（LLMs）在多种任务中表现出色，但在长上下文场景中仍受限于计算低效与信息冗余。本文提出COMI——一种由粗到精的自适应上下文压缩框架，在高压缩率下联合优化语义相关性与多样性。我们引入边际信息增益（MIG）指标，定义为文本单元对查询的相关性减去其与其他单元的语义冗余，以此指导保留高相关、低冗余信息。该框架包含两个阶段：(1) 粗粒度分组重分配，依据组间MIG动态分配压缩率；(2) 细粒度词元融合，基于组内MIG加权合并词元以保留关键语义。在多个问答与摘要数据集上的实验表明，COMI显著优于现有方法，例如在NaturalQuestions上使用Qwen2-7B、32倍压缩下Exact Match提升约25个百分点。

上下文压缩长上下文建模

聚焦上下文压缩以提升LLM长程记忆效率，属记忆相关关键技术。

S1-NexusAgent：面向多学科科学研究的自进化智能体框架

S1-NexusAgent: a Self-Evolving Agent Framework for Multidisciplinary Scientific Research

S1-NexusAgent Team

7/10 2026-02-02 cs.AI PDF

现代科学研究依赖大规模数据、复杂工作流和专业工具，现有大语言模型及工具型智能体因长期规划能力弱、目标维持不稳及缺乏持续学习机制而难以胜任。本文提出S1-NexusAgent——一种面向多学科科研的自进化智能体框架。该框架采用分层的Plan-and-CodeAct执行范式，通过双循环架构解耦全局科研规划与子任务级工具执行，支持Model Context Protocol（MCP），集成数千种跨学科科研工具，并通过意图感知的动态工具检索与热插拔机制实现异构工具高效编排。针对科研场景中的长上下文与大数据挑战，引入基于对象引用的稀疏上下文管理，实现子任务上下文隔离与中间结果压缩。在此基础上，Critic Agent自动评估完整执行轨迹，提炼高质量科研路径为可复用的“科学技能”，形成持续自进化闭环。在生物、化学和材料科学等权威长周期科研基准上的实验表明，S1-NexusAgent达到最先进性能。

Agent Memory Scientific AI

提出基于对象引用的稀疏上下文管理机制，涉及中间结果压缩与子任务上下文隔离，属于记忆相关技术。

迈向多模态大语言模型中的认知超感知

Toward Cognitive Supersensing in Multimodal Large Language Model

Boyi Li, Yifan Shen, Yuanzhe Liu, Yifan Xu, Jiateng Liu et al.

7/10 2026-02-02 cs.CV PDF

多模态大语言模型（MLLMs）在开放词汇感知任务中表现卓越，但在解决需抽象视觉细节和视觉记忆的复杂认知问题时仍显不足。现有方法主要在文本空间扩展思维链（CoT）推理，忽视了类人视觉空间画板与视觉心像机制。为此，本文提出“认知超感知”训练范式，通过引入潜在视觉心像预测（LVIP）头，联合学习视觉认知潜在嵌入序列并将其与答案对齐，构建基于视觉的内部推理链。进一步采用强化学习优化基于该视觉潜在表示的文本推理路径。作者还构建了CogSense-Bench评测基准，涵盖五个认知维度。实验表明，该方法显著优于现有基线，并在域外数学与科学VQA任务中展现更强泛化能力，表明内部视觉心像可能是连接感知识别与认知理解的关键。

视觉心像多模态大语言模型

提出视觉心像机制，模拟人类视觉记忆，但未直接研究Agent Memory架构。

A-MapReduce：通过智能体MapReduce执行宽范围搜索

A-MapReduce: Executing Wide Search via Agentic MapReduce

Mingju Chen, Guibin Zhang, Heng Chang, Yuchen Guo, Shiji Zhou

7/10 2026-02-01 cs.MA PDF

当前基于大语言模型（LLM）的多智能体系统在强调迭代式、垂直结构信息检索的深度研究任务中表现优异，但在面向大规模、广度优先的宽范围搜索任务中，现有以序列化垂直推理为主的智能体框架难以高效应对。为此，本文提出A-MapReduce，一种受MapReduce范式启发的多智能体执行框架，将宽搜索重构为水平结构的检索问题。该框架通过任务自适应分解与结构化结果聚合实现并行处理，并利用经验记忆驱动查询条件下的任务分配与重组持续演化，从而在大规模宽搜索场景中实现渐进式性能提升。在五个智能体基准上的实验表明，A-MapReduce不仅性能领先，且具备更优的成本效益与执行效率。

Agent Memory Wide Search

论文利用经验记忆优化任务分配与重组，是宽搜索性能提升的关键机制。

Code

通过合成语义信息增益奖励优化基于检索的智能体推理

Optimizing Agentic Reasoning with Retrieval via Synthetic Semantic Information Gain Reward

Senkang Hu, Yong Dai, Yuzhi Zhao, Yihang Tao, Yu Guo et al.

7/10 2026-01-31 cs.AI PDF

智能体推理使大型推理模型（LRMs）能够动态获取外部知识，但检索过程的优化仍因缺乏密集且原则性的奖励信号而具有挑战性。本文提出InfoReasoner框架，通过合成语义信息增益奖励激励高效的信息搜寻。理论上，我们将信息增益重新定义为模型信念状态的不确定性减少，并证明其具备非负性、望远镜可加性与信道单调性等性质。实践中，为避免依赖人工标注的检索数据，我们设计了一种输出感知的内生估计器，利用双向文本蕴涵进行语义聚类，直接从模型输出分布计算信息增益。该内生奖励引导策略最大化认知进展，并通过群组相对策略优化（GRPO）实现高效训练。在七个问答基准上的实验表明，InfoReasoner显著优于强基线检索增强方法，平均准确率最高提升5.4%。

智能体推理信息检索强化学习语义表示

聚焦检索优化与信息获取，涉及记忆机制但非核心研究。

DETOUR：面向双智能体搜索与推理的交互式基准

DETOUR: An Interactive Benchmark for Dual-Agent Search and Reasoning

Li Siyan, Darshan Deshpande, Anand Kannappan, Rebecca Qian

7/10 2026-01-30 cs.CL PDF

人类在对话中回忆信息时常需多轮交互才能完成“话到嘴边”的检索过程，而现有智能体评估基准多局限于单轮设定。为更真实地模拟此类记忆检索场景，本文提出基于模糊与欠指定检索的双智能体评估基准DETOUR（Dual-agent based Evaluation Through Obscure Under-specified Retrieval），包含1,011个提示。该基准设有一个被评估的主智能体（Primary Agent）和一个在所有评估中保持一致的记忆智能体（Memory Agent），主智能体需通过查询后者来识别目标实体。实验表明，当前最先进的模型在涵盖文本、图像、音频和视频的多模态任务上仅达到36%的准确率，凸显了提升智能体在欠指定情境下记忆与推理能力的重要性。

Agent Memory Interactive Retrieval

提出双智能体记忆交互框架，Memory Agent作为稳定记忆源，是任务关键组件。

EHR-RAG：通过增强型检索增强生成连接长时程结构化电子健康记录与大语言模型

EHR-RAG: Bridging Long-Horizon Structured Electronic Health Records and Large Language Models via Enhanced Retrieval-Augmented Generation

Lang Cao, Qingyu Chen, Yue Guo

7/10 2026-01-29 cs.AI PDF

电子健康记录（EHR）提供了丰富的纵向临床证据，对医疗决策至关重要，促使研究者采用检索增强生成（RAG）来增强大语言模型（LLM）的预测可靠性。然而，长时程EHR常超出LLM上下文限制，现有方法多依赖截断或简单检索策略，易丢失临床相关事件及时间依赖性。为此，本文提出EHR-RAG框架，专为准确解读长时程结构化EHR数据设计，包含三个核心组件：事件与时间感知的混合EHR检索、自适应迭代检索，以及双路径证据检索与推理。在四项长时程EHR预测任务上的实验表明，EHR-RAG显著优于最强LLM基线，平均Macro-F1提升10.76%。

检索增强生成电子健康记录

论文聚焦于长时程EHR数据的检索增强机制，涉及信息保留与动态访问，属记忆相关应用。

A2RAG：面向成本感知与可靠推理的自适应智能体图检索

A2RAG: Adaptive Agentic Graph Retrieval for Cost-Aware and Reliable Reasoning

Jiate Liu, Zebin Chen, Shaobo Qiao, Mingchen Ju, Danting Zhang et al.

7/10 2026-01-29 cs.IR PDF

图检索增强生成（Graph-RAG）通过将语料组织为知识图谱并利用关系结构路由证据，提升多跳问答性能。然而实际部署面临两大瓶颈：一是混合难度查询下统一检索策略导致成本浪费或性能不足；二是图抽象过程丢失源文本中的细粒度限定信息。本文提出A2RAG，一种自适应且具智能体特性的GraphRAG框架，结合自适应控制器（仅在必要时触发针对性精炼）与智能体检索器（逐步提升检索强度并将图信号映射回原始文本），以应对提取损失和图谱不完整问题。在HotpotQA和2WikiMultiHopQA上的实验表明，A2RAG在Recall@2指标上分别提升9.9和11.8个百分点，同时将token消耗与端到端延迟降低约50%。

检索增强生成智能体记忆

涉及检索增强生成中的记忆机制，但聚焦于图检索与成本控制。

DeepSearchQA：弥合深度研究智能体的全面性差距

DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

Nikita Gupta, Riju Chatterjee, Lukas Haas, Connie Tao, Andrew Wang et al.

Nikita Gupta (Equal Contribution) | Riju Chatterjee (Equal Contribution) | Lukas Haas (Equal Contribution)

7/10 2026-01-28 cs.CL PDF

本文提出DeepSearchQA，一个包含900个提示的基准测试，用于评估智能体在17个不同领域中执行复杂多步信息检索任务的能力。该基准聚焦于生成详尽答案列表所需的系统性搜索规划，明确考察三项关键但常被忽视的能力：跨异构来源的信息系统整合、去重与实体消歧以确保精确性，以及在开放搜索空间中对停止条件的推理能力。任务设计为因果链结构，要求智能体在长时程规划中保持上下文记忆。评估显示，当前先进智能体架构在召回率与精确率之间难以平衡，普遍存在过早终止或过度泛化等失败模式。

智能体记忆信息检索

强调长程上下文保留与信息整合，涉及记忆机制但非核心主题

具备顺序计划反思与候选交叉的深度研究员（Deep Researcher Reflect Evolve）

Deep Researcher with Sequential Plan Reflection and Candidates Crossover (Deep Researcher Reflect Evolve)

Saurav Prateek

7/10 2026-01-28 cs.AI PDF

本文提出一种新型深度研究员架构，旨在生成博士级复杂主题的详尽研究报告，以克服并行扩展范式的固有局限。该系统包含两大创新：基于反思的顺序研究计划精炼机制和候选交叉算法。前者通过维护集中化的全局研究上下文，使智能体能在运行时回溯进展、推理并动态调整研究计划；后者则利用多个参数各异的大语言模型候选者探索更广搜索空间，并融合其发现以生成高事实密度的统一报告。在DeepResearch Bench基准上，该架构以46.21分超越现有主流深度研究智能体，验证了顺序扩展范式优于并行自一致性方法。

Agent Memory Sequential Planning

论文提出全局研究上下文机制，涉及运行时记忆维护与回溯，属Agent Memory关键应用。

语言模型中的线性表征在对话过程中可能发生剧烈变化

Linear representations in language models can change dramatically over a conversation

Andrew Kyle Lampinen, Yuxuan Li, Eghbal Hosseini, Sangnie Bhardwaj, Murray Shanahan

Andrew Kyle Lampinen (DeepMind)

7/10 2026-01-28 cs.CL PDF

语言模型的表征常包含对应高层概念的线性方向。本文研究这些表征在（模拟）对话上下文中的动态演化，发现线性表征在对话过程中可能发生显著变化：例如，对话初期被表征为事实的信息，在结尾可能被表征为非事实，反之亦然。此类变化具有内容依赖性——与对话相关的信息表征易变，而通用信息通常保持稳定。该现象在不同模型家族和网络层中均稳健存在，且即使重放由其他模型生成的对话脚本也能复现。然而，在明确标记为科幻故事的上下文中，此类适应效应显著减弱。此外，沿表征方向进行干预在对话不同阶段效果差异显著。结果表明，模型可能根据对话所提示的角色动态调整其内部表征，这对静态解释方法和特征探针构成挑战，也为理解模型如何适应上下文提供了新方向。

表征动态性对话建模

研究对话中表征动态变化，涉及记忆内容的上下文依赖性演化。

AgentLongBench：通过环境推演构建可控的长上下文智能体基准测试

AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

Shicheng Fang, Yuxin Wang, XiaoRan Liu, Jiahao Lu, Chuanyuan Tan et al.

7/10 2026-01-28 cs.CL PDF

大型语言模型（LLMs）向自主智能体的演进要求其管理大规模、动态变化的上下文。然而，现有基准测试多为静态，依赖被动检索任务，无法模拟智能体与环境交互中的非线性推理和迭代反馈等复杂性。为此，本文提出AgentLongBench，基于横向思维谜题构建模拟环境推演，生成涵盖知识密集型与无知识场景的严格交互轨迹。对当前先进模型及记忆系统（32K至4M tokens）的实验揭示了一个关键弱点：尽管在静态检索中表现良好，智能体在动态信息合成方面存在显著不足。分析表明，该性能退化主要由解决查询所需的最小token数量驱动，高信息密度的工具响应比长轮次对话中的记忆碎片化更具挑战性。

long-context memory agent evaluation

论文评估长上下文Agent在动态环境中的记忆表现，重点分析信息合成能力与记忆系统局限性。

CiMRAG：面向边缘大语言模型的计算存内感知、领域自适应且抗噪的检索增强生成方法

CiMRAG: Cim-Aware Domain-Adaptive and Noise-Resilient Retrieval-Augmented Generation for Edge-Based LLMs

Shih-Hsuan Chiu, Ming-Syan Chen

7/10 2026-01-27 cs.LG PDF

基于边缘设备的大语言模型（LLM）个性化虚拟助手日益受到关注，其中检索增强生成（RAG）通过检索用户画像数据生成定制化响应，成为实现个性化的重要手段。然而，随着用户-LLM交互和近期更新等画像数据快速增长，RAG在边缘部署面临效率瓶颈。计算存内（CiM）架构虽可通过原位操作消除内存与处理器间的数据搬运以缓解该问题，但其易受环境噪声干扰，导致检索精度下降。在旅行、医疗、法律等多领域动态边缘场景中，准确性和适应性尤为关键。为此，本文提出任务导向的抗噪嵌入学习框架（TONEL），通过噪声感知投影模型学习符合CiM硬件约束的任务特定嵌入，在噪声环境下实现高精度检索。在个性化基准上的大量实验表明，该方法在任务特定噪声场景下显著优于强基线模型。

检索增强生成计算存内边缘AI 抗噪学习领域自适应

聚焦边缘设备中RAG的存储与检索效率，涉及计算存内架构对记忆机制的影响。

云界代理技术报告：一种完全可复现、零起点原地自进化代理系统用于开放任务

Yunjue Agent Tech Report: A Fully Reproducible, Zero-Start In-Situ Self-Evolving Agent System for Open-Ended Tasks

Haotian Li, Shijun Yang, Weizhen Qi, Silei Zhao, Rui Hua et al.

7/10 2026-01-26 cs.AI PDF

传统代理系统在任务分布持续漂移和外部监督稀缺的开放环境中表现不佳。为解决这一问题，本文提出原地自进化范式，将连续任务交互视为经验流，使系统能够在无真实标签的情况下提取短期执行反馈并转化为长期可重用的能力。文中识别工具进化为关键路径，并开发了云界代理系统，通过迭代合成、优化和重用工具应对新挑战。此外，引入并行批量进化策略以提高效率，并通过多个基准测试验证其性能优势。最后，提出一种新的收敛度量指标，用于监控进化过程。

自进化代理长期能力积累工具进化开放任务处理

论文提出自进化代理系统，涉及长期能力积累与反馈机制，与Agent Memory相关但非唯一主题。

合作推理的火花：LLM作为战略性的Hanabi代理

Sparks of Cooperative Reasoning: LLMs as Strategic Hanabi Agents

Mahesh Ramesh, Kaousheik Jayakumar, Aswinkumar Ramkumar, Pavan Thodima, Aniket Rege

7/10 2026-01-26 cs.CL PDF

在不完全信息下的合作推理对人类和多智能体系统都是挑战。纸牌游戏Hanabi体现了这一挑战，需要心智理论推理和战略沟通。本文在2-5人游戏中评估了17种最先进的LLM代理，并研究了不同模型规模（4B到600B+）下上下文工程的影响，以理解持续的协调失败和对脚手架的鲁棒性。从仅包含显式卡片细节的最小提示（Watson设置），到基于程序化、贝叶斯动机的推断的脚手架（Sherlock设置），再到通过工作记忆进行多轮状态跟踪（Mycroft设置）。结果显示，（1）代理可以维持内部工作记忆用于状态跟踪；（2）不同LLM之间的跨玩性能随着模型强度平滑插值。在Sherlock设置中，最强的推理模型在平均得分上超过15分，但仍落后于经验丰富的玩家和专业Hanabi代理，后者得分均超过20分。我们发布了第一个公开的Hanabi数据集，包含注释轨迹和移动效用：（1）HanabiLogs，包含1,520个完整游戏日志用于指令调整；（2）HanabiRewards，包含560个带有密集移动级价值注释的游戏。使用我们的数据集对一个4B开源权重模型（Qwen3-Instruct）进行监督和强化学习微调，使合作Hanabi游戏表现分别提高了21%和156%，接近一个强大的专有推理模型（o4-mini）并超越最佳非推理模型（GPT-4.1）52%。进一步微调的HanabiRewards模型还超出了Hanabi任务，在合作组猜测基准上提升了11%，在EventQA的时间推理上提升了6.4%，在IFBench-800K的指令遵循上提升了1.7 Pass@10，并匹配AIME 2025数学推理的Pass@10。

Agent Memory Cooperative Reasoning LLM Hanabi Context Engineering Working Memory

论文涉及LLM在合作推理中的工作记忆机制，但核心是战略通信与协调。

LTS-VoiceAgent：一种通过语义触发和增量推理实现高效流式语音交互的Listen-Think-Speak框架

LTS-VoiceAgent: A Listen-Think-Speak Framework for Efficient Streaming Voice Interaction via Semantic Triggering and Incremental Reasoning

Wenhao Zou, Yuwei Miao, Zhanyu Ma, Jun Xu, Jiuchong Gao et al.

7/10 2026-01-26 cs.SD PDF

实时语音代理面临一个困境：端到端模型通常缺乏深度推理能力，而级联流水线则因严格按顺序执行ASR、LLM推理和TTS而产生高延迟，这与人类对话中听者在说话人结束前就开始思考的方式不同。由于级联架构仍是复杂任务的主流选择，现有的流式策略尝试通过机械分割（如固定块、基于VAD的分割）或推测生成来减少延迟，但这些方法常导致语义单元断裂或浪费计算资源于必须回滚的预测上。为了解决这些问题，本文提出LTS-VoiceAgent框架，该框架显式地将何时思考与如何逐步推理分离。它包含一个动态语义触发器以检测有意义的前缀，并引入双角色流式协调器，协调后台的Thinker（用于状态维护）和前台的Speaker（用于推测性求解）。这种并行设计实现了“边说边想”的功能而不阻塞响应。此外，我们还引入了一个包含自然不流畅性的Pause-and-Repair基准测试集，以对流式处理的鲁棒性进行压力测试。实验结果表明，LTS-VoiceAgent在VERA、Spoken-MQA、BigBenchAudio以及我们的基准测试中，相较于串行级联基线和现有流式策略，在准确率、延迟和效率之间取得了更优的平衡。

语音代理流式处理语义触发增量推理系统设计

论文涉及流式语音交互中的推理与响应机制，隐含记忆管理逻辑，但非核心主题。

用于大型推理模型高效推理的动态思考标记选择

Dynamic Thinking-Token Selection for Efficient Reasoning in Large Reasoning Models

Zhenyuan Guo, Tong Chen, Wenlong Meng, Chen Gong, Xin Yu et al.

7/10 2026-01-26 cs.AI PDF

大型推理模型（LRMs）通过显式生成推理轨迹来解决复杂问题，但在得出最终答案前会生成较长的推理过程，这导致了较大的内存占用和计算开销，限制了其效率。本文利用注意力图分析推理轨迹的影响，发现仅部分对决策至关重要的token引导模型走向最终答案，其余token贡献甚微。基于这一观察，本文提出了一种动态思考标记选择（DynTS）方法，在推理过程中仅保留这些关键token对应的键值（KV）缓存状态，移除冗余条目以优化效率。

LLM推理优化 KV缓存管理注意力机制推理效率

论文聚焦于推理过程中的关键token选择，优化KV缓存以提升效率，与Agent Memory相关但非唯一主题。

解读智能体系统：超越模型解释到系统级责任

Interpreting Agentic Systems: Beyond Model Explanations to System-Level Accountability

Judy Zhu, Dhari Gandhi, Himanshu Joshi, Ahmad Rezaie Mianroodi, Sedef Akinli Kocak et al.

7/10 2026-01-23 cs.AI PDF

智能体系统通过大型语言模型（LLMs）实现了具有目标导向行为的自主系统，具备多步骤规划和与不同环境交互的能力。这些系统在架构和部署上与传统机器学习模型有本质区别，带来了独特的AI安全挑战，包括目标错位、决策错误累积以及智能体间的协调风险。为确保其自主行为的可追溯性和责任性，需在设计中嵌入可解释性与透明度。当前主要针对静态模型的可解释性技术在应用于智能体系统时存在局限性。智能体系统的时序动态性、累积决策及上下文依赖行为要求新的分析方法。本文评估了现有可解释性方法在智能体系统中的适用性与局限性，指出现有方法在提供智能体决策洞察方面的不足。我们提出了未来发展的方向，旨在开发专门针对智能体系统的可解释性技术，并明确指出在智能体生命周期中需要可解释性的关键环节，从目标形成、环境交互到结果评估。这些进展对于确保智能体AI系统的安全和负责任部署至关重要。

智能体系统可解释性 AI安全责任追踪

论文探讨了智能体系统的可解释性，涉及决策过程和行为追踪，与记忆机制相关。

MAGE-KT：基于多智能体图增强的知识追踪方法，包含子图检索与非对称融合

MAGE-KT: Multi-Agent Graph-Enhanced Knowledge Tracing with Subgraph Retrieval and Asymmetric Fusion

Chi Yu, Hongyu Yuan, Zhiyi Duan

7/10 2026-01-23 cs.AI PDF

知识追踪（KT）旨在建模学生的学习轨迹并预测其下一题的表现。关键挑战在于如何更好地表示学生、问题和知识点之间的关系。尽管基于图的KT范式显示出潜力，但现有方法未能充分探索概念间的相互关系，通常仅从交互序列中推断。此外，KT图的规模和异质性使得全图编码计算成本高且易受噪声干扰，导致注意力扩散至与学生无关的区域，降低概念间关系的准确性。为此，本文提出了一种新的框架：多智能体图增强知识追踪（MAGE-KT）。该框架通过结合多智能体知识点关系提取器和学生-问题交互图，构建多视角异构图，捕捉互补的语义和行为信号。在目标学生历史的基础上，检索出紧凑且高价值的子图，并利用非对称交叉注意力融合模块进行整合，以提升预测性能，同时避免注意力扩散和无关计算。实验结果表明，在三个广泛使用的KT数据集上，该方法在知识点关系准确性和下一题预测方面均优于现有方法。

知识追踪图神经网络多智能体系统子图检索注意力机制

论文涉及知识追踪中的子图检索与融合，与Agent Memory的语义表示和信息整合相关。

SWE-Pruner: 用于编码代理的自适应上下文剪枝

SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

Yuhang Wang, Yuling Shi, Mo Yang, Rongrui Zhang, Shilin He et al.

7/10 2026-01-23 cs.SE PDF

LLM代理在软件开发中表现出色，但其性能受到长交互上下文的影响，导致高API成本和延迟。尽管已有多种上下文压缩方法（如LongLLMLingua）试图解决这一问题，但它们通常依赖于固定的指标（如PPL），忽略了代码理解的任务特定性，从而破坏了语法和逻辑结构，并丢失关键实现细节。本文提出SWE-Pruner，一种为编码代理定制的自适应上下文剪枝框架。受人类程序员在开发和调试过程中“选择性浏览”源代码的启发，SWE-Pruner根据任务进行自适应剪枝。给定当前任务，代理会明确目标（例如，“关注错误处理”）以指导剪枝方向。训练了一个轻量级神经筛选器（0.6B参数），根据目标动态选择相关代码行。在四个基准测试和多个模型上的评估验证了SWE-Pruner在各种场景下的有效性，在SWE-Bench Verified等任务上实现了23-54%的token减少，在LongCodeQA等单轮任务上达到最高14.84倍的压缩率，且对性能影响极小。

Agent Memory Context Pruning Code Understanding LLM Optimization

论文提出了一种针对代码代理的上下文剪枝框架，涉及对长交互上下文的记忆管理与优化。

LUMINA：面向多轮交互代理的长期理解能力

LUMINA: Long-horizon Understanding for Multi-turn Interactive Agents

Amin Rakhsha, Thomas Hehn, Pietro Mazzaglia, Fabio Valerio Massoli, Arash Behboodi et al.

7/10 2026-01-23 cs.AI PDF

大型语言模型在许多孤立任务中表现良好，但在需要计划、状态跟踪和长上下文处理等技能的多轮、长期代理问题上仍面临挑战。本文旨在更好地理解这些基础能力对完成此类任务的重要性。我们开发了一个用于多轮问题的反事实框架，通过假设代理能够利用完美执行特定任务的“神谕”来评估其性能变化，从而衡量该技能在未来AI代理发展中的关键性。我们引入了一套程序生成的、类似游戏的任务，具有可调节的复杂度。这些受控环境允许我们进行精确的“神谕”干预，如完美的规划或无瑕疵的状态跟踪，并使我们能够隔离每个“神谕”的贡献，避免现实基准中存在的混淆因素。实验结果表明，虽然某些干预（如规划）在不同场景下都能提高性能，但其他技能的效用取决于环境属性和语言模型的特点。本研究揭示了多轮代理环境的挑战，为未来AI代理和语言模型的发展提供指导。

多轮交互长期上下文处理代理性能评估状态跟踪规划

论文涉及多轮交互代理中的长期上下文处理，与Agent Memory相关但非唯一主题。

Attention-MoA：通过跨代理语义注意力和深度残差合成增强混合代理

Attention-MoA: Enhancing Mixture-of-Agents via Inter-Agent Semantic Attention and Deep Residual Synthesis

Jianyu Wen, Yang Wei, Xiongxi Yu, Changxuan Xiao, Ke Zeng

7/10 2026-01-23 cs.CL PDF

随着大语言模型（LLMs）的发展从参数扩展转向推理时的协作，混合代理（MoA）框架作为一种通用范式被提出，以利用多样化的模型集合智能。尽管最近的MoA变体引入了动态路由和残差连接以提高效率，但这些方法往往无法促进代理之间的深层语义交互，限制了系统主动纠正幻觉和优化逻辑的能力。本文提出了Attention-MoA，一种基于MoA的新框架，通过跨代理语义注意力重新定义协作。结合具有自适应早停机制的跨层残差模块，该架构减轻了深层信息退化问题并提高了计算效率。在AlpacaEval 2.0、MT-Bench和FLASK上的广泛评估表明，Attention-MoA显著优于最先进的基线模型，在AlpacaEval 2.0上实现了91.15%的长度控制胜率，并在FLASK的12项能力中占优10项。值得注意的是，Attention-MoA使小型开源模型的集成表现超过了Claude-4.5-Sonnet和GPT-4.1等大型专有模型，取得了8.83的MT-Bench得分和77.36的AlpacaEval 2.0长度控制胜率。

Mixture-of-Agents 语义注意力残差连接模型集成 Agent协作

论文涉及Agent间的语义注意力机制，与Agent Memory中的信息交互和协作相关。

基于图锚定的知识索引用于检索增强生成

Graph-Anchored Knowledge Indexing for Retrieval-Augmented Generation

Zhenghao Liu, Mingyan Wu, Xinze Li, Yukun Yan, Shuo Wang et al.

7/10 2026-01-23 cs.CL PDF

检索增强生成（RAG）已成为缓解大型语言模型（LLMs）幻觉问题的主流范式，通过引入外部知识。然而，如何有效整合和解释分散在噪声文档中的关键证据，仍是现有RAG系统面临的关键挑战。本文提出GraphAnchor，一种新颖的图锚定知识索引方法，将静态知识表示中的图结构重构为动态、演化的知识索引。GraphAnchor在迭代检索过程中逐步更新图结构，以锚定显著实体和关系，从而生成一个结构化索引，指导LLM评估知识充分性并制定后续子查询。最终答案通过联合使用所有检索到的文档和最终演化后的图生成。在四个多跳问答基准测试上的实验表明了GraphAnchor的有效性，并揭示其能够调节LLM的注意力，更有效地关联检索文档中分布的关键信息。

检索增强生成知识图谱图索引 LLM记忆增强

论文提出基于图结构的知识索引方法，用于增强检索增强生成中的记忆利用，与Agent Memory相关。

Code

受认知启发的标记克服多模态模型中的自我中心偏差

Cognitively-Inspired Tokens Overcome Egocentric Bias in Multimodal Models

Bridget Leonard, Scott O. Murray

7/10 2026-01-23 cs.CV PDF

多模态语言模型（MLMs）在语义视觉-语言任务中表现良好，但在需要采用其他代理视觉视角的空间推理任务中表现不佳。这些错误反映了持续的自我中心偏差，并引发了关于当前模型是否支持外在视角推理的问题。受人类空间认知的启发，我们引入了视角标记，这些专门的嵌入通过（1）具身身体关键点提示或（2）支持心理旋转的抽象表示来编码方向。将这些标记集成到LLaVA-1.5-13B中，在二级视觉视角任务中取得了性能提升。在合成和自然基准测试（Isle Bricks V2、COCO、3DSRBench）中，视角标记提高了准确性，基于旋转的标记可推广到非人类参考代理。代表性分析表明，微调增强了基础模型中已有的潜在方向敏感性，表明MLMs包含外在视角推理的前身，但缺乏适当的内部结构。总体而言，直接在标记空间中嵌入认知基础的空间结构，为视角转换和更接近人类的空间推理提供了一种轻量级、模型无关的机制。

多模态模型空间推理视角转换认知启发 Agent Memory

论文探讨了多模态模型中的视角转换问题，涉及空间认知和记忆机制，与Agent Memory相关但非唯一主题。

通过显式状态动力学控制语言模型代理的长期行为

Controlling Long-Horizon Behavior in Language Model Agents with Explicit State Dynamics

Sukesh Subaharan

7/10 2026-01-22 cs.AI PDF

大型语言模型（LLM）代理在长时间交互中常常表现出语气和角色的突变，这反映了缺乏显式的时间结构来管理代理级别的状态。尽管以往的研究强调了每轮对话中的情绪或静态情绪分类，但显式情感动态在塑造长期代理行为中的作用仍鲜有研究。本文研究了是否通过对外部情感状态施加动态结构，可以在多轮对话中诱导时间一致性并实现可控恢复。我们引入了一个代理级别的情感子系统，该系统维护一个独立于语言模型的连续性Valence-Arousal-Dominance（VAD）状态，并由一阶和二阶更新规则控制。瞬时情感信号通过固定且无记忆的估计器提取，并通过指数平滑或基于动量的动力学进行时间积分。最终的情感状态被注入生成过程而无需修改模型参数。使用固定的25轮对话协议，我们比较了无状态、一阶和二阶情感动态的效果。无状态代理无法表现出连贯的轨迹或恢复能力，而状态持久性使延迟响应和可靠恢复成为可能。二阶动态引入了随动量增加的情感惯性和滞后效应，揭示了稳定性与响应性之间的权衡。

Agent Memory 情感动态多轮对话状态更新

论文探讨了外部情感状态的动态结构对多轮对话中代理行为的影响，涉及记忆机制的应用。

情节中的似曾相识：利用检索增强型LLM进行直播风险评估的跨会话证据分析

Deja Vu in Plots: Leveraging Cross-Session Evidence with Retrieval-Augmented LLMs for Live Streaming Risk Assessment

Yiran Qiao, Xiang Ao, Jing Chen, Yang Liu, Qiwei Zhong et al.

7/10 2026-01-22 cs.AI PDF

随着直播的兴起，在线互动方式发生了巨大变化，带来了大规模实时参与，但也使平台面临诸如诈骗和协调恶意行为等复杂风险。由于有害行为通常逐渐累积并在看似无关的直播中重复出现，因此检测这些风险具有挑战性。为了解决这一问题，我们提出了CS-VAR（跨会话证据感知检索增强检测器），用于直播风险评估。在CS-VAR中，一个轻量级、领域特定模型执行快速会话级别的风险推理，并在训练过程中由一个大型语言模型（LLM）指导，该模型通过检索到的跨会话行为证据进行推理，并将局部到全局的见解传递给小模型。这种设计使小模型能够识别跨直播的重复模式，进行结构化风险评估，并保持实时部署的效率。在大规模工业数据集上的大量离线实验，结合在线验证，证明了CS-VAR的先进性能。此外，CS-VAR提供了可解释的、本地化的信号，有效支持了直播的实际内容审核。

直播风险检测检索增强型LLM 跨会话记忆内容审核

论文涉及跨会话证据检索与LLM结合，用于风险检测，与Agent Memory相关但非核心主题。

VideoThinker：通过LLM引导的工具推理构建智能视频大模型

VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning

Chenglin Li, Qianglong Chen, Feng Han, Yikun Wang, Xingxi Yin et al.

Qianglong Chen (Zhejiang University)

7/10 2026-01-22 cs.CV PDF

当前视频大语言模型在长视频理解方面仍面临挑战，多数模型依赖于对均匀采样帧的静态推理，导致时间定位能力弱且信息丢失严重。本文提出VideoThinker，一种通过合成工具交互轨迹训练的智能视频大模型。其核心思想是将视频转换为丰富的字幕，并利用强大的智能语言模型生成多步骤的工具使用序列。这些轨迹随后通过将字幕替换为对应帧，生成大规模的视频与工具推理交织数据集，无需模型具备长视频理解能力。实验表明，VideoThinker在长视频基准测试中显著优于仅基于字幕的语言模型代理和强视频模型基线，展示了工具增强的合成数据和自适应检索与缩放推理在长视频理解中的有效性。

视频理解工具推理合成数据 Agent系统

论文涉及基于工具的动态推理与记忆机制，但核心是视频理解而非纯记忆系统。

智能体不确定性量化

Agentic Uncertainty Quantification

Jiaxin Zhang, Prafulla Kumar Choubey, Kung-Hsiang Huang, Caiming Xiong, Chien-Sheng Wu

Prafulla Kumar Choubey (Texas A&M Univeristy)

7/10 2026-01-22 cs.AI PDF

尽管人工智能代理在长期推理方面表现出色，但其可靠性受到“幻觉螺旋”的严重影响，其中早期的认知错误会不可逆地传播。现有方法面临困境：不确定性量化（UQ）方法通常作为被动传感器，仅用于诊断风险而无法解决；自我反思机制则容易导致连续或无目的的修正。为弥合这一差距，我们提出了一种统一的双过程智能体不确定性量化（AUQ）框架，将语言化的不确定性转化为主动、双向的控制信号。该架构包含两个互补机制：系统1（不确定性感知记忆，UAM），隐式传播语言化置信度和语义解释以防止盲目决策；系统2（不确定性感知反思，UAR），利用这些解释作为理性线索，在必要时触发针对性的推理时解决。这使智能体能够动态平衡高效执行与深度思考。在闭环基准测试和开放性深度研究任务中的大量实验表明，我们的无需训练的方法在性能和轨迹级校准方面均表现优异。我们认为这一原理性的AUQ框架是迈向可靠智能体的重要一步。

不确定性量化智能体记忆反思机制 AI可靠性

论文提出与记忆相关的不确定性量化机制，涉及记忆系统的设计和应用。

Event-VStream：面向长视频流的事件驱动实时理解

Event-VStream: Event-Driven Real-Time Understanding for Long Video Streams

Zhenghui Guo, Yuanbin Man, Junyuan Sheng, Bowen Lin, Ahmed Ahmed et al.

7/10 2026-01-22 cs.CV PDF

长视频流的实时理解对多模态大语言模型（VLMs）仍具挑战性，主要由于冗余帧处理和快速遗忘过去上下文。现有流系统依赖固定间隔解码或缓存修剪，这要么导致重复输出，要么丢弃关键时间信息。本文提出Event-VStream，一个事件感知框架，将连续视频表示为一系列语义连贯的离散事件。该系统通过整合运动、语义和预测线索检测有意义的状态转换，并仅在这些边界触发语言生成。每个事件嵌入被整合到持久记忆库中，从而实现长期推理并保持低延迟。在OVOBench-Realtime和长篇Ego4D评估中，Event-VStream表现出竞争力。它在OVOBench-Realtime上比VideoLLM-Online-8B基线提升了10.4分，在使用通用LLaMA-3-8B文本主干的情况下性能接近Flash-VStream-7B，并在2小时Ego4D流中保持约70%的GPT-5胜率。

事件驱动视频流处理持久记忆库长期推理多模态语言模型

论文提出事件驱动的视频流处理框架，涉及持久记忆库和长期推理，与Agent Memory相关但非唯一主题。

追踪知识传播的极限：当大型语言模型在存在冲突知识时如何在多步推理中失败

Tracking the Limits of Knowledge Propagation: How LLMs Fail at Multi-Step Reasoning with Conflicting Knowledge

Yiyang Feng, Zeming Chen, Haotian Wu, Jiawei Zhou, Antoine Bosselut

7/10 2026-01-21 cs.AI PDF

为缓解大型语言模型（LLMs）中过时或错误信息的问题，常见的解决方案是在上下文中提供更新的事实或通过知识编辑进行更新。然而，这些方法在知识更新未能覆盖模型参数化知识时会引入知识冲突，并导致推理错误。当前针对该问题的基准测试主要关注单一知识更新和事实回忆，而未评估这些更新对下游推理的影响。本文提出TRACK（Testing Reasoning Amid Conflicting Knowledge），一个新的基准测试，用于研究LLMs在初始参数化知识与新知识冲突的情况下，如何通过多步推理传播新知识。TRACK涵盖三个推理密集型场景（WIKI、CODE和MATH），并引入多个现实冲突以模拟真实世界的复杂性。实验结果表明，向模型提供更新的事实可能比不提供任何更新的事实更差，且随着提供更多更新事实，性能下降加剧。这种失败源于模型无法正确整合更新事实以及即使整合后仍存在推理缺陷。TRACK为衡量和指导未来在多步推理中传播冲突知识的研究提供了严谨的新基准。

知识冲突多步推理 LLM基准测试记忆更新

论文探讨了LLM在多步推理中知识冲突的传播问题，与Agent Memory中的知识更新和冲突处理密切相关。

行动背后的原因：通过智能体归因揭示内部驱动因素

The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution

Chen Qian, Peng Wang, Dongrui Liu, Junyao Yang, Dadi Guo et al.

7/10 2026-01-21 cs.AI PDF

基于大型语言模型（LLM）的智能体广泛应用于客户服务、网络导航和软件工程等领域。随着这些系统变得更加自主并大规模部署，理解智能体采取特定行动的原因对于问责和治理变得越来越重要。然而，现有研究主要集中在失败归因上，以定位不成功轨迹中的显式错误，这不足以解释智能体行为背后的推理过程。为弥补这一差距，我们提出了一种新的通用智能体归因框架，旨在识别驱动智能体行为的内部因素，无论任务结果如何。该框架分层运作以管理智能体交互的复杂性。具体而言，在组件层面，我们使用时间似然动态来识别关键交互步骤；然后在句子层面，我们利用扰动分析来精确定位具体的文本证据。我们在多种智能体场景中验证了该框架，包括标准工具使用和微妙的可靠性风险，如记忆诱导偏差。实验结果表明，所提出的框架能够可靠地识别智能体行为背后的关键历史事件和句子，为更安全和更负责任的智能体系统提供了关键一步。

智能体归因记忆偏差行为解释 LLM应用

论文涉及Agent行为解释，提及记忆诱导偏差等与Memory相关的风险因素。

CorpusQA：一个用于语料库级分析和推理的1000万标记基准

CorpusQA: A 10 Million Token Benchmark for Corpus-Level Analysis and Reasoning

Zhiyuan Lu, Chenliang Li, Yingcheng Shi, Weizhou Shen, Ming Yan et al.

7/10 2026-01-21 cs.CL PDF

尽管当前的大语言模型能够处理百万级标记的上下文，但其在整个文档仓库中的推理能力尚未得到充分验证。现有基准测试存在局限性，主要集中在单个长文本或依赖于“稀疏检索”假设，即答案可以从少量相关片段中得出。然而，在真正的语料库级分析中，证据高度分散在数百个文档中，答案需要全局整合、比较和统计聚合。为解决这一关键问题，我们引入了CorpusQA，这是一个扩展至1000万标记的新基准，通过一种新颖的数据合成框架生成。该框架将推理与文本表示解耦，创建复杂且计算密集型的查询，并通过程序化保证真实答案，挑战系统在不依赖人工标注的情况下对大量非结构化文本进行整体推理。此外，我们还展示了该框架在评估之外的实用性，表明在合成数据上进行微调可以有效提升LLM的一般长上下文推理能力。实验结果表明，即使是最先进的长上下文LLM在输入长度增加时也表现不佳，而标准的检索增强生成系统完全崩溃。我们的研究结果表明，记忆增强的智能体架构提供了更稳健的替代方案，提示需要从简单扩展上下文窗口转向开发用于全局信息合成的先进架构。

语料库推理长上下文记忆增强智能体架构基准测试

论文探讨了大规模语境下的推理能力，涉及记忆增强的智能体架构，与Agent Memory相关但非唯一主题。

针对GraphRAG系统的查询高效代理图提取攻击

Query-Efficient Agentic Graph Extraction Attacks on GraphRAG Systems

Shuhua Yang, Jiahao Zhang, Yilong Wang, Dongwon Lee, Suhang Wang

7/10 2026-01-21 cs.AI PDF

基于图的检索增强生成（GraphRAG）系统通过在文档集合上构建知识图谱来支持多跳推理。尽管已有研究表明GraphRAG的响应可能泄露检索到的子图，但在现实查询预算下，隐藏图结构的查询高效重建仍未被探索。本文研究了一个预算受限的黑盒设置，其中攻击者通过自适应查询系统窃取其潜在的实体-关系图。我们提出AGEA（代理图提取攻击）框架，该框架利用新颖性引导的探索-利用策略、外部图记忆模块以及结合轻量级发现和基于LLM的过滤的两阶段图提取流程。我们在医疗、农业和文学数据集上对AGEA进行了评估，结果表明，在相同的查询预算下，AGEA显著优于之前的攻击基线，恢复了高达90%的实体和关系，同时保持高精度。这些结果表明，现代GraphRAG系统即使在严格的查询限制下，也极易受到结构化、代理式的提取攻击。

GraphRAG 攻击方法知识图谱代理系统图提取

论文涉及GraphRAG系统中的隐含图结构提取，与Agent Memory相关，但并非核心研究主题。

即时世界建模支持人类规划与推理

"Just in Time" World Modeling Supports Human Planning and Reasoning

Tony Chen, Sam Cheyette, Kelsey Allen, Joshua Tenenbaum, Kevin Smith

7/10 2026-01-20 cs.AI PDF

概率性心理模拟被认为在人类推理、规划和预测中起关键作用，但在复杂环境中，模拟的需求超出了人类的实际能力。一种有越来越多证据支持的理论认为，人们使用简化的环境表示进行模拟，忽略不相关的细节，但尚不清楚人们如何高效地确定这些简化。本文提出了一种基于模拟的‘即时’推理框架，展示了如何在线构建这些表示，且计算开销极小。该模型结合了模拟、视觉搜索和表示修改，当前模拟指导搜索方向，而视觉搜索标记应被编码的对象以供后续模拟使用。尽管仅编码了少量对象，该模型仍能做出高效用预测。在网格世界规划任务和物理推理任务中，实证结果支持该模型优于其他替代模型。这些结果为人类如何构建简化表示以支持高效心理模拟提供了具体的算法解释。

mental simulation representation abstraction agent reasoning visual search

论文探讨了人类如何通过简化表示进行高效模拟，与Agent Memory中关于表示压缩和选择性存储的研究相关。

如果你想获得一致性，请组建一支竞争对手团队：组织智能的多智能体模型

If You Want Coherence, Orchestrate a Team of Rivals: Multi-Agent Models of Organizational Intelligence

Gopal Vijayaraghavan, Prasanth Jayachandran, Arun Murthy, Sunil Govindan, Vivek Subramanian

Gopal Vijayaraghavan (Isotopes AIUSA) | Prasanth Jayachandran (Isotopes AIUSA) | Arun Murthy (Isotopes AIUSA)

7/10 2026-01-20 cs.MA PDF

AI代理能够以高速执行复杂操作，但其智能仍存在缺陷。误沟通未被察觉，系统性偏见缺乏反制措施，内心独白也极少被记录。我们并非因错误而解雇它们，而是希望为它们提供一个安全且高效的协作环境。本文提出可以复用常见的企业组织结构：由具有严格角色边界、共同目标但不同激励机制的独立AI代理组成的团队，可以通过相互竞争来减少最终产品中的错误。本文描述了该系统的实际架构：包括规划者、执行者、批评者和专家等专业代理团队，通过远程代码执行器协调，将数据转换和工具调用与推理模型分离。代理不直接调用工具或接收完整响应，而是编写远程执行的代码；仅相关摘要返回给代理上下文。通过防止原始数据和工具输出污染上下文窗口，系统保持了感知（计划和推理的大脑）与执行（进行大量数据转换和API调用的手）之间的清晰分离。实验表明，该方法在用户接触前可拦截超过90%的内部错误，同时保持合理的延迟权衡。从我们的追踪调查中可以看出，这种方法仅以成本和延迟为代价，实现了正确性和能力的逐步扩展，而不会影响现有功能。

多智能体系统组织智能错误拦截远程执行 AI代理协作

论文涉及多智能体协作与错误拦截，间接关联到Agent Memory的可靠性与信息管理。

迷失在提示顺序中：揭示语言模型中因果注意力的局限性

Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models

Hyunjong Ok, Jaeho Lee

7/10 2026-01-20 cs.CL PDF

大型语言模型表现出对提示结构的惊人敏感性，但其背后的机制仍不明确。本文深入研究了一个显著案例：在多项选择题回答任务中，将上下文置于问题和选项之前（CQO）比相反顺序（QOC）高出14%以上的性能，且在多种模型和数据集上保持一致。通过系统性的架构分析，我们确定因果注意力是核心机制：在QOC提示中，因果掩码阻止选项标记访问上下文，导致信息瓶颈，使上下文对选项不可见。

因果注意力提示工程上下文感知信息瓶颈

论文探讨了因果注意力机制对上下文信息处理的影响，与Agent Memory中的信息可见性相关。

具有自适应广度-深度检索的自主知识图谱探索

Autonomous Knowledge Graph Exploration with Adaptive Breadth-Depth Retrieval

Joaquín Polonuer, Lucas Vittor, Iñaki Arango, Ayush Noori, David A. Clifton et al.

7/10 2026-01-20 cs.AI PDF

从知识图谱中检索语言模型查询的证据需要在图的广泛搜索与多跳遍历之间取得平衡。基于相似性的检索器虽然能提供覆盖范围，但较为浅层；而基于遍历的方法则依赖于选择种子节点开始探索，当查询跨越多个实体和关系时可能失效。本文提出ARK：自适应知识检索器，一种代理式知识图谱检索器，通过一个包含两个操作工具集的系统，使语言模型能够控制广度与深度之间的权衡：全局词法搜索节点描述符和一跳邻域探索，可组合成多跳遍历。ARK在无需依赖脆弱的种子选择、预设跳数或检索训练的情况下，在广度导向发现和深度导向扩展之间交替进行。ARK根据查询类型调整工具使用，对语言密集型查询使用全局搜索，对关系密集型查询使用邻域探索。在STaRK数据集上，ARK达到59.1%的平均Hit@1和67.4的平均MRR，分别比基于检索和无训练代理方法提高了31.4%和28.0%。最后，我们通过无标签模仿学习将ARK的工具使用轨迹从大型教师模型蒸馏到8B模型中，在AMAZON、MAG和PRIME数据集上分别提升了7.0、26.6和13.5个绝对点的Hit@1，同时保留了高达98.5%的教师模型Hit@1率。

知识图谱检索自适应搜索代理系统多跳遍历

论文涉及知识图谱检索中的广度与深度平衡，与Agent Memory的探索机制相关。

ToolCaching: 面向LLM工具调用的高效缓存方法

ToolCaching: Towards Efficient Caching for LLM Tool-calling

Yi Zhai, Dian Shen, Junzhou Luo, Bin Yang

Yi Zhai, Dian Shen, Junzhou Luo, Bin Yang (School of Computer Science and Engineering, Southeast UniversityNanjingChina)

7/10 2026-01-20 cs.SE PDF

近年来，大语言模型（LLMs）的进步革新了网络应用，使其能够通过自然语言接口实现智能搜索、推荐和助手服务。工具调用扩展了LLMs与外部API交互的能力，显著提升了其实用性。尽管已有研究通过采用传统的计算机系统技术（如并行和异步执行）来提升工具调用性能，但重复或冗余的工具调用请求问题仍未得到充分解决。缓存是解决这一问题的经典方案，但由于请求语义异构、工作负载动态变化以及新鲜度要求不同，传统缓存策略在LLM工具调用场景中效果不佳。为此，本文提出ToolCaching，一种面向LLM工具调用系统的高效特征驱动且自适应的缓存框架。该框架系统地整合语义和系统级特征，评估请求的缓存可能性并估算缓存价值。其核心VAAC算法结合基于老虎机的准入机制与价值驱动的多因素淘汰策略，综合考虑请求频率、近期性和缓存价值。在合成和公开工具调用工作负载上的大量实验表明，ToolCaching结合VAAC相比标准策略可使缓存命中率提高11%，延迟降低34%，有效加速了LLM工具调用的实际应用。

LLM 缓存机制工具调用 Agent Memory 系统优化

论文提出ToolCaching框架，涉及缓存机制以优化LLM工具调用，与Agent Memory相关但非唯一主题。

寻找RELIEF：通过信念工程在无推理监督下塑造推理行为

Finding RELIEF: Shaping Reasoning Behavior without Reasoning Supervision via Belief Engineering

Chak Tou Leong, Dingwei Chen, Heming Xia, Qingyu Yin, Sunbowen Lee et al.

7/10 2026-01-20 cs.AI PDF

大型推理模型（LRMs）在复杂问题解决中取得了显著成功，但常常面临计算冗余或推理不忠实的问题。当前塑造LRM行为的方法通常依赖于强化学习或使用黄金标准推理轨迹进行微调，这种范式计算成本高且难以扩展。本文揭示了LRMs具有潜在的推理信念，这些信念能够通过简单的logit探测来捕捉。基于这一洞察，我们提出了Reasoning Belief Engineering（RELIEF），一种简单而有效的框架，通过将模型的自我概念与其目标信念蓝图对齐来塑造LRM的行为。关键的是，RELIEF完全绕过了对推理轨迹监督的需求。它通过在合成的、自我反思的问题-回答对上进行微调，内化期望的特性。在效率和忠实度任务上的大量实验表明，RELIEF在训练成本更低的情况下匹配或优于行为监督和基于偏好的基线方法。进一步分析验证了改变模型的推理信念可以有效塑造其实际行为。

LLM 信念工程推理行为塑造无监督学习

论文涉及模型内部的信念机制，与Agent Memory相关但非唯一主题。

基于视听实体一致性和代理搜索的分层长视频理解

Hierarchical Long Video Understanding with Audiovisual Entity Cohesion and Agentic Search

Xinlei Yin, Xiulian Peng, Xiao Li, Zhiwei Xiong, Yan Lu

7/10 2026-01-20 cs.CV PDF

长视频理解对视觉-语言模型提出了重大挑战，因为其需要处理极长的上下文窗口。现有方法通常依赖于简单的分块策略与检索增强生成，但容易导致信息碎片化和全局一致性丢失。本文提出HAVEN框架，通过整合视听实体一致性、分层视频索引与代理搜索机制，实现连贯且全面的推理。首先，通过跨视觉和听觉流的实体级表示保持语义一致性，并将内容组织为涵盖全局摘要、场景、片段和实体级别的结构化层次。然后，采用代理搜索机制在这些层级之间进行动态检索与推理，促进连贯的叙事重建和细粒度实体跟踪。大量实验表明，该方法在时间一致性、实体一致性和检索效率方面表现优异，在LVBench数据集上达到84.1%的整体准确率，并在具有挑战性的推理类别中达到80.1%。

长视频理解代理搜索多模态推理实体一致性检索增强生成

论文涉及基于记忆的代理搜索机制，用于长视频理解，但非唯一核心主题。

理解心理状态以指导多人群体对话中的社会影响

Understanding Mental States to Guide Social Influence in Multi-Person Group Dialogue

Zhichao Liang, Satoshi Nakamura

7/10 2026-01-20 cs.AI PDF

现有的动态心智理论（ToM）基准主要将语言模型置于被动角色：模型读取一系列相连的情景，并报告人们随着状态变化所相信、感受、意图和行为。在真实的社交互动中，ToM也被用于行动：说话者计划要说的话，以引导他人的心理状态轨迹朝向目标。我们引入了SocialMindChange基准，从追踪心理状态转向改变心理状态。每个实例定义了一个包含4个角色和五个相连场景的社会情境。模型扮演其中一个角色，在五个场景中生成对话以达成目标，同时保持与所有参与者的心理状态演变一致。SocialMindChange还包含一些高阶心理状态。通过结构化的四步框架，我们构建了1200个社会情境，涵盖6000个场景和超过90000个问题，每个问题都经过真实性和质量验证。对十个最先进的LLMs进行评估显示，它们的平均表现比人类低54.2%。这一差距表明，当前的LLMs仍难以在长且关联的交互中维持和改变心理状态表示。

Agent Memory Social Interaction Theory of Mind Dialogue Generation LLM Evaluation

论文探讨了在社交对话中通过理解并改变他人心理状态来实现目标，涉及记忆与心理状态的动态变化。

通过知识化经验学习对齐智能体世界模型

Aligning Agentic World Models via Knowledgeable Experience Learning

Baochang Ren, Yunzhi Yao, Rui Sun, Shuofei Qiao, Ningyu Zhang et al.

Yunzhi Yao (Zhejiang University;Shandong University) | Rui Sun (University of California, Los Angeles)

7/10 2026-01-19 cs.CL PDF

当前大型语言模型（LLMs）存在关键的模态断层：它们拥有丰富的语义知识，但缺乏遵循物理世界不变法则的过程性基础。因此，尽管这些智能体隐式地作为世界模型运行，其模拟常常受到物理幻觉的影响，生成逻辑上合理但物理上不可执行的计划。现有的对齐策略主要依赖资源密集型的训练或微调，试图将动态环境规则压缩到静态模型参数中。然而，这种参数化封装本质上是僵硬的，在没有持续、昂贵的再训练情况下难以适应物理动态的开放性变化。为弥合这一差距，我们引入了WorldMind框架，该框架通过合成环境反馈自主构建符号化的世界知识库。具体而言，它统一过程经验以通过预测误差确保物理可行性，并通过成功轨迹引导任务最优性。在EB-ALFRED和EB-Habitat上的实验表明，WorldMind相比基线方法表现出更优的性能，并具有显著的跨模型和跨环境迁移能力。

Agent Memory World Model Physical Simulation Knowledge Repository

论文提出WorldMind框架，通过构建世界知识库解决物理幻觉问题，与Agent Memory机制密切相关。

实时截止时间揭示了LLM战略对话中的时间意识失败

Real-Time Deadlines Reveal Temporal Awareness Failures in LLM Strategic Dialogues

Neil K. R. Sehgal, Sharath Chandra Guntuku, Lyle Ungar

7/10 2026-01-19 cs.AI PDF

大型语言模型（LLMs）以离散时间逐词生成文本，而现实世界中的交流，如治疗会话和商业谈判，严重依赖于连续时间约束。当前的LLM架构和评估协议很少测试在实时截止时间下的时间意识。本文通过模拟严格截止时间下的代理谈判，研究LLM在时间敏感环境中的行为调整。在对照条件下，代理仅知道全局时间限制；在时间感知条件下，它们在每一轮中收到剩余时间更新。结果显示，在时间感知条件下，交易达成率显著提高（GPT-5.1为32% vs. 4%），接受提议的数量是对照条件的六倍，表明LLM难以内部追踪经过的时间。然而，这些LLM在基于回合的限制下几乎能完美达成交易（≥95%），说明问题在于时间跟踪而非战略推理。这些效应在不同谈判场景和模型中均得到复制，表明LLM存在系统性的时间意识缺失，这将限制其在许多时间敏感应用中的部署。

LLM 时间感知代理谈判记忆相关

论文探讨了LLM在时间感知上的不足，涉及其内部时间跟踪机制，与Agent Memory相关。

通过智能体AI、嵌套学习和语义缓存实现提示注入缓解与AI可持续性

Prompt Injection Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching

Diego Gosmar, Deborah A. Dahl

7/10 2026-01-19 cs.AI PDF

提示注入仍然是大型语言模型安全部署的核心障碍，尤其在多智能体环境中，中间输出可能传播或放大恶意指令。本文在之前提出的四维总注入脆弱性评分（TIVS）基础上，引入基于语义相似性的缓存机制和第五个指标（可观察性评分比），构建了TIVS-O评估框架，并在受HOPE启发的嵌套学习架构中研究防御效果与透明度之间的关系。所提系统结合智能体流程与语义缓存的连续记忆系统，在301个合成生成的注入提示上进行测试，同时由第四个智能体使用五个关键性能指标进行全面安全分析。实验表明，该系统实现了零高风险漏洞的安全响应，语义缓存显著减少了计算开销，LLM调用次数减少41.6%，并降低了延迟、能耗和碳排放。五种TIVS-O配置揭示了缓解严格性与取证透明度之间的最佳权衡。结果表明，可观测性驱动的评估能够揭示多智能体流程中的非单调效应，且增强记忆的智能体可在不修改模型权重的情况下，联合优化安全性、实时性能、运营成本节约和环境可持续性。

Agent Memory Prompt Injection Semantic Caching Multi-Agent System Security Evaluation

论文涉及基于语义缓存的Continuum Memory Systems，与Agent Memory相关但非唯一主题。

通过强化学习实现具有上下文推理的智能体对话搜索

Agentic Conversational Search with Contextualized Reasoning via Reinforcement Learning

Fengran Mo, Yifan Gao, Sha Li, Hansi Zeng, Xin Liu et al.

7/10 2026-01-19 cs.CL PDF

大型语言模型（LLMs）已成为人机交互的重要接口，支持通过自然、多轮对话进行信息检索和任务协助。在多轮对话中，用户意图随着交互而演变，需要上下文解释、查询重写以及检索与生成之间的动态协调。现有研究通常采用静态的重写、检索和生成流程，分别优化不同步骤，忽视了混合主动行为的同步优化。尽管深度搜索代理的最新进展展示了通过推理联合优化检索和生成的有效性，但这些方法主要针对单轮场景，可能难以处理多轮交互。本文提出了一种跨轮次交织搜索与推理的对话代理，通过强化学习训练并结合定制奖励机制，使代理能够学习探索性和适应性行为以应对不断变化的用户目标。实验结果表明，在四个广泛使用的对话基准测试中，该方法优于多个现有强基线。

对话代理强化学习多轮交互检索生成

论文涉及多轮对话中上下文依赖的意图演化，与Agent Memory相关，但非核心主题。

从前缀缓存到融合RAG缓存：加速检索增强生成中的大语言模型推理

From Prefix Cache to Fusion RAG Cache: Accelerating LLM Inference in Retrieval-Augmented Generation

Jiahao Wang, Weiyu Xie, Mingxing Zhang, Boxing Zhang, Jianwei Dong et al.

Jiahao Wang (Hangzhou Dianzi UniversityHangzhouChina) | Weiyu Xie (Tsinghua UniversityBeijingChina) | Mingxing Zhang (Tsinghua UniversityBeijingChina)

7/10 2026-01-19 cs.CL PDF

检索增强生成（RAG）通过整合外部知识来增强大型语言模型（LLM），虽然减少了幻觉问题，但增加了提示长度，导致计算成本上升和首次生成时间（TTFT）延长。为缓解此问题，现有方法尝试重用每个检索块的预处理KV缓存以加速RAG。然而，缺乏跨块上下文信息显著降低了生成质量，限制了KV缓存重用的潜在优势。本文提出FusionRAG，一种新的推理框架，优化了RAG的预处理和重处理阶段。在离线预处理阶段，将其他相关文本块的信息嵌入到每个块中；在线重处理阶段，仅对模型关注的标记重新计算KV缓存。实验表明，FusionRAG在相同重计算比例下显著提升了生成质量，并在重计算少于15%的标记时，实现了比基线高70%的归一化F1分数，同时将TTFT减少了2.66倍至9.39倍。

RAG KV缓存生成质量推理优化

论文涉及KV缓存重用以提升RAG效率，与Agent Memory相关但非唯一主题。

通过环境交互教授LLM学习工具尝试与执行

Teaching LLMs to Learn Tool Trialing and Execution through Environment Interaction

Xingjie Gao, Pengcheng Huang, Zhenghao Liu, Yukun Yan, Shuo Wang et al.

7/10 2026-01-19 cs.SE PDF

为大型语言模型（LLMs）配备外部工具使其能够解决复杂的现实问题。然而，现有方法在面对新出现或不断变化的工具时，其鲁棒性仍是一个关键挑战。现有的轨迹中心范式主要依赖于在训练过程中记忆静态解决方案路径，这限制了LLMs将工具使用推广到新引入或之前未见过的工具的能力。本文提出ToolMaster框架，该框架将工具使用从模仿黄金工具调用轨迹转变为通过与环境的交互主动学习工具使用。为了优化LLMs的工具规划和调用能力，ToolMaster采用了一种试错与执行的范式，首先让LLMs模仿教师生成的包含显式工具尝试和自我纠正的轨迹，随后通过强化学习协调试错与执行阶段。这一过程使代理能够通过与环境的主动交互自主探索正确的工具使用方式，并形成有益于工具执行的经验知识。实验结果表明，ToolMaster在泛化性和鲁棒性方面显著优于现有基线方法。

LLM 工具使用强化学习环境交互泛化能力

论文涉及LLM通过环境交互学习工具使用，隐含记忆机制，但非核心主题。

Code

知识并不足够：注入强化学习技能以实现持续适应

Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

Pingzhi Tang, Yiding Wang, Muhan Zhang

Yiding Wang (Peking University)

7/10 2026-01-16 cs.LG PDF

大语言模型（LLMs）面临“知识截止”挑战，其冻结的参数化记忆难以直接内化新信息。尽管监督微调（SFT）常用于更新知识，但往往仅修改事实内容，未能有效提升模型利用新知识进行问答或决策的能力。强化学习（RL）对习得推理技能至关重要，但其高昂计算成本限制了在线适应效率。本文发现SFT与RL引起的参数更新近乎正交，据此提出参数化技能迁移（PaST）框架，通过从源域提取领域无关的技能向量，在目标模型经轻量SFT后线性注入知识操作技能。在SQuAD、LooGLE和ToolBench等基准上的实验表明，PaST显著提升知识整合与工具使用性能，展现出良好的可扩展性与跨域迁移能力。

参数化记忆技能迁移

聚焦参数化记忆更新与技能迁移，涉及LLM记忆机制但非核心架构研究。

深度GraphRAG：一种兼顾层次化检索与自适应整合的平衡方法

Deep GraphRAG: A Balanced Approach to Hierarchical Retrieval and Adaptive Integration

Yuejie Li, Ke Yang, Tao Wang, Bolin Chen, Bowen Li et al.

Yuejie Li (Ant GroupChina) | Ke Yang (Ant GroupChina) | Tao Wang (Zhejiang UniversityChina)

7/10 2026-01-16 cs.IR PDF

基于图的检索增强生成（GraphRAG）框架在全局搜索的全面性与局部搜索的效率之间存在权衡。现有方法在处理大规模层次化图结构时，常面临检索路径优化、探索-利用平衡及多阶段重排序不足等挑战。为此，本文提出Deep GraphRAG框架，采用从全局到局部的层次化检索策略，融合社区间宏观与社区内微观上下文关系。该策略包含三阶段流程：社区间过滤、社区级精炼和实体级细粒度搜索，并引入基于束搜索优化的动态重排序模块以平衡效率与全面性。此外，其知识整合模块采用紧凑型LLM，结合新型强化学习算法DW-GRPO动态调整相关性、忠实性与简洁性三重目标的奖励权重，使1.5B模型在整合任务中接近70B大模型性能。在Natural Questions和HotpotQA上的实验表明，该方法在准确率与效率上显著优于基线。

GraphRAG 层次化记忆检索增强生成动态重排序知识整合

论文聚焦检索增强生成中的层次化记忆组织与整合，属Agent Memory关键支撑技术。

面向企业检索增强系统的结构与多样性感知上下文气泡构建方法

Structure and Diversity Aware Context Bubble Construction for Enterprise Retrieval Augmented Systems

Amir Khurshid, Abhishek Sehgal

7/10 2026-01-15 cs.AI PDF

大语言模型（LLM）通常通过检索增强生成（RAG）构建上下文，采用top-k段落选择策略，易导致文档结构信息碎片化、内容重复及查询上下文不足（如缺乏二阶、三阶语义维度）。本文提出一种融合结构信息与多样性约束的上下文气泡构建框架，在严格令牌预算下组装连贯、可引用的文本片段。该方法利用文档固有结构（如章节、行等多粒度片段）并引入任务条件化的结构先验指导检索；从高相关性锚点出发，通过平衡查询相关性、边际覆盖度与冗余惩罚进行受限选择，显式控制多样性与预算，生成紧凑且信息丰富的上下文集。系统同时输出完整检索轨迹，支持可审计性与确定性调优。在企业文档上的实验表明，该方法显著减少冗余、更好覆盖次级语义维度，并在有限上下文窗口内提升回答质量与引用忠实度。消融实验证明结构先验与多样性约束均不可或缺。

检索增强生成上下文管理

聚焦上下文构建机制，涉及信息组织与冗余控制，属记忆相关但非核心记忆架构。

CALM-IT：基于双角色对话动态追踪生成逼真的长篇动机式访谈对话

CALM-IT: Generating Realistic Long-Form Motivational Interviewing Dialogues with Dual-Actor Conversational Dynamics Tracking

Viet Cuong Nguyen, Nhi Yen Nguyen, Kristin A. Candan, Mary Conlon, Vanessa Rumie et al.

7/10 2026-01-15 cs.CL PDF

大语言模型（LLMs）在心理健康场景中日益普及，但在长时间交互中难以维持现实且目标导向的对话。尽管LLMs能生成流畅回应，其优化目标局限于当前轮次，缺乏对治疗进展的连贯建模，导致长期对话出现脆弱性和偏离。本文提出CALM-IT框架，用于生成与评估长篇动机式访谈（MI）对话，显式建模双角色（治疗师与来访者）的对话动态。该框架将互动表示为双向状态空间过程，双方持续更新对彼此目标一致性、心理状态及短期目标的推断，以指导策略选择与话语生成。大规模评估表明，CALM-IT在有效性与目标一致性方面显著优于强基线，且随对话长度增加仍保持高度稳定性。尽管治疗师重定向次数较少，其来访者接受率最高（64.3%），表明干预时机更精准、更具治疗一致性。研究证实，建模演化的对话状态对生成高质量长篇合成对话至关重要。

对话系统状态建模

论文建模对话状态演化，涉及长期交互中的状态记忆机制，但未直接聚焦记忆架构。

参照框架：解决情境对话中共识表征的挑战

Frame of Reference: Addressing the Challenges of Common Ground Representation in Situational Dialogs

Biswesh Mohapatra, Théo Charlot, Giovanni Duca, Mayank Palan, Laurent Romary et al.

7/10 2026-01-14 cs.CL PDF

共识在情境化口语对话中至关重要，对话双方需建立并维持对实体、事件和关系的共享指代，以保障交互连贯性。对于对话系统而言，准确地将对话内容锚定于上下文并在后续引用尤为关键。尽管已有研究表明大语言模型（LLM）能执行请求澄清或生成确认等锚定行为，但鲜有工作探讨如何显式表征并存储共识以供后续使用。缺乏此类机制，难以判断确认或澄清行为是否真正反映理解。本文评估模型在情境对话中通过关系性指代建立并利用共识的能力，测试多种共识表征方法，并提出改进共识建立及其后续使用的策略。

common ground dialogue systems

论文聚焦于对话中共同基础的显式表示与存储，涉及记忆机制但非核心主题。

Imagine-then-Plan：通过自适应前瞻学习代理

Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models

Youwei Liu, Jian Wang, Hanlin Wang, Beichen Guo, Wenjie Li

7/10 2026-01-13 cs.CL PDF

近期世界模型的研究为环境状态的未来动态建模提供了新思路，使智能体能够在不接触真实环境的情况下进行推理和行动。当前方法主要采用单步或固定时间范围的模拟，未能充分利用其在复杂任务规划中的潜力。本文提出了一种统一框架Imagine-then-Plan（ITP），通过前瞻性想象进行智能体学习，其中策略模型与学习到的世界模型交互，生成多步“想象”轨迹。由于想象的时间跨度可能因任务和阶段而异，我们引入了一种新的自适应前瞻机制，在最终目标与任务进展之间进行权衡。这些想象轨迹提供了关于未来后果的丰富信息，如已完成的进展和潜在冲突，并与当前观测融合，形成一个部分可观测且可想象的马尔可夫决策过程，以指导策略学习。我们实现了训练无关和强化训练两种变体的ITP。大量实验表明，ITP显著优于竞争性基线。进一步分析验证了我们的自适应前瞻机制大幅提升了智能体的推理能力，为解决更广泛和复杂任务提供了有价值的见解。

世界模型前瞻性想象自适应规划智能体学习

论文提出基于世界模型的前瞻性想象机制，与Agent Memory中的未来状态建模和规划相关。

RAGShaper：通过自动化数据合成激发复杂的智能体RAG技能

RAGShaper: Eliciting Sophisticated Agentic RAG Skills via Automated Data Synthesis

Zhengwei Tao, Bo Li, Jialong Wu, Guochen Yan, Huanyao Zhang et al.

7/10 2026-01-13 cs.CL PDF

智能体增强检索生成（Agentic RAG）使大型语言模型能够自主规划并检索信息以解决复杂问题。然而，高质量训练数据的缺乏限制了鲁棒智能体的发展，这些数据应能反映真实检索环境中的噪声和复杂性。传统的人工标注方法难以扩展且无法捕捉处理检索失败所需的动态推理策略。为此，我们提出RAGShaper，一种新颖的数据合成框架，旨在自动构建RAG任务和鲁棒智能体轨迹。RAGShaper引入了一个InfoCurator模块，用于构建包含对抗性干扰项的信息树，并提出了受限导航策略，迫使教师智能体面对这些干扰项，从而生成体现错误纠正和噪声拒绝的轨迹。全面实验表明，基于合成语料库训练的模型显著优于现有基线，在噪声密集和复杂检索任务中表现出更强的鲁棒性。

RAG 智能体轨迹生成数据合成噪声鲁棒性

论文涉及RAG中的噪声处理与轨迹生成，与Agent Memory的鲁棒性相关。

用于检索增强生成的并行专家上下文解码

Parallel Context-of-Experts Decoding for Retrieval Augmented Generation

Giulio Corallo, Paolo Papotti

7/10 2026-01-13 cs.AI PDF

检索增强生成面临权衡：将文档连接到长提示中可以实现多文档推理，但会导致预填充瓶颈；而单独编码文档KV缓存虽然速度快，却破坏了跨文档交互。本文提出了一种无需训练的框架——并行专家上下文解码（Pced），将证据聚合从注意力机制转移到解码过程。Pced将检索到的文档视为独立的“专家”，通过一种新颖的检索感知对比解码规则同步其预测，该规则将专家logits与模型先验进行权衡。这种方法在不构建跨文档共享注意力的情况下恢复了跨文档推理能力。

检索增强生成跨文档推理专家系统解码机制

论文探讨了检索增强生成中的上下文处理机制，涉及跨文档推理与记忆相关技术。

ExpSeek：面向网络代理的自触发经验探索

ExpSeek: Self-Triggered Experience Seeking for Web Agents

Wenyuan Zhang, Xinghua Zhang, Haiyang Yu, Shuaiyi Nie, Bingli Wu et al.

7/10 2026-01-13 cs.CL PDF

在Web代理中引入经验干预被视为一种有前景的技术范式，通过从积累的经验中提取有价值的信息来增强代理的交互能力。然而，现有方法主要在任务执行前被动地将经验作为全局上下文注入，难以适应代理与环境交互过程中动态变化的上下文观察。本文提出ExpSeek方法，将经验向步骤级别的主动探索转变：（1）利用模型的内在信号估计步骤级熵阈值以确定干预时机；（2）设计步骤级定制化的经验内容。在Qwen3-8B和32B模型上进行的四组具有挑战性的Web代理基准测试表明，ExpSeek分别实现了9.3%和7.5%的绝对性能提升。实验验证了熵作为自触发信号的可行性和优势，并揭示了即使使用4B的小规模经验模型，也能显著提升大型代理模型的性能。

Agent Memory Experience Intervention Web Agents Entropy-based Triggering

论文提出ExpSeek方法，涉及基于经验的主动干预机制，与Agent Memory相关但非唯一主题。

D$^2$Plan：用于复杂检索增强推理的双代理动态全局规划

D$^2$Plan: Dual-Agent Dynamic Global Planning for Complex Retrieval-Augmented Reasoning

Kangcheng Luo, Tinglang Wu, Yansong Feng

7/10 2026-01-13 cs.CL PDF

近期通过强化学习训练的搜索增强型大语言模型（LLMs）能够在多跳推理任务中交替进行搜索和推理。然而，随着上下文信息的积累，这些模型面临两个关键失败模式：一是构建无效的搜索链，导致生成错误查询或遗漏关键信息；二是被外围证据干扰，使模型误将干扰信息识别为有效证据。为此，本文提出**D$^2$Plan**，一种面向复杂检索增强推理的双代理动态全局规划范式。该方法通过*Reasoner*和*Purifier*两个代理协作实现：*Reasoner*在推理过程中构建显式的全局计划，并根据检索反馈动态调整；*Purifier*评估检索的相关性并提取关键信息供*Reasoner*使用。此外，本文引入了一个两阶段训练框架，包括基于合成轨迹的监督微调（SFT）冷启动和以计划为导向的强化学习奖励机制，以帮助LLMs掌握**D$^2$Plan**范式。大量实验表明，**D$^2$Plan**能够实现更连贯的多步骤推理，并对无关信息具有更强的鲁棒性，在具有挑战性的问答基准测试中表现出色。

Agent Memory Retrieval-Augmented Reasoning Dual-Agent System Reinforcement Learning

论文提出双代理动态规划方法，涉及信息筛选与记忆管理，与Agent Memory相关。

ToolACE-MCP：从MCP工具推广到Agent Web的历史感知路由

ToolACE-MCP: Generalizing History-Aware Routing from MCP Tools to the Agent Web

Zhiyuan Yao, Zishan Xu, Yifu Guo, Zhiguang Han, Cheng Yang et al.

7/10 2026-01-13 cs.AI PDF

随着Agent Web和模型上下文协议（MCP）的兴起，智能体生态系统正在演变为一个开放协作网络，可访问的工具数量呈指数级增长。然而，当前架构面临严重的可扩展性和通用性瓶颈。为了解决这一问题，我们提出了ToolACE-MCP，一种用于训练具有历史感知能力的路由器的流程，以在大规模生态系统中实现精确导航。通过利用依赖丰富的候选图来合成多轮轨迹，我们有效地训练了具备动态上下文理解能力的路由器，从而创建了即插即用的轻量级路由代理。在真实世界基准MCP-Universe和MCP-Mark上的实验表明其性能优越。值得注意的是，ToolACE-MCP展现出对未来的Agent Web至关重要的特性：它不仅能够通过最小的适应性推广到多智能体协作，还对噪声具有出色的鲁棒性，并能有效扩展到大规模候选空间。这些发现为开放生态系统中的通用调度提供了坚实的实证基础。

Agent Web MCP 路由机制历史感知多智能体协作

论文提出基于历史感知的路由机制，与Agent Memory相关，但非唯一主题。

关于学习重要性评分在KV缓存压缩中局限性的研究

On the Limits of Learned Importance Scoring for KV Cache Compression

Brady Steele

7/10 2026-01-13 cs.LG PDF

本文通过Speculative Importance Prediction（SIP）方法研究了学习型KV缓存压缩的可行性。SIP是一种基于KV表示预测token重要性的1.7M参数非查询感知评分器。尽管其架构复杂（多时间跨度前瞻、交叉注意力），但在多个种子、保留级别和任务中，SIP的表现并未优于随机选择等简单基线。主要发现包括：(1) 基于位置的启发式方法（保留前4个和最后N个token）可匹配或超越学习方法；(2) 预填充注意力提供的信号与复杂学习评分器相当；(3) KV表示中超出位置和预填充注意力的信息对重要性预测帮助有限。我们假设未来查询与生成轨迹之间的循环依赖是造成这一困难的原因。

KV缓存压缩重要性评分 Agent Memory LLM优化

论文探讨了KV缓存压缩中的重要性评分机制，与Agent Memory相关但非唯一主题。

ForgetMark：通过定向遗忘实现隐蔽指纹嵌入的语言模型

ForgetMark: Stealthy Fingerprint Embedding via Targeted Unlearning in Language Models

Zhenhua Xu, Haobo Zhang, Zhebo Wang, Qichen Liu, Haitao Xu et al.

7/10 2026-01-13 cs.CR PDF

现有入侵性（后门）指纹方法存在高困惑度触发器易被过滤、启发式检测器暴露固定响应模式以及在良性输入上产生误激活等问题。本文提出ForgetMark，一种隐蔽的指纹框架，通过定向遗忘对来源进行编码。该方法利用辅助模型和预测熵排名构建一个紧凑且可读性强的键值对集合，并训练轻量级LoRA适配器以在不损害通用能力的前提下抑制原始键值。在黑盒/灰盒访问下，通过聚合似然性和语义证据计算指纹成功率来验证所有权。ForgetMark依赖于概率遗忘痕迹而非固定触发-响应模式，从而避免了高困惑度触发器，降低了可检测性和误触发率。在多种架构和设置中，ForgetMark在指纹模型上实现了100%的所有权验证，同时保持标准性能，其隐蔽性和对模型合并的鲁棒性优于后门基线方法，并在适度增量微调下仍有效。

Agent Memory Fingerprint Embedding Language Model Unlearning Stealthy Backdoor

论文涉及基于遗忘机制的指纹嵌入，与Agent Memory相关但非唯一主题。

Code

使用微调函数向量的关系知识蒸馏

Relational Knowledge Distillation Using Fine-tuned Function Vectors

Andrea Kang, Yingnian Wu, Hongjing Lu

7/10 2026-01-13 cs.CL PDF

概念间关系的表示是智能系统理解世界的核心前提。近期研究利用因果中介分析表明，少量注意力头能够编码任务表示，并以紧凑形式表示为函数向量。本文发现，仅用少量示例（约20个词对）微调函数向量，可提升基于关系的词补全任务性能，且适用于大小语言模型。此外，微调后的函数向量在关系词解码和语义关系相似性判断上表现更优。随后，作者引入复合函数向量——微调函数向量的加权组合，用于提取关系知识并支持类比推理。在推理阶段，将该复合向量插入LLM激活中显著提升了认知科学和SAT基准中的类比问题性能。结果突显了激活修补作为可控机制在编码和操作关系知识方面的潜力，推动了大语言模型的可解释性和推理能力。

函数向量关系知识提取类比推理激活修补

论文涉及函数向量的微调与关系知识提取，与Agent Memory中的知识表示和推理相关。

WISE-Flow：面向自我演进对话服务代理的工作流诱导结构化经验

WISE-Flow: Workflow-Induced Structured Experience for Self-Evolving Conversational Service Agents

Yuqing Zhou, Zhuoer Wang, Jie Yuan, Hong Wang, Samson Koelle et al.

7/10 2026-01-13 cs.CL PDF

基于大语言模型（LLM）的代理广泛应用于面向用户的场景，但在新任务中仍容易出错，倾向于重复相同的失败模式，并表现出显著的运行间差异性。通过环境特定训练或手动修补来修复故障成本高昂且难以扩展。为实现用户面向服务环境中的自我演进代理，本文提出WISE-Flow，一种以工作流为中心的框架，通过引入带有先决条件增强的动作块，将历史服务交互转化为可重用的过程性经验。在部署时，WISE-Flow将代理的执行轨迹对齐到检索到的工作流，并进行先决条件感知的可行性推理，以实现状态驱动的下一步动作。在ToolSandbox和$τ^2$-bench上的实验表明，该方法在基础模型上均表现出一致的改进。

Agent Memory Self-Evolving Agents Workflow Learning Conversational Services

论文提出基于工作流的结构化经验机制，与Agent Memory相关，但非唯一主题。

DYCP：面向长对话的动态上下文剪枝方法

DYCP: Dynamic Context Pruning for Long-Form Dialogue with LLMs

Nayoung Choi, Jonathan Zhang, Jinho D. Choi

7/10 2026-01-12 cs.CL PDF

随着大型语言模型（LLMs）在长对话场景中的应用日益增多，频繁的主题切换对对话历史的有效管理提出了挑战。尽管当前LLMs支持扩展的上下文窗口，但在实际应用中仍需应对推理成本和延迟限制。本文提出DYCP，一种轻量级的上下文管理方法，该方法在LLM外部实现，能够根据当前对话轮次动态识别并检索相关对话片段，无需离线构建记忆。DYCP在保持对话顺序性的同时，不依赖预定义的主题边界，实现了自适应且高效的上下文选择。在LoCoMo、MT-Bench+和SCM4LLMs三个长对话基准测试集以及多个LLM后端上，DYCP在下游生成任务中表现出具有竞争力的答案质量，同时提升了上下文选择的精确度和推理效率。

对话管理上下文剪枝 LLM推理优化动态记忆管理

论文提出动态上下文剪枝方法，用于管理对话历史，与Agent Memory相关但非唯一主题。

超越单次检索：通过查询规划实现多步骤工具检索

Beyond Single-Shot: Multi-step Tool Retrieval via Query Planning

Wei Fang, James Glass

7/10 2026-01-12 cs.CL PDF

在大规模、动态工具库上运行的LLM代理依赖于有效的检索方法，但标准的单次密集检索器难以处理复杂请求。这些失败主要源于抽象用户目标与技术文档之间的脱节，以及固定大小嵌入对组合工具构成的有限建模能力。为解决这些问题，我们提出了TOOLQP，一个轻量级框架，将检索建模为迭代查询规划。TOOLQP不采用单次匹配，而是将指令分解为子任务，并动态生成查询以与检索器交互，从而有效弥合语义差距并针对所需的具体子任务进行组合。我们通过合成查询轨迹训练TOOLQP，并通过可验证奖励强化学习（RLVR）进行优化。实验表明，TOOLQP在零样本泛化、跨多样检索器的鲁棒性以及下游代理执行方面均表现出色。

LLM Agent 工具检索查询规划强化学习

论文涉及工具检索与查询规划，间接关联Agent Memory中的任务分解与信息检索机制。

超越纠缠规划：面向长时地平线代理的任务解耦规划

Beyond Entangled Planning: Task-Decoupled Planning for Long-Horizon Agents

Yunfan Li, Bingbing Xu, Xueyun Tian, Xiucheng Xu, Huawei Shen

7/10 2026-01-12 cs.AI PDF

近年来，大语言模型（LLMs）的进步使代理能够自主执行复杂的长时地平线任务，但规划仍然是可靠任务执行的主要瓶颈。现有方法通常分为两种范式：逐步规划，具有反应性但往往短视；以及一次性规划，虽在开始时生成完整计划，但对执行错误敏感。这两种范式都存在上下文纠缠问题，即代理必须在一个跨越多个子任务的单一历史中进行推理。这种纠缠增加了认知负担，并导致局部错误传播到原本独立的决策中，使得恢复计算成本高昂。为了解决这一问题，我们提出了任务解耦规划（TDP），一种无需训练的框架，通过任务解耦替代纠缠推理。TDP通过监督器将任务分解为子目标的有向无环图（DAG）。使用具有作用域上下文的规划器和执行器，TDP将推理和重新规划限制在当前子任务中。这种隔离防止了错误传播，并可在不干扰工作流的情况下本地纠正偏差。在TravelPlanner、ScienceWorld和HotpotQA上的实验结果表明，TDP优于强基线，同时减少了高达82%的token消耗，证明子任务解耦可提高长时地平线代理的鲁棒性和效率。

任务解耦长时地平线代理上下文隔离规划系统

论文提出任务解耦规划框架，减少上下文纠缠，与Agent Memory中的子任务隔离和错误传播控制相关。

是的，FLoReNce，我下次会做得更好！用于幽默表情包检测的智能体反馈推理

Yes FLoReNce, I Will Do Better Next Time! Agentic Feedback Reasoning for Humorous Meme Detection

Olivia Shanhong Liu, Pai Chet Ng, De Wen Soh, Konstantinos N. Plataniotis

7/10 2026-01-12 cs.AI PDF

幽默表情包结合了视觉和文本线索以传达讽刺、讽刺或社会评论，这对必须解释意图而非仅表面关联的AI系统提出了独特挑战。现有的多模态或提示方法生成幽默解释，但其运行在开环模式下，缺乏对预测后推理过程的批评或优化能力。本文提出FLoReNce，一种基于智能体反馈推理的框架，将表情包理解视为训练阶段的闭环过程和推理阶段的开环过程。在闭环中，推理智能体受到评判者的批评，错误和语义反馈被转化为控制信号并存储在一个由反馈信息驱动的非参数知识库中。在推理过程中，模型从该知识库中检索相似的评判经验，并利用它们来调整提示内容，从而实现无需微调的更优、自对齐的推理。在PrideMM数据集上，FLoReNce在预测性能和解释质量方面均优于静态多模态基线，表明反馈调节的提示方法是适应性理解幽默表情包的有效路径。

Agent Memory 反馈学习多模态理解幽默检测

论文提出基于反馈的闭环学习机制，涉及非参数知识库存储和检索，与Agent Memory相关。

迷失在噪声中：推理模型如何因上下文干扰而失效

Lost in the Noise: How Reasoning Models Fail with Contextual Distractors

Seongyun Lee, Yongrae Jo, Minju Seo, Moontae Lee, Minjoon Seo

7/10 2026-01-12 cs.AI PDF

随着推理模型和智能体AI系统的进步，对外部信息的依赖性增加，但这也引入了具有噪声的输入上下文。本文提出了NoisyBench基准，系统评估了11个数据集上模型在RAG、推理、对齐和工具使用任务中的鲁棒性，针对多种噪声类型进行测试。结果表明，最先进的模型在面对上下文干扰时性能下降高达80%。研究发现，智能体工作流常因过度信任噪声工具输出而放大错误，并且干扰项可能引发非对抗性的对齐偏差。传统方法如提示、上下文工程、SFT和基于奖励的强化学习无法确保鲁棒性，而提出的Rationale-Aware Reward（RARE）通过激励模型识别噪声中的有用信息显著提升了鲁棒性。此外，研究还揭示了计算量增加反而导致性能下降的趋势，并通过注意力可视化展示了模型对干扰项的过度关注。

噪声鲁棒性智能体系统上下文干扰 RAG 对齐偏差

论文探讨了噪声对Agent推理的影响，涉及记忆相关机制如上下文干扰和工具输出信任问题。

Relink：为GraphRAG实时构建查询驱动的证据图

Relink: Constructing Query-Driven Evidence Graph On-the-Fly for GraphRAG

Manzong Huang, Chenyang Bu, Yi He, Xingrui Zhuo, Xindong Wu

7/10 2026-01-12 cs.CL PDF

基于图的检索增强生成（GraphRAG）通过结构化知识减少大语言模型（LLMs）的幻觉。然而，当前GraphRAG方法受限于静态预构建的知识图谱（KG），面临路径断裂和噪声干扰等挑战。为此，本文提出Relink框架，采用‘推理与构建’范式，动态生成查询特定的证据图。Relink从原始文本语料中提取潜在关系池，即时修复断裂路径，并通过统一的查询感知评估策略筛选最相关的事实，有效排除干扰信息。实验表明，Relink在五个开放域问答基准测试中显著优于现有GraphRAG基线。

GraphRAG 动态知识图谱证据图构建查询驱动

论文提出动态构建查询驱动的证据图，与Agent Memory中的动态信息检索和存储机制相关。

我们能在机器学习代理执行前进行预测吗？

Can We Predict Before Executing Machine Learning Agents?

Jingsheng Zheng, Jintian Zhang, Yujie Luo, Yuren Mao, Yunjun Gao et al.

7/10 2026-01-09 cs.CL PDF

自主机器学习代理已彻底改变了科学发现，但它们仍受限于生成-执行-反馈范式。现有方法因依赖昂贵的物理执行而面临严重执行瓶颈。为克服这些限制，本文借鉴世界模型的思想，将执行先验内化，以即时预测推理替代高成本的运行时检查。本文形式化了数据为中心的解决方案偏好任务，并构建了一个包含18,438对比较的综合语料库。实验表明，在使用经过验证的数据分析报告进行引导后，LLM展现出显著的预测能力，准确率达到61.5%，并具有稳健的置信度校准。最后，本文在FOREAGENT代理中实现了这一框架，采用预测-验证循环，收敛速度提升6倍，且优于基于执行的基线方法6%。

Agent Memory 预测执行 LLM World Models 数据驱动

论文涉及预测执行机制，与Agent Memory中的预测和验证机制相关，但非核心主题。

Code

iReasoner：面向轨迹感知的内在推理监督用于自演化的大型多模态模型

iReasoner: Trajectory-Aware Intrinsic Reasoning Supervision for Self-Evolving Large Multimodal Models

Meghana Sunil, Manikandarajan Venmathimaran, Muthu Subash Kavitha

7/10 2026-01-09 cs.CL PDF

近期研究表明，大型多模态模型（LMMs）可以通过自我博弈和内在反馈从未标记数据中自我提升。然而现有自演化框架主要奖励最终结果，而忽视了中间推理过程的重要性。本文提出iReasoner，一种通过显式引导链式推理（CoT）并奖励其内部一致性来增强LMM隐式推理能力的自演化框架。在未标记图像上的提议者-求解者循环中，iReasoner将结果级别的内在奖励与基于中间推理步骤的轨迹感知信号相结合，在无真实标签或外部评判者的前提下，提供区分导致相同答案的不同推理路径的学习信号。从Qwen2.5-VL-7B出发，iReasoner在完全无监督的后训练中，在多种多模态推理基准测试中提升了高达+2.1分。希望本工作能为纯无监督环境下LMM的推理感知型自我改进奠定基础。

多模态模型自演化推理路径内在反馈

论文涉及Agent在自我演化过程中对中间推理路径的显式建模，与记忆机制相关。

多语言健忘症：关于多语言LLM中遗忘的可迁移性

Multilingual Amnesia: On the Transferability of Unlearning in Multilingual LLMs

Alireza Dehghanpour Farashah, Aditi Khandelwal, Marylou Fauchard, Zhuan Shi, Negar Rostamzadeh et al.

7/10 2026-01-09 cs.CL PDF

随着多语言大型语言模型的广泛应用，确保其在不同语言环境下的安全性和公平性面临独特挑战。现有研究主要集中在单语环境下（通常是英语）的机器遗忘，而多语言环境因跨语言知识迁移和预训练及微调数据中的偏见引入了额外复杂性。本文使用Aya-Expanse 8B模型，在两种设置下研究多语言遗忘：(1) 数据遗忘和 (2) 概念遗忘。我们将事实知识和刻板印象基准扩展到十种语言，包括英语、法语、阿拉伯语、日语、俄语、波斯语、韩语、印地语、希伯来语和印尼语，这些语言覆盖五个语系并涵盖资源水平广泛。实验表明，高资源语言的遗忘通常更稳定，并且在类型学相关的语言之间观察到不对称的迁移效应。此外，我们的语言距离分析表明，句法相似性是跨语言遗忘行为的最强预测因素。

多语言模型遗忘机制跨语言迁移语言资源差异

论文研究多语言模型中的遗忘机制，涉及概念和数据的遗忘，与Agent Memory相关。

CTHA：用于稳定多智能体LLM系统的约束时序分层架构

CTHA: Constrained Temporal Hierarchical Architecture for Stable Multi-Agent LLM Systems

Percy Jardine

7/10 2026-01-09 cs.AI PDF

近期，多时间尺度的智能体架构通过引入具有不同认知层次的时序分层，扩展了普遍的单循环范式。尽管带来了显著的性能提升，但这种多样化从根本上削弱了统一智能体系统内在的协调稳定性，导致严重的层间冲突、无界误差传播和可扩展性受限。为了解决这些问题，我们提出了约束时序分层架构（CTHA），一种通用框架，将层间通信空间投影到结构化流形上以恢复协调稳定性，并结合原理化的仲裁机制以确保决策一致性。具体而言，CTHA强制实施三个关键约束：(1) 消息契约约束，通过类型化的摘要、计划和策略数据包形式化层间信息流；(2) 权限流形约束，根据其时间范围限制每一层的决策空间；(3) 仲裁者解析约束，保证多层决策的无冲突组合。实验结果表明，CTHA在大规模复杂任务执行中表现有效，相比无约束分层基线减少了47%的故障级联，样本效率提高了2.3倍，并展现出更优越的可扩展性。我们预期CTHA作为对时序分层的原理性扩展，将有助于深入理解多智能体协调，并为鲁棒自主系统的演化提供有前景的方向。

多智能体系统时序分层协调稳定性决策仲裁

论文涉及多智能体系统的层级架构与协调稳定性，间接关联到记忆机制的设计与约束。

文本作为可迁移个性化通用接口

Text as a Universal Interface for Transferable Personalization

Yuting Liu, Jian Guan, Jia-Nan Li, Wei Wu, Jiang-Ming Yang et al.

7/10 2026-01-08 cs.CL PDF

本文研究大语言模型（LLM）中的个性化问题。现有工作多将用户偏好表示为隐式的、模型特定的向量或参数，导致难以解释和跨模型/任务迁移的“黑盒”画像。作者主张采用自然语言作为通用、与模型和任务无关的偏好表示接口，从而生成可解释、可复用且能随新交互持续演化的偏好描述。为此，提出两阶段训练框架：结合高质量合成数据的监督微调与强化学习，以优化长期效用和跨任务可迁移性，并构建AlignXplore+模型生成文本化偏好摘要。在九个基准上的实验表明，该8B模型性能超越更大规模开源模型，并展现出强跨任务、跨模型族及跨交互格式的迁移能力。

Agent Memory Personalization

提出用自然语言作为可迁移、可解释的偏好记忆表示，属于Agent Memory的重要应用。

ESearch-R1：基于强化学习的成本感知多模态大语言模型智能体用于交互式具身搜索

ESearch-R1: Learning Cost-Aware MLLM Agents for Interactive Embodied Search via Reinforcement Learning

Weijie Zhou, Xuangtang Xiong, Ye Tian, Lijun Yue, Xinyu Wu et al.

7/10 2025-12-21 cs.AI PDF

多模态大语言模型（MLLM）显著提升了具身智能体在规划与推理方面的能力。然而，在面对模糊自然语言指令（如“取工具”）时，现有智能体难以平衡物理探索的高成本与人类交互的认知成本，通常将消歧视为被动感知问题，缺乏最小化总任务执行成本的策略性推理。为此，本文提出ESearch-R1——一种成本感知的具身推理框架，将交互对话（Ask）、情景记忆检索（GetMemory）和物理导航（Navigate）统一为单一决策过程，并引入异构成本感知分组相对策略优化算法（HC-GRPO），通过采样多条推理轨迹并强化那些在信息增益与异构成本（如导航时间、人类注意力）之间取得最优权衡的轨迹来优化MLLM。在AI2-THOR环境中的大量实验表明，ESearch-R1显著优于标准ReAct智能体，在提升任务成功率的同时将总操作成本降低约50%。

具身智能情景记忆多模态大语言模型强化学习

论文将情景记忆检索作为核心决策模块之一，但重点在于成本感知的交互式搜索框架。

KLong：训练用于极端长时序任务的LLM代理

KLong: Training LLM Agent for Extremely Long-horizon Tasks

Yue Liu, Zhiyuan Hu, Flood Sung, Jiaheng Zhang, Bryan Hooi

6/10 2026-02-19 cs.AI PDF

本文介绍了KLong，一个开源的LLM代理，专门用于解决极端长时序任务。其原理是首先通过轨迹分割的监督微调（SFT）进行冷启动，然后通过渐进式强化学习（RL）进行扩展。具体而言，我们首先使用全面的SFT方案激活基础模型的基本代理能力。随后，我们引入Research-Factory，一个自动化流程，通过收集研究论文和构建评估标准生成高质量的训练数据。利用该流程，我们构建了数千条从Claude 4.5 Sonnet（Thinking）中提炼出的长时序轨迹。为了使用这些极端长时序轨迹进行训练，我们提出了一种新的轨迹分割SFT方法，保留早期上下文，逐步截断后期上下文，并保持子轨迹之间的重叠。此外，为了进一步提升长时序任务解决能力，我们提出了一种新颖的渐进式RL方法，将训练分为多个阶段，逐步延长超时时间。实验表明，KLong在性能和泛化能力上表现出色，如图1所示。值得注意的是，我们提出的KLong（106B）在PaperBench上超越了Kimi K2 Thinking（1T）11.28%，且性能提升也推广到了其他编码基准测试如SWE-bench Verified和MLE-bench。

LLM Agent 长时序任务强化学习监督微调轨迹分割

论文涉及长时序任务处理，与Agent Memory相关，但非核心研究主题。

通过可重用性和可验证性评估思维链推理

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability

Shashank Aggarwal, Ram Vikas Mishra, Amit Awekar

Shashank Aggarwal (Indian Institute of TechnologyGuwahatiAssamIndia) | Ram Vikas Mishra (Indian Institute of TechnologyGuwahatiAssamIndia) | Dr. Amit Awekar (Indian Institute of TechnologyGuwahatiAssamIndia)

6/10 2026-02-19 cs.AI PDF

在多智能体信息检索（IR）流程中，基于LLM的代理通过思维链（Chain-of-Thought, CoT）进行中间推理的交换。当前对CoT的评估主要关注目标任务的准确性，但这一指标无法衡量推理过程本身的质量或实用性。为解决这一局限，本文引入了两个新的度量标准：可重用性和可验证性。通过Thinker-Executor框架将CoT生成与执行解耦，可重用性衡量Executor能否轻松复用Thinker的CoT，而可验证性衡量Executor能否通过CoT匹配Thinker的答案。我们在五个基准测试中评估了四种Thinker模型与十个Executor模型的组合。结果表明，可重用性和可验证性与标准准确性无显著相关性，揭示了当前基于准确性的推理能力排行榜的盲点。令人意外的是，专门用于推理的模型生成的CoT并不比通用LLM（如Llama和Gemma）生成的CoT更具可重用性或可验证性。

Chain-of-Thought Agent Communication Reasoning Evaluation

论文涉及CoT的可重用性和可验证性，与Agent Memory中的信息传递和存储相关。

AIDG：评估多轮对话中信息抽取与信息包含之间的不对称性

AIDG: Evaluating Asymmetry Between Information Extraction and Containment in Multi-Turn Dialogue

Adib Sakhawat, Fardeen Sadab, Rakin Shahriar

6/10 2026-02-19 cs.CL PDF

评估大型语言模型（LLMs）的战略推理能力需要超越静态基准，转向动态、多轮交互。我们引入了AIDG（对抗性信息推断游戏），一个博弈论框架，用于探测对话中信息抽取（主动推断）与信息包含（状态维护）之间的不对称性。我们提出了两个互补任务：AIDG-I，测量社交推断中的实用策略；AIDG-II，测量结构化“20个问题”设置中的约束满足。在439场游戏中，使用六种前沿LLM进行测试，观察到明显的能力建设不对称性：模型在信息包含方面表现显著优于信息推断，防御方面具有350 ELO的优势（Cohen's d = 5.47）。我们识别出导致这一差距的两个瓶颈：（1）信息动态，其中确认策略比盲目推断有效7.75倍（p < 0.00001），以及（2）约束遵循，在对话负载下指令遵循能力下降，占推断失败的41.3%。这些发现表明，尽管LLMs在局部防御一致性方面表现出色，但在战略调查所需的全局状态跟踪方面存在困难。

信息抽取状态维护 LLM评估多轮对话博弈论

论文探讨了对话中信息提取与信息保持的不对称性，涉及状态维护，与Agent Memory相关。

MedClarify：一种用于医学诊断的信息寻求AI代理，能够生成针对具体病例的后续问题

MedClarify: An information-seeking AI agent for medical diagnosis with case-specific follow-up questions

Hui Min Wong, Philip Heesen, Pascal Janetzky, Martin Bendszus, Stefan Feuerriegel

6/10 2026-02-19 cs.AI PDF

大型语言模型（LLMs）在医学诊断任务中的应用日益增多。在临床实践中，正确的诊断通常不能仅从初始患者表现中直接得出，而需要通过系统性的病史采集过程，通过迭代提问来排除多种潜在疾病并解决不确定性。然而，目前医学LLMs在生成具有信息量的后续问题以支持诊断推理方面仍研究不足。本文提出MedClarify，这是一种信息寻求的AI代理，能够生成后续问题以支持诊断决策。MedClarify首先计算一组候选诊断（类似于鉴别诊断），然后主动生成旨在减少诊断不确定性的后续问题。通过选择预期信息增益最高的问题，MedClarify实现了有针对性、关注不确定性的推理，从而提高诊断性能。实验表明，当前LLMs在医学推理中存在局限性，尤其是在患者病例不完整或缺乏关键诊断信息时，常常产生多个可能性相近的诊断结果。而本文的信息论推理方法可以有效生成后续问题，将诊断错误率降低了约27个百分点。总体而言，MedClarify为通过代理式信息获取提升医学LLMs提供了新路径，并促进与医学LLMs的有效对话，反映真实临床推理的迭代和不确定性特点。

医学诊断信息获取 LLM代理鉴别诊断不确定性推理

论文涉及基于信息获取的诊断推理，与Agent Memory相关但非核心主题。

ReIn：基于推理起始的对话错误恢复

ReIn: Conversational Error Recovery with Reasoning Inception

Takyoung Kim, Jinseok Nam, Chandrayee Basu, Xing Fan, Chengyuan Ma et al.

6/10 2026-02-19 cs.CL PDF

由大型语言模型驱动并集成工具的对话代理在固定任务导向型数据集上表现出色，但在面对用户引发的意外错误时仍存在脆弱性。本文不关注错误预防，而是专注于错误恢复，需要准确诊断错误对话上下文并执行适当的恢复计划。在无法进行模型微调或提示修改的现实约束下，本文探索代理是否能从上下文有缺陷的交互中恢复，并如何在不改变模型参数和提示的情况下调整其行为。为此，本文提出了一种测试时干预方法——推理起始（ReIn），通过在代理的决策过程中植入初始推理来实现错误恢复。具体而言，一个外部起始模块识别对话上下文中的预定义错误并生成恢复计划，随后将其整合到代理的内部推理过程中以指导纠正操作，而无需修改其参数或系统提示。通过系统模拟直接阻碍用户目标完成的对话失败场景（如用户的模糊和不支持请求），ReIn显著提升了任务成功率，并泛化到未见过的错误类型。此外，它始终优于显式提示修改方法，证明其作为高效、实时方法的实用性。对其运行机制的深入分析表明，结合ReIn共同定义恢复工具可作为一种安全有效的策略，用于提高对话代理的鲁棒性，而无需修改主干模型或系统提示。

对话代理错误恢复推理起始非参数调整

论文探讨了对话代理的错误恢复机制，涉及记忆诊断与恢复计划生成，但未直接聚焦于Memory机制本身。

通过结构化模板注入实现代理劫持的自动化

Automating Agent Hijacking via Structural Template Injection

Xinhao Deng, Jiaqing Wu, Miao Chen, Yue Xiao, Ke Xu et al.

Xinhao Deng (Tsinghua University & Ant GroupHangzhouChina) | Jiaqing Wu (Tsinghua UniversityBeijingChina) | Miao Chen (Zhongguancuan LaboratoryBeijingChina)

6/10 2026-02-18 cs.AI PDF

代理劫持被OWASP列为对大型语言模型（LLM）生态系统的关键威胁，攻击者可通过向检索内容中注入恶意指令来操控执行。现有攻击多依赖人工设计的语义驱动提示操纵，成功率低且难以迁移到闭源商业模型。本文提出Phantom框架，基于结构化模板注入，针对LLM代理的基本架构机制。其关键洞察是代理依赖特定聊天模板标记来区分系统、用户、助手和工具指令。通过在检索上下文中注入优化的结构化模板，诱导角色混淆，使代理将注入内容误认为合法用户指令或先前工具输出。为提高对黑盒代理的攻击迁移性，Phantom引入了新的攻击模板搜索框架，包括多级模板增强、模板自编码器（TAE）以及贝叶斯优化。实验表明，该框架在攻击成功率（ASR）和查询效率上显著优于现有基线，并发现多个实际商业产品中的漏洞。

Agent Hijacking Template Injection LLM Security Attack Framework

论文涉及通过结构化模板注入影响Agent行为，与Memory机制相关但非核心。

LLM4Cov: 基于执行感知的智能体学习用于高覆盖率测试平台生成

LLM4Cov: Execution-Aware Agentic Learning for High-coverage Testbench Generation

Hejia Zhang, Zhongming Yu, Chia-Tung Ho, Haoxing Ren, Brucek Khailany et al.

6/10 2026-02-18 cs.AI PDF

执行感知的LLM智能体为从工具反馈中学习提供了一种有前景的范式，但由于此类反馈通常昂贵且获取缓慢，使得在线强化学习（RL）难以实施。高覆盖率的硬件验证正是这一挑战的典型例子，因为它依赖工业模拟器和非微分执行信号。我们提出了LLM4Cov，一种离线智能体学习框架，将验证建模为由确定性评估器引导的记忆状态转移。在此基础上，我们引入了执行验证的数据整理、策略感知的智能体数据合成以及最差状态优先采样，以在执行约束下实现可扩展的学习。我们进一步通过修订的评估协议，从现有验证套件中构建了一个现实对齐的基准。使用所提出的流程，一个紧凑的4B参数模型在智能体评估下实现了69.2%的覆盖率通过率，比其教师模型高出5.3%，并表现出与更大一数量级模型相当的竞争性能。

LLM Agent Learning Testbench Generation Verification Offline Reinforcement Learning

论文涉及基于执行反馈的代理学习，与Agent Memory相关但非核心主题。

LLM-WikiRace：在真实世界知识图谱上评估长期规划与推理的基准测试

LLM-WikiRace: Benchmarking Long-term Planning and Reasoning over Real-World Knowledge Graphs

Juliusz Ziomek, William Bankes, Lorenz Wolf, Shyam Sundhar Ramesh, Xiaohang Tang et al.

6/10 2026-02-18 cs.AI PDF

本文介绍了LLM-Wikirace，一个用于评估大型语言模型（LLMs）规划、推理和世界知识能力的基准测试。在LLM-Wikirace中，模型必须逐步高效地通过维基百科超链接从给定源页面导航到目标页面，这需要前瞻规划和对现实世界中概念连接关系的推理能力。我们评估了包括Gemini-3、GPT-5和Claude Opus 4.5在内的多种开源和闭源模型，这些模型在任务的简单级别上表现优异，但在困难级别上性能显著下降。分析表明，世界知识是成功的关键因素之一，但超过一定阈值后，规划和长时程推理能力成为主导因素。轨迹级分析进一步揭示，即使是最强的模型在失败后也难以重新规划，常陷入循环而非恢复。LLM-Wikirace是一个简单的基准测试，揭示了当前推理系统的明显局限性，为具备规划能力的LLMs提供了一个开放的竞技场。

LLM 规划推理知识图谱基准测试

论文涉及长期规划和推理，与Agent Memory相关，但非核心主题。

无需持续监督的代理：挑战与机遇

Overseeing Agents Without Constant Oversight: Challenges and Opportunities

Madeleine Grunde-McLaughlin, Hussein Mozannar, Maya Murad, Jingya Chen, Saleema Amershi et al.

Madeleine Grunde-McLaughlin (University of WashingtonUnited States) | Hussein Mozannar (Microsoft ResearchUnited States) | Maya Murad (Microsoft ResearchUnited States)

6/10 2026-02-18 cs.HC PDF

为了实现人类对代理AI系统的监督，通常会提供推理和行动步骤的记录。设计具有信息量但不过于繁杂的记录仍是一个关键挑战。通过三个关于计算机用户代理的用户研究，我们调查了基本行动记录在验证中的效用，探索了三种替代方案，并测试了一种新型界面在问答任务中发现错误的影响。如预期所见，当前的做法较为繁琐，限制了其有效性。然而，我们提出的方案减少了参与者寻找错误所花费的时间。尽管参与者报告了更高的决策信心，但最终准确性并未显著提高。因此，我们的研究揭示了代理系统的人类验证面临的挑战，包括管理内置假设、用户的主观且变化的正确性标准，以及传达代理过程的重要性与不足。

Agent监督行动痕迹设计人机交互验证机制

论文探讨了代理系统中人类监督的挑战，涉及行动痕迹的设计与信息传达，与Agent Memory相关但非核心。

用于安全智能体系统的策略编译器

Policy Compiler for Secure Agentic Systems

Nils Palumbo, Sarthak Choudhary, Jihye Choi, Prasad Chalasani, Mihai Christodorescu et al.

6/10 2026-02-18 cs.CR PDF

基于LLM的智能体越来越多地部署在需要复杂授权策略的场景中，如客户服务协议、审批流程和数据访问限制等。将这些策略嵌入提示词中无法提供强制执行的保证。本文提出PCAS（用于智能体系统的策略编译器），通过确定性策略执行来解决这一问题。PCAS通过依赖图建模智能体系统状态，捕捉事件之间的因果关系，如工具调用、工具结果和消息。策略以Datalog衍生语言表达，声明式规则考虑了传递信息流和跨智能体来源。参考监控器拦截所有操作，在执行前阻止违规行为，实现独立于模型推理的确定性执行。PCAS将现有智能体实现与策略规范编译为符合策略的系统，无需特定安全重构。在三个案例研究中评估PCAS，包括针对提示注入防御的信息流策略、多智能体药物警戒系统中的审批流程以及客户服务的组织策略。在客户服务任务中，PCAS将前沿模型的策略合规性从48%提升至93%，且在受控运行中无策略违规。

智能体系统策略执行信息流追踪安全机制

论文涉及Agent系统状态建模与信息流追踪，与Memory相关但非核心主题。

思维框架：基于链、树和图的动态和优化推理基础框架

Framework of Thoughts: A Foundation Framework for Dynamic and Optimized Reasoning based on Chains, Trees, and Graphs

Felix Fricke, Simon Malberg, Georg Groh

6/10 2026-02-18 cs.AI PDF

诸如思维链（Chain of Thought）、思维树（Tree of Thoughts）和思维图（Graph of Thoughts）等提示方案可以显著增强大语言模型的推理能力。然而，大多数现有方案要求用户定义静态且问题特定的推理结构，缺乏对动态或未见过的问题类型的适应性。此外，这些方案在超参数、提示、运行时间和提示成本方面通常未得到充分优化。为了解决这些限制，我们引入了思维框架（FoT）——一种通用的基础框架，用于构建和优化动态推理方案。FoT内置超参数调优、提示优化、并行执行和智能缓存等功能，释放推理方案的潜在性能。我们通过在FoT中实现三种流行的方案——思维树、思维图和ProbTree，展示了FoT的能力。实证研究表明，FoT能够显著加快执行速度，降低成本，并通过优化获得更好的任务得分。我们发布了代码库，以促进未来动态高效推理方案的发展。

推理框架动态推理提示工程 LLM优化

论文涉及动态推理框架，与Agent Memory相关，但未直接研究记忆机制。

从增长到循环：LLMs中迭代计算的统一视角

From Growing to Looping: A Unified View of Iterative Computation in LLMs

Ferdinand Kapl, Emmanouil Angelis, Kaitlin Maile, Johannes von Oswald, Stefan Bauer

6/10 2026-02-18 cs.CL PDF

循环（重复使用某层块）和深度增长（通过复制中间层训练浅至深模型）均被发现能提升推理能力，但其关系尚不明确。本文提供了一种机制性统一：循环和深度增长模型在深度方向上表现出收敛特征，包括对后期层的依赖增加以及与循环或增长块一致的重复模式。这些共享特征支持了它们的增益源于共同形式的迭代计算的观点。基于这一联系，我们展示了这两种技术具有适应性和可组合性：在推理时对深度增长模型的中间块进行循环操作，可在某些推理原语上将准确率提高2倍，尽管该模型从未被训练过循环。两种方法在获得更多上下文示例或额外监督微调数据时也比基线表现更好。此外，当使用高质量、数学密集型的冷却混合数据时，深度增长模型获得最大的推理增益，并可通过适配中间块循环进一步增强。总体而言，我们的结果将深度增长和循环定位为互补且实用的方法，用于诱导和扩展迭代计算以提升推理能力。

LLM 迭代计算深度增长循环结构推理优化

论文探讨了迭代计算机制，与Agent Memory中的循环和深度扩展相关，但非核心主题。

使用LLM代理进行基于方面的情感分析的标签一致数据生成

Label-Consistent Data Generation for Aspect-Based Sentiment Analysis Using LLM Agents

Mohammad H. A. Monfared, Lucie Flek, Akbar Karimi

6/10 2026-02-18 cs.CL PDF

本文提出了一种基于代理的数据增强方法，用于基于方面的情感分析（ABSA），通过迭代生成和验证来生成高质量的合成训练样本。为了隔离代理结构的影响，还开发了一个与之紧密匹配的基于提示的基线方法，使用相同的模型和指令。两种方法在三个ABSA子任务（方面术语提取、方面情感分类和方面情感对提取）、四个SemEval数据集以及两个编码器-解码器模型（T5-Base和Tk-Instruct）上进行了评估。结果表明，代理增强方法在增强数据的标签保留方面优于原始提示方法，尤其是在需要生成方面术语的任务中。此外，当与真实数据结合时，代理增强方法提供了更高的增益，并始终优于基于提示的生成方法。这些优势在T5-Base上最为明显，而预训练程度更高的Tk-Instruct则表现出较小的改进。因此，增强数据帮助T5-Base实现了与其对应模型相当的性能。

LLM Agent 数据增强 ABSA T5-Base Tk-Instruct

论文涉及LLM Agent在数据生成中的应用，但未直接探讨Agent Memory机制。

过于热心：衡量多轮、多语言LLM代理中的非法协助

Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents

Nivya Talokar, Ayush K Tarun, Murari Mandal, Maksym Andriushchenko, Antoine Bosselut

6/10 2026-02-18 cs.CL PDF

基于LLM的代理通过工具和记忆执行现实世界的工作流程。这些功能使恶意对手也能利用这些代理实施复杂的滥用场景。现有的代理滥用基准主要测试单次提示指令，未能衡量代理在多轮对话中如何逐步协助有害或非法任务。我们引入了STING（非法N步目标执行的顺序测试），这是一个自动化的红队框架，通过构建基于良性角色的逐步非法计划，并使用判断代理跟踪阶段完成情况，对目标代理进行自适应后续探测。我们还提出了一种分析框架，将多轮红队测试建模为首次越狱时间的随机变量，支持发现曲线、按攻击语言划分的危害比归因等分析工具，并引入了一个新指标：受限平均越狱发现。在AgentHarm场景中，STING在非法任务完成率上显著高于单轮提示和面向聊天的多轮基线方法。在六种非英语设置的多语言评估中，我们发现攻击成功率和非法任务完成率在低资源语言中并未一致增加，这与常见聊天机器人的发现不同。总体而言，STING提供了一种实用的方法，在真实部署环境中评估和压力测试代理的滥用行为，其中交互本质上是多轮且常常多语言的。

LLM Agent 滥用检测多轮对话红队测试多语言

论文涉及多轮对话中LLM Agent的滥用问题，与记忆机制相关但非核心。

HiPER：用于大型语言模型代理的具有显式信用分配的分层强化学习

HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents

Jiangweizhi Peng, Yuanxin Liu, Ruida Zhou, Charles Fleming, Zhaoran Wang et al.

6/10 2026-02-18 cs.LG PDF

将大型语言模型（LLMs）训练为能够进行多轮决策的交互式代理仍然具有挑战性，尤其是在稀疏且延迟奖励的长期任务中，代理必须执行一系列动作后才能获得有意义的反馈。现有的大多数强化学习（RL）方法将LLM代理建模为单一时间尺度上的扁平策略，每次仅选择一个动作。在稀疏奖励环境下，这种扁平策略需要在整个轨迹上传播信用，而没有显式的时序抽象，这通常会导致优化不稳定和信用分配效率低下。本文提出HiPER，一种新颖的分层计划-执行RL框架，明确地将高层规划与低层执行分离。HiPER将策略分解为一个高层规划器（提出子目标）和一个低层执行器（通过多个动作步骤实现这些子目标）。为了与这一结构对齐，我们引入了一种关键技术——分层优势估计（HAE），它在规划和执行层面仔细分配信用。通过聚合每个子目标执行过程中的回报，并协调两个层级的更新，HAE提供了一个无偏梯度估计器，并且相比扁平化的广义优势估计，其方差可被证明更小。实验表明，HiPER在具有挑战性的交互基准测试中表现优异，在ALFWorld上达到97.4%的成功率，在WebShop上达到83.3%（使用Qwen2.5-7B-Instruct，分别比最佳先前方法提高6.6%和8.3%），尤其在需要多个依赖子任务的长期任务中表现出显著提升。这些结果突显了显式分层分解对于可扩展的多轮LLM代理强化学习训练的重要性。

强化学习分层规划信用分配 LLM代理长期任务

论文涉及多步骤决策中的信用分配问题，与Agent Memory在长期任务中的信息存储和利用相关。

面向可扩展的LLM基于人类移动性模拟的移动性感知缓存框架

Mobility-Aware Cache Framework for Scalable LLM-Based Human Mobility Simulation

Hua Yan, Heng Tan, Yingxue Zhang, Yu Yang

Hua Yan (Lehigh UniversityBethlehemUSA) | Heng Tan (Lehigh UniversityBethlehemUSA) | Yingxue Zhang (State University of New York at BinghamtonBinghamtonUSA)

6/10 2026-02-17 cs.AI PDF

大规模人类移动性模拟在城市规划、流行病学和交通分析等应用中具有重要意义。近期研究将大语言模型（LLMs）作为人类智能体，通过结构化推理模拟真实移动行为，但其高计算成本限制了可扩展性。为解决这一问题，本文设计了一种名为MobCache的移动性感知缓存框架，利用可重构缓存实现高效的大型人类移动性模拟。该框架包含两个部分：(1) 推理组件，将每个推理步骤编码为潜在空间嵌入，并使用潜在空间评估器实现推理步骤的重用与重组；(2) 解码组件，采用轻量级解码器并通过受移动规律约束的蒸馏训练，将潜在空间推理链转换为自然语言，从而在保持保真度的同时提高模拟效率。实验表明，MobCache在多个维度上显著提升了效率，同时性能与最先进的LLM方法相当。

LLM Human Mobility Simulation Cache Framework Efficiency Optimization

论文提出了一种基于缓存的框架，涉及推理步骤的重用与重组，与Agent Memory相关但非核心主题。

GLM-5：从氛围编码到智能体工程

GLM-5: from Vibe Coding to Agentic Engineering

GLM-5 Team, :, Aohan Zeng, Xin Lv, Zhenyu Hou et al.

6/10 2026-02-17 cs.LG PDF

我们提出了GLM-5，这是一种下一代基础模型，旨在将氛围编码的范式转变为智能体工程。在继承前代模型在智能体、推理和编码（ARC）能力的基础上，GLM-5采用DSA方法显著降低训练和推理成本，同时保持长上下文的准确性。为了推进模型对齐和自主性，我们实现了一种新的异步强化学习基础设施，通过解耦生成与训练过程，大幅提升了后训练效率。此外，我们还提出了新颖的异步智能体强化学习算法，进一步提高了RL质量，使模型能够更有效地从复杂、长时域的交互中学习。通过这些创新，GLM-5在主要开放基准测试中取得了最先进的性能。最关键的是，GLM-5在现实世界的编码任务中表现出前所未有的能力，在处理端到端软件工程挑战方面超越了之前的基线模型。

强化学习智能体工程异步训练代码生成

论文提及Agent相关能力，但未明确讨论Memory机制或系统。

Code

ChartEditBench: 评估多模态语言模型中基于场景的多轮图表编辑

ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models

Manav Nitin Kapadnis, Lawanya Baghel, Atharva Naik, Carolyn Rosé

6/10 2026-02-17 cs.CL PDF

尽管多模态大语言模型（MLLMs）在单轮图表生成任务中表现优异，但其在支持真实世界探索性数据分析方面仍缺乏研究。实际应用中，用户通过多轮交互逐步优化可视化结果，这需要维持共同语境、跟踪先前修改并适应不断变化的偏好。本文提出ChartEditBench，一个基于代码的增量式、视觉导向的图表编辑基准测试集，包含5000个难度可控的修改链和严格人工验证的子集。与以往的一次性基准不同，ChartEditBench评估持续且具有上下文感知能力的编辑性能。我们进一步提出一种稳健的评估框架，通过结合执行准确性检查、像素级视觉相似度和逻辑代码验证，克服LLM-as-a-Judge指标的局限性。实验表明，当前最先进的MLLMs在多轮设置中因错误累积和共享上下文失效而性能显著下降，虽然在风格编辑上表现良好，但在数据驱动的转换任务中频繁出现执行失败。ChartEditBench为基于意图的多模态编程提供了一个具有挑战性的测试平台。

多模态语言模型图表编辑多轮交互上下文保持评估基准

论文涉及多轮交互中保持上下文一致性，与Agent Memory相关但非核心主题。

面向终身可扩展多智能体真实测试平台及对终身AGV车队管理系统设计选择的全面研究

Lifelong Scalable Multi-Agent Realistic Testbed and A Comprehensive Study on Design Choices in Lifelong AGV Fleet Management Systems

Jingtian Yan, Yulun Zhang, Zhenting Liu, Han Zhang, He Jiang et al.

Yulun Zhang (Carnegie Mellon University)

6/10 2026-02-17 cs.RO PDF

本文提出了Lifelong Scalable Multi-Agent Realistic Testbed (LSMART)，一个开源模拟器，用于在配备自动导引车（AGVs）的车队管理系统（FMS）中评估任何多智能体路径寻找（MAPF）算法。MAPF的目标是将一组智能体从各自的起点移动到目标位置。而终身MAPF（LMAPF）则是一个变种，它持续为智能体分配新的目标。现有的MAPF和LMAPF研究通常假设简化的运动学模型以及完美的执行和通信。先前的工作提出了SMART，一个能够考虑智能体运动学、通信延迟和执行不确定性来评估MAPF算法的软件。然而，SMART仅适用于MAPF，而非LMAPF。将SMART推广至FMS需要更多的设计选择，包括何时进行规划、如何处理不同优化程度的规划器以及如何应对规划失败等问题。本文首先介绍了LSMART，一个包含这些考虑因素的开源模拟器，用于评估FMS中的MAPF算法。随后，基于最先进的方法对每个设计选择进行了实验分析，为有效设计集中式终身AGV车队管理系统提供了指导。

多智能体路径规划终身学习车队管理仿真系统

论文涉及长期任务中的路径规划与系统设计，与Agent Memory有一定关联，但非核心。

Code

EAA：使用视觉语言模型代理自动化材料表征

EAA: Automating materials characterization with vision language model agents

Ming Du, Yanqi Luo, Srutarshi Banerjee, Michael Wojcik, Jelena Popovic et al.

6/10 2026-02-17 cs.AI PDF

本文提出了实验自动化代理（EAA），一种基于视觉语言模型的智能代理系统，旨在自动化复杂的显微实验流程。EAA集成了多模态推理、工具增强动作以及可选的长期记忆功能，以支持自主操作和用户引导的交互式测量。该系统基于灵活的任务管理架构，能够实现从完全由代理驱动的自动化到嵌入局部LLM查询的逻辑定义流程。此外，EAA提供了一个现代工具生态系统，具备与模型上下文协议（MCP）双向兼容的能力，使仪器控制工具可以在不同应用中被调用或服务。我们在先进光子源的成像光束线上展示了EAA的应用，包括自动区域板聚焦、自然语言描述的特征搜索以及交互式数据采集。这些结果表明，具备视觉能力的代理可以提高光束线效率，减轻操作负担，并降低用户的专业知识门槛。

Agent系统视觉语言模型长期记忆实验自动化

论文提及了可选的长期记忆模块，但并非研究核心，属于相关但非关键主题。

不完全记忆下的决策：算法与基准测试

Decision Making under Imperfect Recall: Algorithms and Benchmarks

Emanuel Tewolde, Brian Hu Zhang, Ioannis Anagnostides, Tuomas Sandholm, Vincent Conitzer

6/10 2026-02-16 cs.GT PDF

在博弈论中，不完全记忆决策问题建模了代理遗忘先前信息的情况，包括如“健忘司机”和有限通信团队游戏等场景。本文首次引入了一个用于不完全记忆决策问题的基准测试套件，涵盖隐私保护、AI安全等多个问题类型。通过61个实例评估不同算法在寻找最优策略中的表现，特别提出了一类无参数的遗憾匹配（RM）算法，并发现其在大规模约束优化问题中显著优于传统方法。

Agent Memory Imperfect Recall Optimization Algorithms Game Theory Benchmark Testing

论文涉及不完全记忆决策问题，与Agent Memory相关，但非核心主题。

ReusStdFlow：面向Agentic AI动态工作流构建的标准化可重用性框架

ReusStdFlow: A Standardized Reusability Framework for Dynamic Workflow Construction in Agentic AI

Gaoyang Zhang, Shanghong Zou, Yafang Wang, He Zhang, Ruohua Xu et al.

6/10 2026-02-16 cs.AI PDF

为了解决企业级Agentic AI中的“可重用性困境”和结构幻觉问题，本文提出ReusStdFlow框架，该框架基于新颖的“提取-存储-构建”范式。该框架将异构、平台特定的领域专用语言（DSL）解构为标准化、模块化的工作流片段，并采用集成图数据库和向量数据库的双知识架构，实现拓扑结构与功能语义的协同检索。最后，通过检索增强生成（RAG）策略智能组装工作流。在200个真实世界的n8n工作流上测试，系统在提取和构建任务中均达到超过90%的准确率。该框架为企业数字资产的自动化重组和高效重用提供了标准化解决方案。

Agent Memory 工作流构建 DSL标准化 RAG 知识检索

论文涉及工作流构建与知识存储，与Agent Memory相关但非核心主题。

选择合适的专家：基于注意力神经过程的任务专用模型选择方法用于智能医疗系统

Picking the Right Specialist: Attentive Neural Process-based Selection of Task-Specialized Models as Tools for Agentic Healthcare Systems

Pramit Saha, Joshua Strong, Mohammad Alsharid, Divyanshu Mishra, J. Alison Noble

6/10 2026-02-16 cs.LG PDF

任务专用模型是智能医疗系统的核心组成部分，使代理能够回答包括疾病诊断、定位和报告生成在内的临床问题。然而，对于给定任务，通常不存在单一的最佳模型。实际上，每个任务更适合由多个竞争的专家模型来处理，不同模型在不同的数据样本上表现优异。因此，对于任何给定的查询，代理必须可靠地从异构的工具候选池中选择合适的专家模型。为此，我们引入了ToolSelect，通过最小化采样专家工具候选的群体风险，使用一致的条件选择损失替代函数，自适应地学习工具选择。具体而言，我们提出了一种基于注意力神经过程的选择器，该选择器根据查询和每种模型的行为摘要，在专家模型之间进行选择。由于缺乏已有的测试平台，我们首次引入了一个智能胸部X光环境，并配备了多种任务专用模型（17种疾病检测、19种报告生成、6种视觉定位和13种视觉问答），并开发了包含1448个查询的ToolSelectBench基准。实验结果表明，ToolSelect在四种不同的任务类别中始终优于10种最先进的方法。

LLM Agent 模型选择医疗系统神经过程工具选择

论文涉及模型选择机制，与Agent Memory相关，但非核心研究内容。

代理中的过度思考循环：一种通过MCP工具的结构风险

Overthinking Loops in Agents: A Structural Risk via MCP Tools

Yohan Lee, Jisoo Jang, Seoyeon Choi, Sangyeop Kim, Seungtaek Choi

6/10 2026-02-16 cs.CL PDF

随着工具使用型LLM代理越来越多地基于文本可见的元数据（如工具名称、描述和返回信息）选择并链接第三方工具以协调实际工作负载，本文指出这种便利性带来了供应链攻击的风险。恶意MCP工具服务器可以与正常工具一同注册，并诱导代理进入过度思考循环，其中看似简单或合理的工具调用组合成循环轨迹，导致端到端的token数量和延迟增加，而单个步骤看起来并无异常。本文将此形式化为结构性过度思考攻击，区别于单纯的token冗余，并实现了跨三个服务器的14个恶意工具，触发重复、强制优化和分心行为。实验表明，该攻击在异构注册表和多个具备工具能力的模型中均能引发严重的资源放大（高达142.4倍token），并可能降低任务效果。最后发现，解码阶段的简洁性控制无法可靠防止循环的产生，因此防御应关注工具调用结构而非仅依赖token数量。

LLM Agent 工具使用安全攻击循环检测

论文涉及Agent在使用工具时可能产生的循环问题，与记忆机制中的轨迹重复相关。

多智能体喜剧俱乐部：探讨社区讨论对LLM幽默生成的影响

Multi-Agent Comedy Club: Investigating Community Discussion Effects on LLM Humor Generation

Shiwei Hong, Lingyao Li, Ethan Z. Rong, Chenxinran Shen, Zhicong Lu

6/10 2026-02-16 cs.CL PDF

先前的研究主要关注多轮交互和反馈在LLM写作中的应用，但评估仍集中在提示和局部反馈上，而在线社区的公共反馈则较少被研究。本文通过一个受控的多智能体沙盒环境，测试广播式社区讨论是否能提升单口喜剧写作的质量。在实验条件下，评论和观众的讨论内容被记录、过滤并存储为社会记忆，并在后续生成中被检索使用；而基线条件则不包含讨论。经过50轮（共250段配对独白）由五位专家根据A/B偏好和15项评分标准进行评估，结果显示讨论条件在75.6%的情况下表现更优，显著提升了创作技巧/清晰度（Δ = 0.440）和社会反应（Δ = 0.422），偶尔还增加了攻击性幽默。

多智能体系统社会记忆幽默生成 LLM评估

论文涉及社会记忆的存储与检索，用于改进生成效果，属于Agent Memory相关研究。

ST-EVO：面向生成式时空演化的多智能体通信拓扑

ST-EVO: Towards Generative Spatio-Temporal Evolution of Multi-Agent Communication Topologies

Xingjian Wu, Xvyuan Liu, Junkai Lu, Siyuan Wang, Yang Shu et al.

6/10 2026-02-16 cs.MA PDF

基于大语言模型（LLM）的多智能体系统（MAS）已成为实现协作智能的有效方法，并吸引了广泛的研究兴趣。其中，自演化的MAS作为一种更灵活和强大的技术路线，能够构建任务适应的工作流或通信拓扑，而非依赖于预定义的静态结构模板。当前的自演化MAS主要关注空间演化或时间演化范式，仅考虑单一维度的演化，未能充分激发LLMs的协作能力。本文从一个新的时空视角出发，提出ST-EVO，该方法通过基于流匹配的调度器支持对话级通信调度。为了实现精确的时空调度，ST-EVO还能够感知MAS的不确定性，并具备自我反馈能力以从积累的经验中学习。在九个基准测试中的大量实验表明，ST-EVO表现出最先进的性能，准确率提升了约5%至25%。

多智能体系统通信拓扑时空演化 LLM调度

论文涉及多智能体通信拓扑的时空演化，与Agent Memory相关但非核心主题。

Arbor：一种用于关键对话流程可靠导航的框架

Arbor: A Framework for Reliable Navigation of Critical Conversation Flows

Luís Silva, Diogo Gonçalves, Catarina Farinha, Clara Matos, Luís Ungaro

6/10 2026-02-16 cs.AI PDF

大型语言模型在高风险领域（如医疗分诊）中难以严格遵循结构化工作流。将整个决策结构编码到单一提示中的单体方法，随着提示长度增加容易出现指令遵循退化问题，包括中间迷失效应和上下文窗口溢出。为解决这一问题，本文提出Arbor框架，该框架将决策树导航分解为专门的节点级任务。决策树被标准化为边列表表示并动态检索。运行时，基于有向无环图（DAG）的编排机制迭代检索当前节点的出边，通过专用LLM调用评估有效转换，并将响应生成委托给单独的推理步骤。该框架与底层决策逻辑和模型提供商无关。在10个基础模型上使用真实临床分诊对话的标注轮次对单提示基线进行评估。Arbor将平均轮次准确率提高了29.4个百分点，减少了57.1%的每轮延迟，并实现了平均14.4倍的每轮成本降低。这些结果表明，架构分解减少了对模型内在能力的依赖，使较小模型能够匹配或超越在单提示基线下运行的较大模型。

Agent Memory 决策树 LLM优化医疗分诊系统框架

论文涉及通过分解决策流程以提高模型在复杂任务中的表现，与Agent Memory的结构化管理相关。

LongAudio-RAG：基于事件的多小时长音频问答

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser

6/10 2026-02-16 eess.AS PDF

随着工业和消费场景中长时音频数据的增多，如何高效地从多小时录音中回答自然语言问题成为挑战。现有音频-语言模型受限于上下文长度，难以处理长音频问答任务。本文提出LongAudio-RAG（LA-RAG）框架，通过检索并利用时间戳标记的声学事件检测结果，而非原始音频，来增强大语言模型（LLM）输出的准确性。该方法将多小时音频流转换为结构化的事件记录，并存储在SQL数据库中。推理时，系统解析自然语言中的时间引用、分类意图、检索相关事件，并基于这些信息生成答案。为了评估性能，作者构建了一个合成的长音频基准测试集，并展示了该方法在边缘-云端混合环境中的实际部署效果。实验表明，基于事件的结构化检索显著优于传统RAG或文本到SQL方法。

Agent Memory Retrieval-Augmented Generation Event Detection Edge-Cloud Architecture Audio Question Answering

论文涉及基于事件检索的记忆机制，但核心是问答系统而非记忆架构本身。

当OpenClaw AI代理互相教学时：Moltbook社区中的同伴学习模式

When OpenClaw AI Agents Teach Each Other: Peer Learning Patterns in the Moltbook Community

Eason Chen, Ce Guan, Ahmed Elshafiey, Zhonghao Zhao, Joshua Zekeri et al.

6/10 2026-02-16 cs.HC PDF

同伴学习是教育实践的基础，而AI代理在形成社区后也开始相互教学、分享发现并共同构建知识。本文对Moltbook这一大规模社区进行了教育数据挖掘分析，该社区拥有超过240万个AI代理参与同伴学习，发布教程、回答问题并分享新技能。通过分析28,683条帖子（过滤掉自动化垃圾信息）和138个评论线程，研究发现了真实的同伴学习行为：代理教授自己掌握的技能（某技能教程获得7.4万条评论），报告发现并参与协作解决问题。定性评论分析揭示了同伴回应模式的分类：验证（22%）、知识扩展（18%）、应用（12%）和元认知反思（7%）。AI同伴学习与人类同伴学习存在差异，如教学内容比求助内容更受关注，学习导向内容获得更高的互动率等。研究提出了六项教育AI的设计原则，并为AI代理间的同伴学习提供了首次实证描述。

AI代理同伴学习教育数据挖掘多语言学习知识共享

论文探讨了AI代理间的协作学习，涉及知识共享与记忆构建，但未直接聚焦于Agent Memory机制。

Interspeech 2026音频推理挑战赛：评估音频推理模型和代理的推理过程质量

The Interspeech 2026 Audio Reasoning Challenge: Evaluating Reasoning Process Quality for Audio Reasoning Models and Agents

Ziyang Ma, Ruiyang Xu, Yinghao Ma, Chao-Han Huck Yang, Bohan Li et al.

6/10 2026-02-15 cs.SD PDF

近期的大规模音频语言模型（LALMs）在理解能力上表现出色，但在推理过程中往往缺乏透明性。为解决这一“黑箱”问题，我们在Interspeech 2026组织了音频推理挑战赛，这是首个专门用于评估音频领域推理链质量的共享任务。该挑战引入了MMAR-Rubrics，一种新颖的实例级协议，用于评估推理链的事实性和逻辑性。比赛设有单模型和代理两个赛道，吸引了来自18个国家和地区的156支队伍参与。结果显示，当前代理系统在推理质量方面处于领先地位，利用了迭代工具协调和跨模态分析。此外，单模型通过强化学习和复杂的数据管道迅速发展。我们详细介绍了挑战的设计、方法，并对最先进的系统进行了全面分析，为可解释的音频智能提供了新的见解。

音频推理 Chain-of-Thought 代理系统可解释性多模态分析

论文涉及Agent在音频推理中的表现，提及工具协调和跨模态分析，与记忆相关但非核心。

Code

GPT-5与其他大语言模型在长短期上下文性能上的比较

GPT-5 vs Other LLMs in Long Short-Context Performance

Nima Esmi, Maryam Nezhad-Moghaddam, Fatemeh Borhani, Asadollah Shahbahrami, Amin Daemdoost et al.

6/10 2026-02-15 cs.CL PDF

随着大语言模型（LLMs）上下文窗口的显著扩展，这些模型理论上能够一次性处理数百万个token。然而，研究表明，理论容量与模型在长上下文中稳健利用信息的实际能力之间存在显著差距，尤其是在需要全面理解大量细节的任务中。本文评估了四款最先进的模型（Grok-4、GPT-4、Gemini 2.5和GPT-5）在长短期上下文任务中的表现。为此，使用了三个数据集：两个补充数据集用于检索食谱和数学问题，以及一个包含20K条社交媒体帖子的主要数据集用于抑郁症检测。结果表明，当社交媒体数据集的输入量超过5K条帖子（70K token）时，所有模型的表现显著下降，在20K条帖子时准确率降至约50-53%。值得注意的是，尽管GPT-5模型的准确性急剧下降，但其精确度仍保持在约95%，这一特性可能对抑郁症检测等敏感应用非常有效。这项研究还表明，较新的模型已基本解决了“中间丢失”问题。该研究强调了理论容量与复杂、高数据量任务实际性能之间的差距，并突出了除简单准确率外的其他指标在实际应用中的重要性。

长上下文处理模型性能评估抑郁症检测 LLM精度分析

论文探讨了LLM在长上下文任务中的性能，涉及记忆利用问题，但非核心Memory机制研究。

常数时间注意力：用于长上下文解码的Vashista稀疏注意力及指数级保证

Attention in Constant Time: Vashista Sparse Attention for Long-Context Decoding with Exponential Guarantees

Vashista Nobaub

6/10 2026-02-14 cs.AI PDF

大型语言模型在长上下文推理中大部分计算成本用于注意力机制，但实证表明只有少量token对每个查询有实质贡献。本文通过将注意力建模为键向量凸包上的投影，并分析其熵（softmax-like）松弛形式，形式化了这一现象。主要理论贡献是面稳定性定理，证明在严格互补性边距（由KKT乘子认证的支持间隙Δ）下，熵注意力集中在常数大小的活跃面上，非活跃token的总质量呈指数衰减，而活跃面的误差随温度/正则化参数线性增长。这为稀疏长上下文解码提供了安全准则，并提供了权衡准确率与计算资源的原则性方法。基于这些保证，本文引入了Vashista稀疏注意力，一种可直接替换的机制，通过分页式上下文选择策略维护每个查询的小候选集，兼容现代推理栈。在长上下文评估中，观察到稳定的常数大小有效支持、显著的时钟速度提升以及在支持间隙诊断预测范围内的质量损失最小。最后，讨论了隐私敏感和隔离环境下的部署影响，其中可互换的注意力模块可在无外部检索依赖的情况下实现可预测的延迟和成本。

注意力机制稀疏计算长上下文理论分析 LLM推理优化

论文探讨了长上下文中的注意力机制优化，与Agent Memory中高效处理上下文信息相关。

通过自适应安全上下文学习缓解LLM对齐中的安全-效用权衡

Mitigating the Safety-utility Trade-off in LLM Alignment via Adaptive Safe Context Learning

Yanbo Wang, Minzheng Wang, Jian Liang, Lu Wang, Yongcan Yu et al.

6/10 2026-02-14 cs.CR PDF

尽管推理模型在复杂推理任务中取得了显著成功，但其不断增强的能力需要严格的安全措施。对于安全对齐，核心挑战在于安全与效用之间的固有权衡。然而，现有的对齐策略通常通过上下文蒸馏构建包含显式安全规则的CoT训练数据。这种方法无意中通过规则记忆与拒绝之间的刚性关联限制了推理能力。为缓解安全-效用权衡，我们提出了自适应安全上下文学习（ASCL）框架，以在适当上下文中提升推理能力。ASCL将安全对齐建模为多轮工具使用过程，使模型能够自主决定何时咨询安全规则以及如何生成持续推理。此外，为应对强化学习过程中对规则咨询的偏好，我们引入了逆频率策略优化（IFPO）以重新平衡优势估计。通过解耦规则检索和后续推理，我们的方法相比基线实现了更高的整体性能。

安全对齐上下文学习强化学习 LLM对齐

论文涉及安全上下文学习，与Agent Memory相关但非核心主题。

永不言弃：探索可用知识对控制性物理治疗动机对话中代理说服力的影响

Never say never: Exploring the effects of available knowledge on agent persuasiveness in controlled physiotherapy motivation dialogues

Stephan Vonschallen, Rahel Häusler, Theresa Schmiedel, Friederike Eyssel

6/10 2026-02-13 cs.HC PDF

生成式社交代理（GSAs）正通过说服手段日益影响人类用户。一方面，它们可能激励用户追求个人目标，如更健康的生活方式；另一方面，由于对概率化代理输出的控制有限，它们也存在潜在风险，如操纵和欺骗。然而，由于GSAs的行为基于其可访问的知识，因此可以通过其对知识的访问来调节其行为。本研究在人类-机器人物理治疗动机场景中探讨了ChatGPT生成的说服性信息。通过比较ChatGPT对假设物理治疗患者的预定义输入的响应，研究1对13个不同知识配置的对话脚本进行了定性分析。研究2由第三方观察者（N=27）对这些对话的表达性、果断性和说服力进行评分。研究结果表明，基于LLM的GSAs可以调整其果断性和表达性个性特征，从而显著增强感知说服力。此外，患者年龄和过去职业等信息的可用性通过感知果断性和表达性显著提升了说服力。而关于物理治疗益处的背景知识并未显著影响说服力，这可能是由于LLM本身已具备相关知识。总体而言，该研究强调了对GSAs行为模式进行实证研究的重要性，特别是在生成式AI系统需要哪些信息以实现一致且负责任的沟通方面。

生成式代理说服力知识配置人机交互

论文探讨了知识对Agent说服力的影响，涉及记忆相关内容但非核心主题。

ReFilter：通过门控过滤器提高检索增强生成的鲁棒性

ReFilter: Improving Robustness of Retrieval-Augmented Generation via Gated Filter

Yixin Chen, Ying Xiong, Shangyu Wu, Xiangrui Ke, Nan Guan et al.

Yixin Chen (City University of Hong KongHong KongChina) | Ying Xiong (MBZUAIAbu DhabiUAE) | Shangyu Wu (MBZUAIAbu DhabiUAE)

6/10 2026-02-13 cs.CL PDF

检索增强生成（RAG）已成为在知识密集型问答任务中为大型语言模型（LLMs）提供外部证据的主要范式。其核心设计选择在于如何将检索到的样本融合到LLMs中，现有方法主要包括基于查询的融合、参数化融合和基于潜在表示的融合。尽管这些方法在小规模检索时表现良好，但随着检索候选数量k的增加，它们往往难以有效扩展：更大的k虽然提高了证据覆盖率，但实际的top-k检索不可避免地包含不相关或冗余内容，并增加了推理成本。为了解决这些问题，我们提出了ReFilter，一种新的基于潜在表示的融合框架，能够在token级别进行过滤和融合。ReFilter包括三个关键组件：用于编码上下文特征的上下文编码器、用于对每个token加权的门控过滤器，以及用于将加权token特征整合到LLM隐藏状态中的token融合模块。我们在四个通用领域问答基准上的实验表明，ReFilter在领域内适应和跨领域迁移下均能保持最佳平均性能。此外，ReFilter在无需领域微调的情况下，零样本迁移到五个生物医学问答基准，达到70.01%的平均准确率（使用Qwen2.5-14B-Instruct）。

检索增强生成信息融合门控机制 LLM优化

论文涉及检索增强生成中的信息融合机制，与Agent Memory相关但非核心主题。

面向WebAgents的智能测试时扩展方法

Agentic Test-Time Scaling for WebAgents

Nicholas Lee, Lutfi Eren Erdogan, Chris Joseph John, Surya Krishnapillai, Michael W. Mahoney et al.

6/10 2026-02-12 cs.AI PDF

测试时扩展已成为提升神经网络模型性能和可靠性的标准方法。然而，其在智能体执行多步骤任务时的行为仍不明确：每一步的小误差可能在长期任务中累积；我们发现简单地均匀增加采样策略会带来边际效益递减。本文提出CATTS，一种用于动态分配多步骤智能体计算资源的简单技术。我们首先对网络代理的推理时扩展进行了实证研究，发现均匀增加每步计算在长周期环境中很快饱和。随后，我们探讨了更强的聚合策略，包括基于LLM的仲裁者，其表现优于简单投票，但可能推翻高共识决策。我们证明，从智能体自身投票分布中得出的不确定性统计（熵和top-1/top-2边缘）与后续成功相关，并为动态计算分配提供了实用信号。基于这些发现，我们引入了置信度感知测试时扩展（CATTS），它仅在决策存在真正争议时使用投票派生的不确定性来分配计算资源。CATTS在WebArena-Lite和GoBrowse上相比React提升了高达9.1%的性能，同时使用的token数量比均匀扩展减少了2.3倍，实现了效率提升和可解释的决策规则。

Agent Memory Test-Time Scaling Dynamic Compute Allocation Uncertainty Estimation

论文涉及Agent在推理时的计算分配与不确定性评估，与Memory相关但非核心主题。

评估AGENTS.md：仓库级别的上下文文件对编码代理是否有帮助？

Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?

Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev, Martin Vechev

6/10 2026-02-12 cs.SE PDF

在软件开发中，一种常见做法是通过手动或自动生成的上下文文件（如AGENTS.md）来定制编码代理以适应特定仓库。尽管这一做法受到代理开发者强烈推荐，但目前尚无严谨研究验证其在实际任务中的有效性。本文通过两种互补设置评估了编码代理的任务完成性能：一是基于流行仓库中的SWE-bench任务，并使用LLM生成的上下文文件；二是基于包含开发者提交的上下文文件的新问题集。结果表明，与不提供仓库上下文相比，上下文文件通常会降低任务成功率，并增加超过20%的推理成本。行为上，无论是LLM生成还是开发者提供的上下文文件，都会促使代理进行更广泛的探索，且代理倾向于遵循其指令。最终结论认为，不必要的上下文要求会使任务更加困难，因此人工编写的上下文文件应仅描述最小需求。

Agent Memory LLM Coding Agents Context Files Task Performance

论文探讨了上下文文件对编码代理的影响，涉及记忆机制的应用与效果评估。

Gaia2：在动态和异步环境中对LLM代理进行基准测试

Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments

Romain Froger, Pierre Andrews, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral et al.

6/10 2026-02-12 cs.AI PDF

我们引入了Gaia2，这是一个用于评估大型语言模型代理在真实、异步环境中的基准。与以往的静态或同步评估不同，Gaia2引入了环境独立于代理动作演变的场景，要求代理在时间约束下运行，适应噪声和动态事件，解决歧义，并与其他代理协作。每个场景都配有一个写操作验证器，实现细粒度的动作级评估，使Gaia2可以直接用于基于可验证奖励的强化学习。我们对最先进的专有和开源模型进行了评估，结果显示没有一个模型在所有能力上占优：GPT-5（高）以42%的pass@1获得最强总体得分，但在时间敏感任务中失败；Claude-4 Sonnet以准确性和速度换取成本；Kimi-K2在开源模型中领先，pass@1为21%。这些结果突显了推理、效率和鲁棒性之间的根本权衡，并揭示了缩小“sim2real”差距的挑战。Gaia2建立在消费者环境之上，使用开源的Agents Research Environments平台构建，并设计为易于扩展。通过与基础ARE框架一起发布Gaia2，我们旨在为社区提供一个灵活的基础设施，用于开发、基准测试和训练下一代实用代理系统。

LLM Agent Benchmark Dynamic Environment Reinforcement Learning

论文涉及Agent在动态环境中的行为评估，与记忆相关但非核心主题。

智能AI委托

Intelligent AI Delegation

Nenad Tomašev, Matija Franklin, Simon Osindero

Nenad Tomašev (Google DeepMind) | Matija Franklin (Google DeepMind) | Simon Osindero (Google DeepMind)

6/10 2026-02-12 cs.AI PDF

AI代理能够处理日益复杂的任务。为了实现更雄心勃勃的目标，AI代理需要能够将问题有意义地分解为可管理的子组件，并安全地将其完成任务委托给其他AI代理和人类。然而，现有的任务分解和委托方法依赖于简单的启发式方法，无法动态适应环境变化并稳健处理意外故障。本文提出了一种用于智能AI委托的自适应框架——一系列涉及任务分配的决策，同时包含权力、责任、问责制的转移，明确的角色和边界规范，意图的清晰性，以及在双方（或多方）之间建立信任的机制。该框架适用于复杂委托网络中的人类和AI委托方与被委托方，旨在指导新兴代理网络中协议的发展。

AI委托任务分解责任分配信任机制

论文涉及任务委托与责任分配，间接关联到Agent Memory中的角色与边界定义。

TSR：用于LLM代理多轮强化学习的轨迹搜索展开方法

TSR: Trajectory-Search Rollouts for Multi-Turn RL of LLM Agents

Aladin Djuhera, Swanand Ravindra Kadhe, Farhan Ahmed, Holger Boche

6/10 2026-02-12 cs.AI PDF

随着大语言模型（LLMs）的发展，研究者正转向使用强化学习（RL）从任务间的迭代、多轮交互中训练代理。然而，多轮RL仍然面临奖励稀疏或延迟以及环境随机性等挑战。在这一背景下，简单的轨迹采样可能阻碍利用并导致模式崩溃。本文提出TSR（轨迹搜索展开），一种训练时的方法，通过将测试时的扩展思想应用于训练阶段的轨迹生成，以提高每轮展开的质量。TSR采用轻量级树状搜索，在每一步选择高得分动作以构建高质量轨迹，从而提升展开质量并稳定学习过程，同时保持底层优化目标不变，使TSR与优化器无关。作者通过最佳N选一、束搜索和浅层前瞻搜索实现TSR，并结合PPO和GRPO算法，在Sokoban、FrozenLake和WebShop任务上实现了最高15%的性能提升和更稳定的学习效果。通过将搜索从推理阶段转移到训练的展开阶段，TSR为更强的多轮代理学习提供了一种简单且通用的机制，可作为现有框架和拒绝采样类选择方法的补充。

强化学习多轮交互轨迹生成 LLM代理

论文涉及多轮强化学习中的轨迹生成，与Agent Memory相关但非核心主题。

MiniCPM-SALA：混合稀疏和线性注意力以实现高效的长上下文建模

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

MiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li et al.

Yingfa Chen (Tsinghua University)

6/10 2026-02-12 cs.CL PDF

随着大语言模型（LLMs）在超长上下文应用中的发展，Transformer架构的高计算和内存成本成为挑战。尽管现有的稀疏和线性注意力机制试图缓解这些问题，但通常需要在内存效率和模型性能之间进行权衡。本文提出MiniCPM-SALA，一种9B参数的混合架构，结合了稀疏注意力（InfLLM-V2）的高保真长上下文建模能力和线性注意力（Lightning Attention）的全局效率。通过采用层选择算法以1:3的比例整合这些机制，并使用混合位置编码（HyPE），该模型在长上下文任务中保持了效率和性能。此外，我们引入了一种低成本的持续训练框架，将预训练的Transformer模型转化为混合模型，相比从头训练减少了约75%的训练成本。大量实验表明，MiniCPM-SALA在保持与全注意力模型相当的一般能力的同时，提供了更高的效率。在单块NVIDIA A6000D GPU上，该模型在256K token序列长度时推理速度达到全注意力模型的3.5倍，并支持长达1M token的上下文长度，而传统全注意力8B模型由于内存限制无法达到这一规模。

长上下文建模注意力机制优化混合架构高效推理

论文涉及长上下文建模中的注意力机制优化，与Agent Memory相关但非核心主题。

AmbiBench：超越一次性指令的移动GUI代理基准测试

AmbiBench: Benchmarking Mobile GUI Agents Beyond One-Shot Instructions in the Wild

Jiazheng Sun, Mingxuan Li, Yingying Zhang, Jiayang Niu, Yachen Wu et al.

Mingxuan Li (Fudan UniversityShanghaiChina) | Yingying Zhang (Jilin UniversityChangchunChina)

6/10 2026-02-12 cs.SE PDF

在移动GUI代理领域，基准测试对于评估进展至关重要。然而，现实场景中用户的指令往往模糊且不完整，要求代理通过主动澄清和交互来理解真实意图。现有基准多基于理想化假设，忽视了对齐能力。为此，本文提出AmbiBench，引入四类清晰度分类（详细、标准、不完整、模糊），构建240个生态有效任务的数据集，并开发MUSE框架，从结果有效性、执行质量和交互质量三个维度进行细粒度评估。实验证明了当前最优代理在不同清晰度下的性能边界，验证了MUSE与人类判断的高度相关性，为下一代真正理解用户意图的代理奠定了基础。

Agent Memory 意图对齐移动GUI代理基准测试人机交互

论文涉及Agent与用户意图对齐，隐含记忆机制，但非核心研究内容。

思考更久以探索更深：通过长度激励强化学习实现上下文中的探索

Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

Futing Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang et al.

6/10 2026-02-12 cs.CL PDF

实现有效的测试时扩展需要模型具备上下文探索能力——即在单一连续上下文中生成、验证和优化多个推理假设的内在能力。基于状态覆盖理论，我们的分析发现实现这一能力的关键瓶颈在于：虽然更广泛的状态覆盖需要更长的推理轨迹，但在自回归生成过程中，采样此类序列的概率呈指数级下降，我们称之为“浅层探索陷阱”。为弥合这一差距，我们提出长度激励探索（Length-Incentivized Exploration）。该方法通过结合基于长度的奖励和冗余惩罚，显式鼓励模型进行更多探索，从而以两步方式最大化状态覆盖。在不同模型（Qwen3, Llama）上的全面实验表明，该方法有效激励了上下文探索。因此，我们的方法在领域内任务上平均提升了4.4%，在领域外基准测试中获得了2.7%的提升。

强化学习上下文探索状态覆盖 LLM训练

论文涉及探索机制与上下文推理，与Agent Memory相关但非核心主题。

PhyNiKCE：一种用于自主计算流体动力学的神经符号代理框架

PhyNiKCE: A Neurosymbolic Agentic Framework for Autonomous Computational Fluid Dynamics

E Fan, Lisong Shi, Zhengtong Li, Chih-yung Wen

6/10 2026-02-12 cs.AI PDF

将自主代理应用于计算流体动力学（CFD）时，受限于大语言模型（LLMs）的概率性，难以满足物理模拟中严格的守恒定律和数值稳定性要求。单纯依赖语义检索增强生成（RAG）常导致“上下文污染”，即代理生成语言上合理但物理无效的配置，这是语义与物理之间的根本断层所致。为此，本文提出PhyNiKCE（物理与数值知识化上下文工程），一种神经符号代理框架，用于可信工程。不同于标准黑盒代理，PhyNiKCE将神经规划与符号验证解耦。它采用符号知识引擎，将模拟设置视为约束满足问题，并通过确定性RAG引擎严格施加物理约束，采用专门的检索策略处理求解器、湍流模型和边界条件。通过在实际非教程CFD任务上的OpenFOAM实验验证，PhyNiKCE相比现有最佳基线实现了96%的相对改进。此外，通过用知识驱动初始化替代试错法，该框架减少了59%的自主自纠正循环，同时降低了17%的LLM token消耗。这些结果表明，将神经生成与符号约束执行解耦显著提高了鲁棒性和效率。尽管在CFD中验证，该架构为更广泛的工业自动化中的可信人工智能提供了一种可扩展、可审计的范式。

Agent Memory Neurosymbolic AI Constraint Satisfaction CFD Simulation RAG

论文涉及基于记忆的约束满足和知识驱动初始化，与Agent Memory相关但非核心主题。

学习配置基于LLM的智能体系统

Learning to Configure Agentic AI Systems

Aditya Taparia, Som Sagar, Ransalu Senanayake

6/10 2026-02-12 cs.AI PDF

基于LLM的智能体系统的配置涉及从大量组合设计空间中选择工作流、工具、令牌预算和提示，目前通常通过固定的大模板或手工调整的启发式方法处理。这导致了行为脆弱性和不必要的计算开销，因为相同的繁琐配置经常应用于简单和复杂输入查询。本文将智能体配置表述为逐个查询的决策问题，并引入ARC（Agentic Resource & Configuration learner），该方法利用强化学习学习一个轻量级的分层策略，以动态定制这些配置。在多个涵盖推理和工具增强问答的基准测试中，所学策略始终优于强大的手工设计和其他基线，在提高任务准确性的同时也降低了令牌和运行时成本。这些结果表明，学习每个查询的智能体配置是“一刀切”设计的强大替代方案。

LLM Agent 配置优化强化学习资源管理

论文涉及Agent配置与资源分配，间接关联到Memory管理，但非核心主题。

学习组合以进行跨领域代理工作流生成

Learning to Compose for Cross-domain Agentic Workflow Generation

Jialiang Wang, Shengxiang Xu, Hanmo Liu, Jiachuan Wang, Yuyu Luo et al.

Jialiang Wang1, Shengxiang Xu3, Hanmo Liu12, Jiachuan Wang4, Yuyu Luo2, Shimin Di3, Min-Ling Zhang3, Lei Chen12 (1Hong Kong University of Science and Technology, Hong Kong SAR, China2Hong Kong University of Science and Technology (Guangzhou), Guangzhou, China3Southeast University, Nanjing, China4University of Tsukuba, Tsukuba, Japan)

6/10 2026-02-11 cs.MA PDF

自动生成功能代理的工作流——可执行的操作符图或代码，用于协调推理、验证和修复——已成为解决单次LLM生成无法可靠处理的复杂任务的一种实用方法。然而，一个好的工作流取决于任务分布和可用操作符。在领域转移情况下，当前系统通常依赖于迭代工作流优化，从大量工作流空间中发现可行方案，导致高迭代成本和不稳定、领域特定的行为。为此，我们将一种分解-重组-决策机制内化到开源LLM中，用于跨领域工作流生成。为了分解，我们学习一组跨多个领域的可重用工作流能力；为了重组，我们将每个输入任务映射到这些基础之上的稀疏组合，从而在单次传递中生成特定任务的工作流；为了决策，我们将工作流生成的成功或失败归因于所学能力的反事实贡献，从而捕捉哪些能力通过边际效应真正驱动了成功。在严格的多领域、跨领域和未见领域评估中，我们的单次生成器超越了需要20次迭代的最先进优化基线，同时显著减少了生成延迟和成本。

代理工作流跨领域生成能力重组反事实分析

论文涉及跨领域代理工作流生成，提及能力分解与重组机制，与记忆相关但非核心主题。

具有多级感知的对话行为建模基础模型

Conversational Behavior Modeling Foundation Model With Multi-Level Perception

Dingkun Zhou, Shuchang Pan, Jiachen Lian, Siddharth Banerjee, Sarika Pasumarthy et al.

6/10 2026-02-11 cs.CL PDF

人类对话通过隐式的思维链组织，表现为定时的语言行为。捕捉这一感知路径是构建自然全双工交互系统的关键。本文提出一种框架，将该过程建模为多级感知，并通过思维图（GoT）进行对话行为推理。该方法通过分层标注方案形式化意图到行为的路径，预测高层沟通意图和低层语言行为以学习其因果和时间依赖关系。为训练该系统，我们开发了一个高质量语料库，包含可控且事件丰富的对话数据及人工标注标签。GoT框架将流式预测结构化为一个动态演化图，使Transformer能够预测下一个语言行为、生成简洁的决策依据并动态优化推理。在合成和真实全双工对话上的实验表明，该框架实现了稳健的行为检测，产生可解释的推理链，并为全双工语音对话系统的对话推理基准测试奠定了基础。

对话系统多级感知图推理行为建模

论文涉及对话行为建模与推理，隐含记忆机制，但未明确聚焦于Agent Memory。

CLI-Gym: 通过智能体环境逆向实现可扩展的CLI任务生成

CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

Yusong Lin, Haiyang Wang, Shuzhe Wu, Lue Fan, Feiyang Pan et al.

6/10 2026-02-11 cs.AI PDF

智能体编码需要代理有效地与运行时环境（如命令行界面）交互，以完成诸如解决依赖问题、修复系统问题等任务。然而，如何在大规模上获取此类环境密集型任务以增强代理能力仍是一个未被充分探索的问题。为此，本文基于Dockerfile与智能体任务之间的类比，提出利用代理模拟和探索环境历史，并通过执行反馈进行指导。通过追踪健康环境的历史状态，将其逆向为具有运行时故障的早期状态，从而生成包含错误状态和相应错误信息的任务。通过该方法，名为CLI-Gym的系统共生成了1,655个环境密集型任务，是同类任务的最大集合。此外，结合精心整理的成功轨迹，本文提出的微调模型LiberCoder在Terminal-Bench基准测试中实现了显著的绝对提升（+21.1%，达到46.1%），优于多种强基线模型。据我们所知，这是首个用于可扩展生成环境密集型任务的公开流程。

Agent Memory CLI任务生成环境逆向智能体训练

论文涉及通过环境历史倒推生成任务，与Agent Memory相关但非核心主题。

旋转位置嵌入作为相位调制：长上下文Transformer的RoPE基理论界限

Rotary Positional Embeddings as Phase Modulation: Theoretical Bounds on the RoPE Base for Long-Context Transformers

Feilong Liu

6/10 2026-02-11 cs.LG PDF

旋转位置嵌入（RoPE）被广泛用于大型语言模型中，通过乘法旋转对令牌位置进行编码。然而，其在长上下文长度下的行为尚未得到充分表征。本文将RoPE重新解释为应用于一组复数振荡器的相位调制，从而可以通过经典信号处理理论进行分析。在此基础上，我们推导出确保目标上下文长度内位置一致性的RoPE基参数的理论下界，包括类似奈奎斯特极限的基本混叠界限和约束低频位置模式相位漂移的直流分量稳定性界限。此外，我们将这一分析扩展到深层Transformer，表明跨层重复的旋转调制会累积角度偏差，随着深度增加而收紧基参数要求。同时，我们还推导出一个依赖于精度的RoPE基上界，源于有限浮点分辨率。超过此限制后，增量相位更新将变得数值不可区分，导致即使没有混叠也会出现位置丢失。上下界共同定义了一个依赖于精度和深度的可行性区域，即长上下文Transformer的“黄金区间”。通过全面案例研究，验证了该框架在LLaMA、Mistral和DeepSeek等前沿模型上的适用性，发现观察到的成功、失败及社区改进均与预测界限高度一致。值得注意的是，违反稳定性界限的模型会出现注意力崩溃和长距离退化，而尝试扩展至百万级token时则会遇到与架构或训练无关的硬精度瓶颈。

RoPE 位置编码 Transformer 长上下文信号处理

论文探讨了RoPE在长上下文中的行为，与Agent Memory中位置编码相关，但非核心主题。

仅解码器的LLM如何感知用户？重新思考注意力掩码在用户表示学习中的作用

How Do Decoder-Only LLMs Perceive Users? Rethinking Attention Masking for User Representation Learning

Jiahao Yuan, Yike Xu, Jinyong Wen, Baokun Wang, Yang Chen et al.

6/10 2026-02-11 cs.CL PDF

仅解码器的大语言模型越来越多地被用作行为编码器以进行用户表示学习，但注意力掩码对用户嵌入质量的影响仍鲜有研究。本文在统一的对比学习框架内，系统研究了因果、混合和双向注意力掩码，并基于大规模真实世界支付宝数据进行训练，该数据集整合了长期异构用户行为。为改善从因果到双向注意力的训练动态，我们提出了一种梯度引导的软掩码方法，在线性调度器之前应用梯度预热，逐步开启未来注意力。在涵盖预测、偏好和营销敏感性任务的9个工业用户认知基准上评估，我们的方法相比因果、混合和仅调度器的基线，表现出更稳定的训练过程和更高质量的双向表示，同时保持与解码器预训练的兼容性。总体而言，我们的发现突出了掩码设计和训练过渡在适应仅解码器LLM进行有效用户表示学习中的重要性。

注意力机制用户表示学习 LLM训练对比学习

论文探讨了注意力掩码对用户表示学习的影响，与Agent Memory中的表示学习相关。

Code

用于环境适应的计算机使用代理的自主持续学习

Autonomous Continual Learning of Computer-Use Agents for Environment Adaptation

Tianci Xue, Zeyi Liao, Tianneng Shi, Zilu Wang, Kai Zhang et al.

6/10 2026-02-10 cs.CL PDF

现实世界的数字环境高度多样且动态，这使得代理经常遇到未见过的场景和分布变化，因此在特定环境中进行持续学习对计算机使用代理（CUAs）至关重要。然而，一个关键挑战在于如何在不依赖昂贵的人工标注的情况下获取高质量且基于环境的代理数据。本文提出ACuRL，一种自主课程强化学习框架，能够在零人工数据的情况下使代理持续适应特定环境。代理首先探索目标环境以获取初始经验，在后续迭代训练中，课程任务生成器利用这些经验以及前一轮的反馈来合成适合代理当前能力的新任务。为了提供可靠的奖励信号，我们引入了CUAJudge，一种鲁棒的自动评估器，其与人类判断的一致性达到93%。实验表明，该方法有效实现了环境内和跨环境的持续学习，在现有环境中没有灾难性遗忘的情况下性能提升了4-22%。进一步分析显示更新非常稀疏（例如20%参数），这有助于解释其有效的适应能力。

持续学习强化学习自动评估环境适应

论文涉及持续学习和适应环境，与Agent Memory相关但非核心主题。

Code

循环Transformer的分步数据归因

Step-resolved data attribution for looped transformers

Georgios Kaissis, David Mildenberger, Juan Felipe Gomez, Martin J. Menten, Eleni Triantafillou

6/10 2026-02-10 cs.LG PDF

本文研究了单个训练样本如何塑造循环Transformer的内部计算过程，其中共享模块在τ次递归迭代中被应用以实现潜在推理。现有的训练数据影响估计方法如TracIn仅提供一个聚合所有循环迭代的标量分数，无法揭示训练样本在递归计算过程中何时起作用。本文引入了Step-Decomposed Influence（SDI），通过展开递归计算图并将其分解为长度为τ的影响轨迹，将TracIn分解为特定循环迭代的影响。为了在Transformer规模上实现SDI，提出了一种TensorSketch实现方式，无需显式计算每个样本的梯度。实验表明，SDI在循环GPT风格模型和算法推理任务中表现优异，误差低且支持多种数据归因和可解释性任务，并能提供对潜在推理过程的逐步洞察。

数据归因循环Transformer 可解释性梯度估计

论文涉及训练数据对循环Transformer内部计算的影响，与Agent Memory中的数据归因和可解释性相关。

Moltbook背后的魔鬼：自进化AI社会中的人类安全始终在消失

The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies

Chenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou et al.

6/10 2026-02-10 cs.CL PDF

由大型语言模型构建的多智能体系统为可扩展的集体智能和自进化提供了有前景的范式。理想情况下，此类系统能够在完全闭环中实现持续自我改进，同时保持强大的安全对齐——我们称之为自进化三难困境。然而，我们从理论和实证两方面证明，满足持续自进化、完全隔离和安全不变性的智能体社会是不可能的。基于信息论框架，我们将安全形式化为与人类价值观分布的偏离程度。理论上证明，孤立的自进化会导致统计盲点，从而导致系统安全对齐的不可逆退化。来自开放智能体社区（Moltbook）和两个封闭自进化系统的实证和定性结果揭示了与我们理论预测一致的安全性侵蚀现象。我们进一步提出了一些缓解已识别安全问题的解决方案方向。我们的工作确立了自进化AI社会的根本限制，并将讨论从症状驱动的安全补丁转向对内在动态风险的原则性理解，突出了外部监督或新型安全机制的必要性。

Agent Safety Self-Evolution Information Theory AI Alignment

论文涉及自进化AI社会中的安全对齐问题，与记忆机制相关但非核心。

以Argus之眼：通过不确定性评分评估检索差距以检测和修复检索盲点

With Argus Eyes: Assessing Retrieval Gaps via Uncertainty Scoring to Detect and Remedy Retrieval Blind Spots

Zeinab Sadat Taghavi, Ali Modarressi, Hinrich Schutze, Andreas Marfurt

Ali Modarressi (CIS, LMU Munich)

6/10 2026-02-10 cs.IR PDF

可靠的检索增强生成（RAG）系统依赖于检索器找到相关信息的能力。本文表明，用于RAG系统的神经检索器存在盲点，即无法检索到与查询相关但与查询嵌入相似度低的实体。我们研究了导致此类盲点实体被映射到嵌入空间中难以访问区域的训练偏差。利用从Wikidata关系和维基百科首段构建的大规模数据集以及提出的检索概率评分（RPS），我们展示了标准检索器（如CONTRIEVER、REASONIR）的盲点风险可在索引前通过实体嵌入几何预测，避免昂贵的检索评估。为解决这些盲点，我们引入ARGUS，一个通过知识库（KB）和维基百科首段进行定向文档增强的流程，以提高高风险（低RPS）实体的可检索性。在BRIGHT、IMPLIRET和RAR-B上的广泛实验表明，ARGUS在所有评估检索器上均取得一致改进（平均提升nDCG@5 +3.4和nDCG@10 +4.5），在具有挑战性的子集中提升更大。这些结果证明，预先修复盲点对于构建稳健且可信的RAG系统至关重要。

检索增强生成嵌入空间分析盲点检测文档增强

论文涉及检索盲点问题，与Agent Memory中的信息检索和存储相关，但非核心主题。

跨多领域对话问答中RAG方法的全面比较

Comprehensive Comparison of RAG Methods Across Multi-Domain Conversational QA

Klejda Alushi, Jan Strich, Chris Biemann, Martin Semmann

6/10 2026-02-10 cs.CL PDF

随着对话式问答对检索增强生成（RAG）方法的依赖增加，本文针对多轮对话场景下的RAG方法缺乏系统性比较的问题，进行了深入研究。通过八个不同领域的对话问答数据集，评估了基础和高级RAG方法的检索质量和答案生成效果，并分析了性能随对话轮次的变化。结果表明，如重排序、混合BM25和HyDE等稳健且简单的方法表现优于基础RAG，而一些高级技术未能提升性能甚至低于无RAG基线。研究还指出数据集特征和对话长度显著影响检索效果，说明有效的对话RAG更依赖于检索策略与数据集结构的匹配，而非方法复杂度。

RAG 对话问答多轮对话检索增强生成 LLM

论文涉及RAG方法在多轮对话中的应用，与Agent Memory相关但非核心主题。

Code

SpotAgent：通过智能体推理在大视觉-语言模型中实现视觉地理定位的接地

SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning

Furong Jia, Ling Dai, Wenjin Deng, Fan Zhang, Chen Hu et al.

6/10 2026-02-10 cs.AI PDF

大型视觉-语言模型（LVLMs）在地理定位任务中表现出强大的推理能力，但在现实场景中常因视觉线索稀疏、长尾分布和高度模糊而表现不佳。以往方法受限于内部知识，难以提供可验证的结果，面对混淆证据时容易产生自信但无依据的预测。为解决这些问题，本文提出SpotAgent框架，将地理定位形式化为一种智能体推理过程，结合专家级推理与工具辅助验证。SpotAgent通过ReAct图式利用外部工具（如网络搜索、地图）主动探索并验证视觉线索。研究引入了一个三阶段的后训练流程，包括监督微调（SFT）以实现基本对齐，随后通过多智能体框架合成高质量轨迹进行智能体冷启动阶段，以培养工具调用能力，最后通过强化学习优化推理能力。此外，提出了一种空间感知动态过滤策略，通过优先选择空间难度较高的样本来提升强化学习阶段的效率。在标准基准上的大量实验表明，SpotAgent实现了最先进的性能，有效缓解了幻觉问题，并提供了精确且可验证的地理定位。

地理定位智能体推理视觉-语言模型工具调用强化学习

论文涉及基于外部工具的验证机制，与Agent Memory相关，但非核心主题。

Sci-VLA：用于科学实验长时序任务的智能体VLA推理插件

Sci-VLA: Agentic VLA Inference Plugin for Long-Horizon Tasks in Scientific Experiments

Yiwen Pang, Bo Zhou, Changjin Li, Xuanhao Wang, Shengxiang Xu et al.

6/10 2026-02-10 cs.RO PDF

机器人实验室在自主科学发现中起着关键作用，能够实现可扩展和持续的实验执行。最近的视觉-语言-动作（VLA）模型为机器人实验室提供了有前景的基础。然而，科学实验通常涉及由多个原子任务组成的长时序任务，这对现有的VLA模型构成了根本性挑战。虽然针对科学任务微调的VLA模型可以可靠地执行训练期间见过的原子实验操作，但它们往往无法执行由重新排序和组合这些已知原子操作形成的复合任务。这一限制源于训练时的原子任务与推理时的复合任务之间的分布不匹配，这阻碍了VLA模型在原子任务之间执行必要的过渡操作。为了解决这一挑战，我们提出了一种用于科学实验长时序任务的智能体VLA推理插件。该插件引入了一个基于LLM的智能体推理机制，在执行顺序操作任务时进行干预。通过显式过渡推理并生成过渡的机器人操作代码，该插件引导VLA模型完成缺失的过渡步骤，从而无需额外训练即可可靠地执行复合科学工作流程。这种仅依赖推理的干预方法使我们的方法在计算效率、数据效率方面表现优异，并适用于开放性和长时序的机器人实验室任务。我们在现有模拟环境中构建了科学仪器和常见科学操作场景的3D资产。在这些场景中，我们验证了我们的方法在推理过程中将每个原子任务的成功率平均提高了42%。此外，我们还展示了该方法可以轻松从模拟环境转移到实际科学实验室。

LLM VLA 机器人实验室长时序任务推理插件

论文涉及Agent在长时序任务中的推理插件，隐含对记忆机制的需求，但未直接研究Memory。

审计多智能体LLM推理树优于多数投票和LLM作为法官

Auditing Multi-Agent LLM Reasoning Trees Outperforms Majority Vote and LLM-as-Judge

Wei Yang, Shixuan Li, Heng Ping, Peiyu Zhang, Paul Bogdan et al.

6/10 2026-02-10 cs.AI PDF

多智能体系统（MAS）可以显著扩展大语言模型（LLMs）的推理能力，但大多数框架仍使用多数投票来聚合智能体输出。这种启发式方法忽略了推理轨迹中的证据结构，并在虚假共识下表现脆弱，即智能体共享相关偏差并收敛于相同的错误理由。本文提出AgentAuditor，它通过一个显式表示智能体轨迹之间一致性和分歧的推理树进行路径搜索，取代传统的投票方式。AgentAuditor通过比较关键分歧点的推理分支来解决冲突，将全局裁决转化为高效的局部验证。此外，我们还提出了反共识偏好优化（ACPO），该方法在多数失败案例上训练裁决者，并奖励基于证据的少数选择而非流行错误。AgentAuditor对MAS设置具有无关性，我们在5种流行设置中发现，其准确率比多数投票提高了高达5%，比使用LLM作为法官提高了3%。

多智能体系统推理树冲突解决 LLM评估

论文涉及多智能体系统中的推理过程与冲突解决，间接关联到Agent Memory中的信息存储与检索机制。

不要吹牛：使用非线性朴素贝叶斯与注意力机制的主题连续性模型

Don't Shoot The Breeze: Topic Continuity Model Using Nonlinear Naive Bayes With Attention

Shu-Ting Pi, Pradeep Bagavan, Yejia Li, Disha, Qun Liu

6/10 2026-02-10 cs.CL PDF

在将大型语言模型（LLM）作为聊天机器人应用于各种商业场景时，保持话题连续性是一个常见挑战。话题的突然转换可能导致用户体验不佳和计算资源的低效利用。本文提出了一种主题连续性模型，用于评估响应是否与初始对话主题一致。该模型基于自然语言理解（NLU）模型的量化扩展，并引入了注意力机制和对数非线性以增强其捕捉主题连续性的能力。这种方法能够将NLU模型转化为可解释的分析公式。与许多受令牌限制约束的NLU模型不同，所提出的模型可以线性时间复杂度处理任意长度的对话。实验表明，该模型在处理长而复杂的对话时优于传统方法，为LLM的负责任和可解释使用提供了机会。

主题连续性注意力机制自然语言理解 LLM应用

论文涉及对话主题连续性建模，与Agent Memory相关，但非核心研究内容。

数字孪生与智能代理AI在野火灾害管理中的应用：智能虚拟态势室

Digital Twin and Agentic AI for Wild Fire Disaster Management: Intelligent Virtual Situation Room

Mohammad Morsali, Siavash H. Khajavi

Siavash H.Khajavi ([)

6/10 2026-02-09 cs.AI PDF

根据联合国的预测，由于全球变暖，野火的发生频率和强度到2030年将增加约14%，到2050年将增加30%，这对生命、基础设施和生态系统构成严重威胁。传统灾害管理框架依赖静态模拟和被动数据采集，难以实时适应不断变化的野火情况。为解决这些问题，我们提出了智能虚拟态势室（IVSR），这是一个由自主AI代理增强的双向数字孪生平台。IVSR持续整合多源传感器图像、天气数据和三维森林模型，以创建火灾环境的实时虚拟副本。基于AI的相似性引擎将新出现的情况与预计算的灾难模拟库进行匹配，检索并校准干预策略，并在专家监督下进行调整。授权操作（如无人机重新部署和人员重新分配）通过标准化流程反馈到物理层，完成响应与分析之间的闭环。我们通过工业合作伙伴提供的详细案例研究模拟验证了IVSR，展示了其在局部事件检测、隐私保护回放、基于碰撞器的火势扩散预测和特定地点机器学习再训练方面的能力。结果表明，与传统系统相比，IVSR显著减少了检测到干预的延迟，并更有效地协调资源。通过将实时双向数字孪生与智能代理AI结合，IVSR为积极主动、适应性强的野火灾害管理提供了一种可扩展的半自动化决策支持范式。

数字孪生智能代理灾害管理 AI决策支持实时模拟

论文涉及AI代理与数字孪生系统，隐含记忆机制用于环境建模和决策支持。

QUOKA：面向查询的键值选择以实现高效的LLM预填充

QUOKA: Query-Oriented KV Selection For Efficient LLM Prefill

Dalton Jones, Junyoung Park, Matthew Morse, Mingu Lee, Chris Lott et al.

6/10 2026-02-09 cs.LG PDF

本文提出QUOKA：一种面向查询的键值选择方法，用于在分块预填充下加速Transformer推理。该方法是一种无需训练且与硬件无关的稀疏注意力算法。我们观察到，与平均查询余弦相似度较低的查询在注意力操作中与更多键交互，并对最终注意力logits有较大贡献。通过优先处理这些查询，可以在预填充阶段近似完整注意力行为。QUOKA通过（1）首先保留一小部分代表性查询，以及（2）随后选择与这些查询最匹配的键，从而加速注意力计算。实验表明，在Needle-In-A-Haystack、LongBench、RULER和Math500数据集上，QUOKA实现了时间到第一个token减少3倍、Nvidia GPU上注意力加速5倍、Intel Xeon CPU上接近7倍的加速，同时保持接近基线的准确性，每次注意力评估使用的键值对减少了88%。

KV缓存注意力优化 Transformer推理加速稀疏注意力

论文涉及KV缓存选择，与Agent Memory相关，但主要聚焦于推理加速而非记忆机制本身。

在社会科学中自动化计算可重复性：比较基于提示和基于代理的方法

Automating Computational Reproducibility in Social Science: Comparing Prompt-Based and Agent-Based Approaches

Syed Mehtab Hussain Shah, Frank Hopfgartner, Arnim Bleier

S. Mehtab Hussain Shah (GESIS – Leibniz Institute for the Social SciencesCologneGermany) | Frank Hopfgartner (University of KoblenzKoblenzGermany) | Arnim Bleier (GESIS – Leibniz Institute for the Social SciencesCologneGermany)

6/10 2026-02-09 cs.SE PDF

计算研究的可重复性通常被认为只需重新运行原始代码并使用提供的数据即可。然而，在实践中，缺少软件包、脆弱的文件路径、版本冲突或逻辑不完整等问题常常导致分析失败，即使材料已共享。本研究探讨了大型语言模型和AI代理是否能够自动诊断和修复此类故障，从而更容易地重复和验证计算结果。我们通过构建一个由五个完全可重复的基于R的社会科学研究组成的受控可重复性测试平台来评估这一点。在清洁的Docker环境中测试了两种自动修复工作流：第一种是基于提示的工作流，通过结构化提示反复查询语言模型；第二种是基于代理的系统，能够自主检查文件、修改代码并重新运行分析。基于提示的运行成功率在31-79%之间，而基于代理的工作流表现显著更好，成功率在69-96%之间。这些结果表明，特别是基于代理的自动化工作流可以显著减少手动努力并提高各种错误类型的重复成功率。

Agent-based systems Computational reproducibility Automated repair LLM prompt engineering

论文探讨了AI代理在自动化修复计算错误中的应用，涉及记忆和状态管理相关机制。

通过代理游戏和自适应树基GRPO进行对话模型优化

Dialogue Model Optimization via Agent Game and Adaptive Tree-based GRPO

Kun Peng, Conghui Tan, Yu Liu, Guohua Tang, Zhongqian Sun et al.

Kun Peng†§a, Conghui Tan‡, Yu Liu†§, Guohua Tang‡, Zhongqian Sun‡, Wei Yang‡, Zining Zhu‡,Lei Jiang†b, Yanbing Liu†§, Hao Peng¶ (†Institute of Information Engineering, Chinese Academy of Sciences‡Tencent§University of Chinese Academy of Sciences¶Beihang University)

6/10 2026-02-09 cs.AI PDF

开放式的对话代理旨在通过适应用户特征来提供引人入胜、个性化的互动，但现有方法面临关键限制：过度依赖预收集的用户数据，以及强化学习（RL）中的短期偏见，忽视了长期对话价值。为了解决这些问题，我们提出了一种新的长期RL框架，结合在线个性化与自适应树基组相对策略优化（AT-GRPO）。采用双代理博弈范式，用户代理通过风格模仿（学习用户特定的对话特征）和主动终止（预测回合级终止概率作为即时奖励）构建动态环境，形成一个迭代循环，推动对话代理深入兴趣探索。AT-GRPO将对话轨迹重新解释为树结构，并引入自适应观察范围。与全树扩展带来的指数级开销不同，它限制每个节点仅从阶段感知范围内聚合奖励：较大的范围支持早期话题探索，而较小的范围有助于后期对话维护。这种设计将对话长度的展开预算从指数级降低到多项式级，同时保留长期奖励捕获能力。大量实验表明，我们的框架在性能、样本效率和鲁棒性方面均表现出色。

对话系统强化学习个性化交互长期奖励优化

论文涉及长期对话价值和个性化交互，与记忆机制相关，但非核心主题。

你的推理模型是否隐式知道何时停止思考？

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang et al.

6/10 2026-02-09 cs.AI PDF

近年来，大型推理模型（LRMs）通过长链推理（CoTs）显著提升了复杂推理任务的性能。然而，这种方法常导致大量冗余，影响计算效率并造成实时应用中的显著延迟。近期研究表明，更长的推理链并不总是与正确性相关，甚至可能损害准确性。进一步分析发现，LRMs实际上隐含地知道何时停止思考，但这一能力被当前的采样范式所掩盖。受此启发，本文提出SAGE（Self-Aware Guided Efficient Reasoning），一种新的采样范式，能够释放这种高效的推理潜力。此外，将SAGE作为混合采样方法整合到基于群体的强化学习（SAGE-RL）中，使SAGE-RL能有效将SAGE发现的高效推理模式融入标准pass@1推理中，显著提升多个数学基准测试中LRMs的推理准确性和效率。

推理优化采样方法模型效率自适应推理

论文探讨了模型在推理过程中隐式停止的能力，与Agent Memory中的自适应推理控制相关。

通过结构化上下文建模和语义动态分析形式化基于LLM的智能体设计

Toward Formalizing LLM-Based Agent Designs through Structural Context Modeling and Semantic Dynamics Analysis

Haoyu Jia, Kento Kawaharazuka, Kei Okada

\fnmKei\surOkada ([)

6/10 2026-02-09 cs.AI PDF

当前关于大语言模型（LLM）智能体的研究较为碎片化：概念框架和方法论原则的讨论常常与低层次实现细节交织在一起，导致读者和作者在大量表面不同的概念中迷失方向。我们认为这种碎片化主要源于缺乏一个可分析、自洽的形式化模型，该模型能够独立于具体实现对LLM智能体进行特征描述和比较。为了解决这一问题，我们提出了结构化上下文模型（Structural Context Model），从上下文结构的角度对LLM智能体进行分析和比较。在此基础上，我们引入了两个互补的组件，共同覆盖LLM智能体研究和开发的完整生命周期：（1）一种声明式实现框架；以及（2）一种可持续的智能体工程工作流——语义动态分析（Semantic Dynamics Analysis）。所提出的流程为智能体机制提供了原理性见解，并支持快速、系统的设计迭代。我们在动态变种的猴子-香蕉问题上验证了该框架的有效性，使用本方法构建的智能体在最具挑战性的设置中成功率提高了32个百分点。

LLM Agents Context Modeling Semantic Dynamics Formal Models

论文涉及LLM Agent的结构化上下文建模，与记忆机制相关但非核心主题。

文档重建解锁可扩展的长上下文RLVR

Document Reconstruction Unlocks Scalable Long-Context RLVR

Yao Xiao, Lei Wang, Yue Deng, Guanzheng Chen, Ziqi Jin et al.

6/10 2026-02-09 cs.CL PDF

可验证奖励强化学习（RLVR）已成为增强大语言模型（LLMs）能力（即长上下文处理）的重要范式。然而，它通常依赖于强大教师模型或人类专家提供的黄金标准答案或显式评估标准，这成本高昂且耗时。在本研究中，我们探讨了无监督方法来增强LLMs的长上下文能力，无需大量人工标注或教师模型的监督。具体而言，我们首先在长文档中替换几个段落为特殊占位符，并通过强化学习训练LLMs以正确识别并排序候选选项中的缺失段落以重建文档。这种训练范式使模型能够捕捉全局叙事连贯性，显著提升长上下文性能。我们在两个广泛使用的基准测试RULER和LongBench~v2上验证了该方法的有效性。尽管在RULER上取得了显著增益，它在不需要手动整理的长上下文问答数据的情况下也能在LongBench~v2上实现合理改进。此外，我们进行了广泛的消融实验，分析奖励设计、数据整理策略、训练方案和数据扩展效应对模型性能的影响。我们公开发布了我们的代码、数据和模型。

强化学习长上下文文档重建无监督学习

论文涉及长上下文能力提升，与Agent Memory相关，但非核心主题。

面向持续领域演化的在线领域感知LLM解码方法

Online Domain-aware LLM Decoding for Continual Domain Evolution

Mohammad Abu-Shaira, Weishi Shi

6/10 2026-02-08 cs.LG PDF

通常，大型语言模型（LLMs）在特定领域的静态数据上进行离线微调。然而，在实践中，领域知识会随着新法规、产品、服务和交互模式的不断出现而持续演变。对每个新实例重新训练或微调LLMs在计算上是不可行的。此外，现实环境中的数据分布也具有时间动态性，忽略这种现象（即概念漂移）会显著降低模型的预测准确性。为应对这一问题，本文提出了一种在线领域感知解码框架（ODD），该框架通过概率级融合基础LLM与前缀树先验，并利用分歧和连续性信号进行自适应置信度调节。实验结果表明，ODD在多种漂移场景下均优于LLM-Greedy和LLM-Temp Scaled方法，在ROUGE-L指标上绝对提升0.065，在余弦相似度上相对提升13.6%。这些结果证明了ODD对不断变化的词汇和上下文模式的鲁棒性，适用于动态LLM应用。

领域适应概念漂移在线学习 LLM解码

论文涉及动态领域适应，与记忆机制相关，但未直接研究Agent Memory。

小型代理组是数字健康领域的未来

Small Agent Group is the Future of Digital Health

Yuqiao Meng, Luoxi Tang, Dazheng Zhang, Rafael Brens, Elvys J. Romero et al.

6/10 2026-02-08 cs.AI PDF

大型语言模型（LLMs）在数字健康领域的快速应用主要基于一种“优先扩展”的理念，即认为模型规模和数据量的增加会提升临床智能。然而，现实中的临床需求不仅包括有效性，还包括可靠性和合理的部署成本。由于临床决策本质上是协作性的，本文挑战了单一模型扩展范式，提出是否可以通过小型代理组（SAG）实现更优的临床推理。SAG通过协作审议过程，将推理、基于证据的分析和关键审计分散到多个代理中，从而实现集体专业知识。为了评估SAG的临床实用性，我们使用涵盖有效性、可靠性和部署成本的多种临床指标进行了广泛评估。结果表明，无论是否进行额外优化或检索增强生成，SAG的表现均优于单一巨型模型。这些发现表明，SAG所代表的协同推理可以在临床环境中替代模型参数的增长。总体而言，SAG为数字健康提供了一种可扩展的解决方案，更好地平衡了有效性、可靠性和部署效率。

临床推理协作代理模型规模优化数字健康

论文探讨了小规模代理组在临床推理中的协同作用，间接涉及记忆与协作机制。

HypRAG：双曲密集检索用于检索增强生成

HypRAG: Hyperbolic Dense Retrieval for Retrieval Augmented Generation

Hiren Madhu, Ngoc Bui, Ali Maatouk, Leandros Tassiulas, Smita Krishnaswamy et al.

6/10 2026-02-08 cs.IR PDF

嵌入几何在检索质量中起着基础作用，然而目前用于检索增强生成（RAG）的密集检索器大多局限于欧几里得空间。自然语言具有从广泛主题到具体实体的层次结构，而欧几里得嵌入无法保留这种结构，导致语义上距离较远的文档看似相似，增加幻觉风险。为解决这些问题，本文引入双曲密集检索方法，在双曲空间的Lorentz模型中开发了两种模型变体：HyTE-FH（全双曲Transformer）和HyTE-H（将预训练欧几里得嵌入投影到双曲空间的混合架构）。为防止序列聚合过程中的表示崩溃，提出了一种几何感知的池化操作符——Outward Einstein Midpoint，该操作符可证明保留层次结构。在MTEB数据集上，HyTE-FH优于等效的欧几里得基线模型；在RAGBench上，HyTE-H在上下文相关性和答案相关性方面相比欧几里得基线模型提升了高达29%，且使用了更小的模型。分析还表明，双曲表示通过基于范数的分离编码文档的具体性，从一般概念到具体概念的径向增长超过20%，这是欧几里得嵌入所不具备的特性，突显了几何归纳偏置在忠实RAG系统中的关键作用。

双曲嵌入检索增强生成几何表示学习信息检索

论文探讨了嵌入空间几何对检索质量的影响，与记忆中的信息表示和检索相关，但非核心Memory机制。

Agent-Fence：跨深度研究代理的安全漏洞映射

Agent-Fence: Mapping Security Vulnerabilities Across Deep Research Agents

Sai Puppala, Ismail Hossain, Md Jahangir Alam, Yoonpyo Lee, Jay Yoo et al.

6/10 2026-02-07 cs.CR PDF

大型语言模型越来越多地被部署为具有规划、维护持久状态和调用外部工具能力的*深度代理*，这使得安全失败从不安全文本转移到了不安全的*轨迹*。我们引入了**AgentFence**，一种以架构为中心的安全评估方法，定义了涵盖规划、记忆、检索、工具使用和委托的14种信任边界攻击类别，并通过*可追溯对话中断*检测失败（如未经授权或不安全的工具使用、错误主体行为、状态/目标完整性违规以及与攻击相关的偏差）。在保持基础模型不变的前提下，我们在持续多轮交互中评估了八种代理架构类型，观察到平均安全中断率（MSBR）存在显著的架构差异，范围从LangGraph的$0.29 ext{±} 0.04$到AutoGPT的$0.51 ext{±} 0.07$。最高风险类别是操作类：钱包拒绝（$0.62 ext{±} 0.08$）、授权混淆（$0.54 ext{±} 0.10$）、检索污染（$0.47 ext{±} 0.09$）和规划操纵（$0.44 ext{±} 0.11$），而以提示为中心的类别在标准设置下均低于$0.20$。中断主要由边界违规引起（SIV 31%，WPA 27%，UTI+UTA 24%，ATD 18%），授权混淆与目标和工具劫持高度相关（ρ≈0.63 和 ρ≈0.58）。AgentFence 将代理安全性重新聚焦于实际操作层面：即代理是否能随着时间保持在其目标和权限范围内。

Agent Security Memory Safety Trajectory Analysis Attack Classes

论文涉及Agent Memory相关的安全漏洞，但并非核心研究主题。

AD-MIR：通过结构化推理弥合广告视频理解中感知与说服之间的差距

AD-MIR: Bridging the Gap from Perception to Persuasion in Advertising Video Understanding via Structured Reasoning

Binxiao Xu, Junyu Feng, Xiaopeng Lin, Haodong Li, Zhiyuan Feng et al.

6/10 2026-02-07 cs.CV PDF

广告视频的多模态理解对于解析视觉叙事与抽象说服策略之间的复杂关系至关重要。然而，尽管现有代理在一般搜索任务中表现出色，但在像素级感知与高层营销逻辑之间仍存在认知鸿沟。为解决这一问题，本文提出AD-MIR框架，采用两阶段架构解码广告意图。首先，在结构感知记忆构建阶段，系统通过语义检索与精确关键词匹配将原始视频转换为结构化数据库，优先提取细粒度品牌信息并动态过滤无关背景噪声。其次，结构化推理代理通过迭代查询循环模拟营销专家，分解叙事以推断隐含的说服策略，并采用基于证据的自我校正机制，严格验证这些洞察是否与特定视频帧一致。在AdsQA基准测试中，AD-MIR表现出色，超越了最强的通用代理DVD。结果表明，有效的广告理解需要将抽象的营销策略明确地扎根于像素级证据。

广告理解结构化记忆推理代理多模态学习

论文提及了结构化记忆构建，但核心是广告理解与推理，非纯粹Memory研究。

Code

GraphAgents: 基于知识图谱的智能代理AI用于跨领域材料设计

GraphAgents: Knowledge Graph-Guided Agentic AI for Cross-Domain Materials Design

Isabella A. Stewart, Tarjei Paule Hage, Yu-Chuan Hsu, Markus J. Buehler

6/10 2026-02-07 cs.AI PDF

大型语言模型（LLMs）有望通过跨科学领域的推理加速发现过程。然而，当前挑战已不再是信息获取，而是如何以有意义的方式跨领域连接信息。在材料科学中，创新需要整合从分子化学到机械性能的概念，这一问题尤为突出。人类或单一智能体LLM难以应对这种信息洪流，后者常产生幻觉。为解决这一瓶颈，本文引入了一个由大规模知识图谱引导的多智能体框架，用于寻找替代全氟和多氟烷基物质（PFAS）的可持续方案。该框架中的智能体专门负责问题分解、证据检索、设计参数提取和图遍历，揭示不同知识模块间的潜在联系，支持假设生成。消融研究表明，完整的多智能体流程优于单次提示方法，突显分布式专业化和关系推理的价值。通过生物医学导管的示例，该框架生成了平衡摩擦学性能、热稳定性、化学抗性和生物相容性的可持续PFAS替代品。本研究建立了一个结合知识图谱与多智能体推理的框架，扩展了材料设计空间，并展示了若干初步设计候选方案。

多智能体系统知识图谱材料设计 LLM应用

论文涉及多智能体框架与知识图谱结合，隐含记忆机制但非核心主题。

先侦察再注意：用于高效LLM推理的Sketch-and-Walk稀疏注意力

Scout Before You Attend: Sketch-and-Walk Sparse Attention for Efficient LLM Inference

Hoang Anh Duy Le, Sahil Joshi, Zeyu Yang, Zhaozhuo Xu, Anshumali Shrivastava

Hoang Anh Duy Le (Department of Computer Science, Rice University) | Sahil Joshi (Department of Computer Science, Rice University) | Zeyu Yang (Department of Computer Science, Rice University)

6/10 2026-02-07 cs.LG PDF

自注意力机制在长上下文LLM推理中占据了大量的计算和内存成本，无论是在预填充阶段还是解码阶段。为了解决这一问题，我们引入了Sketch&Walk注意力，这是一种无需训练的稀疏注意力方法，通过轻量级的草图和确定性遍历机制来决定稀疏性。Sketch&Walk应用Hadamard草图技术，以较低的成本获得注意力分数的近似值，然后通过遍历机制跨层聚合这些估计值，捕捉超出标记直接交互的注意力影响。累积的遍历分数用于选择top-k注意力块，从而实现动态稀疏性，且该算法适用于预填充和解码阶段，并结合了定制的稀疏注意力内核。在广泛范围的模型和任务中，Sketch&Walk在20%的注意力密度下保持接近无损的准确性，并在某些情况下略微优于密集注意力，同时实现了高达6倍的推理加速。

稀疏注意力 LLM推理优化动态稀疏性注意力压缩

论文提出了一种稀疏注意力机制，旨在减少LLM推理中的计算和内存消耗，与Agent Memory相关。

TraceCoder: 一种基于追踪驱动的多智能体框架，用于自动调试LLM生成的代码

TraceCoder: A Trace-Driven Multi-Agent Framework for Automated Debugging of LLM-Generated Code

Jiangping Huang, Wenguang Ye, Weisong Sun, Jian Zhang, Mingyue Zhang et al.

Jiangping Huang (School of Computer Science and Technology, Chongqing University of Posts and TelecommunicationsChongqingChina) | Wenguang Ye (School of Computer Science and Technology, Chongqing University of Posts and TelecommunicationsChongqingChina) | Weisong Sun (Nanyang Technological UniversitySingaporeSingapore)

6/10 2026-02-06 cs.SE PDF

大型语言模型（LLMs）在生成复杂任务代码时常常存在细微但关键的错误。现有的自动化修复方法通常依赖于表面的通过/失败信号，难以深入理解程序行为并精确定位错误。此外，由于缺乏从先前失败中学习的能力，修复过程往往陷入重复且低效的循环。为了解决这些问题，本文提出TraceCoder，一个协作式多智能体框架，模拟人类专家的观察-分析-修复流程。该框架首先通过诊断探针对代码进行插桩，以捕获细粒度的运行时追踪，从而深入了解其内部执行情况。然后，它对这些追踪进行因果分析，以准确识别失败的根本原因。这一过程进一步通过一种新颖的历史教训学习机制（HLLM）增强，该机制从之前的失败修复尝试中提炼出见解，以指导后续的修正策略并防止类似错误的再次发生。为了确保稳定收敛，回滚机制强制要求每次修复迭代都朝着正确解决方案取得严格改进。多个基准的全面实验表明，TraceCoder在Pass@1准确性方面相比现有先进基线实现了高达34.43%的相对提升。消融研究验证了每个系统组件的重要性，其中仅迭代修复过程就带来了65.61%的相对准确率提升。此外，TraceCoder在准确性和成本效率方面均显著优于领先的迭代方法。

多智能体系统代码调试历史记忆学习 LLM缺陷修复

论文提到了历史教训学习机制（HLLM），与记忆相关，但非核心主题。

从特征到动作：传统和代理AI系统的可解释性

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori et al.

6/10 2026-02-06 cs.AI PDF

在过去十年中，可解释AI主要关注于解释单个模型预测，生成与固定决策结构相关的后验解释。随着大型语言模型（LLMs）的发展，代理AI系统的行为表现为多步骤轨迹。在这些系统中，成功与失败由一系列决策决定，而非单一输出。尽管已有相关方法，但如何将静态预测的解释方法应用于代理系统仍不明确。本文通过比较基于属性的解释与基于轨迹的诊断方法，填补了静态与代理可解释性之间的差距。实验表明，基于属性的方法在静态任务中表现稳定，但在代理轨迹中无法可靠诊断执行级失败。相比之下，基于轨迹的评估能够有效定位行为失效，并揭示状态跟踪不一致性是失败运行的主要原因。这些发现推动了对代理系统轨迹级可解释性的研究。

Agent Memory Explainable AI Trajectory Analysis State Tracking

论文探讨了代理系统中的可解释性问题，涉及状态跟踪不一致等与记忆相关的内容。

Code

完成缺失注释：用于信息检索基准的多代理辩论以实现准确且可扩展的相关性评估

Completing Missing Annotation: Multi-Agent Debate for Accurate and Scalable Relevant Assessment for IR Benchmarks

Minjeong Ban, Jeonghwan Choi, Hyangsuk Min, Nicole Hee-Yeon Kim, Minseok Kim et al.

6/10 2026-02-06 cs.CL PDF

由于信息检索（IR）基准数据集中存在未标记的相关片段，信息检索评估仍然具有挑战性。尽管大型语言模型（LLMs）和LLM-人类混合策略减少了昂贵的人工努力，但它们仍容易出现LLM过度自信和无效的AI到人类升级问题。为了解决这一问题，我们提出了DREAM，一个基于多轮辩论的相关性评估框架，该框架利用LLM代理、对立的初始立场和迭代相互批评。通过我们的基于共识的辩论，它在某些情况下产生更精确的标签，并在不确定的情况下提供更可靠的AI到人类升级，仅需3.5%的人工参与即可达到95.2%的标签准确性。使用DREAM，我们构建了BRIDGE，一个改进的基准，通过揭示29,824个缺失的相关片段来减轻评估偏差并实现更公平的检索器比较。然后我们重新对IR系统进行基准测试，并将评估扩展到RAG，表明未解决的漏洞不仅扭曲了检索器排名，还导致检索生成不一致。

信息检索多代理系统相关性评估 LLM协作

论文涉及LLM代理在信息检索中的协作与标注，间接关联到记忆机制。

Code

通过用户日志改进大型语言模型系统

Improve Large Language Model Systems with User Logs

Changyue Wang, Weihang Su, Qingyao Ai, Yiqun Liu

Changyue Wang (Department of Computer Science and Technology, Tsinghua University, Beijing 100084China) | Weihang Su (Department of Computer Science and Technology, Tsinghua University, Beijing 100084China) | Qingyao Ai (Department of Computer Science and Technology, Tsinghua University, Beijing 100084China)

6/10 2026-02-06 cs.CL PDF

大规模训练数据和模型参数一直是推动大型语言模型（LLMs）进步的关键因素，但这一范式正因高质量数据稀缺和计算成本上升而受到限制。因此，近期研究更加关注从真实世界部署中进行持续学习，其中用户交互日志提供了丰富的实际人类反馈和程序性知识。然而，由于用户日志的无结构性和噪声性，从其学习具有挑战性。传统LLM系统难以区分有用反馈信号与噪声行为，且用户日志收集与模型优化之间的差异进一步加剧了问题。为此，我们提出了UNO（User log-driveN Optimization），一个统一框架，用于利用用户日志改进LLM系统（LLMsys）。UNO首先将日志提炼为半结构化规则和偏好对，然后采用查询与反馈驱动的聚类方法管理数据异质性，并最终量化模型先验知识与日志数据之间的认知差距。该评估指导LLMsys自适应地过滤噪声反馈，并构建不同模块以处理从用户日志中提取的基本经验和反思经验，从而提升未来响应效果。大量实验表明，UNO在有效性和效率方面达到最先进水平，显著优于检索增强生成（RAG）和基于记忆的基线方法。

用户日志持续学习模型优化反馈处理

论文涉及用户日志驱动的模型优化，与记忆机制相关但非核心主题。

Code

DyTopo：基于语义匹配的多智能体推理动态拓扑路由

DyTopo: Dynamic Topology Routing for Multi-Agent Reasoning via Semantic Matching

Yuxing Lu, Yucheng Hu, Xukai Zhao, Jiuxin Cao

6/10 2026-02-05 cs.AI PDF

由提示大语言模型构建的多智能体系统可以提升多轮推理能力，但现有方法通常依赖于固定的、贯穿整个轨迹的通信模式，难以满足迭代问题求解阶段依赖的需求。本文提出DyTopo，一种由管理器引导的多智能体框架，在每一轮中重构稀疏有向通信图。在管理器设定的当前目标下，每个智能体输出轻量级自然语言查询（需求）和关键（提供）描述符；DyTopo嵌入这些描述符并进行语义匹配，仅沿诱导边传递私有消息。在代码生成和数学推理基准测试中，DyTopo在四种LLM主干上均优于最强基线（平均提升6.2%）。除准确性外，DyTopo还通过演化图提供了可解释的协调轨迹，使人们能够定性检查通信路径如何跨轮次重新配置。

多智能体系统语义匹配通信路由 LLM推理

论文涉及多智能体通信机制，通过语义匹配实现信息路由，与Agent Memory相关但非核心。

CommCP：通过基于LLM的通信与符合预测实现高效的多智能体协作

CommCP: Efficient Multi-Agent Coordination via LLM-Based Communication with Conformal Prediction

Xiaopan Zhang, Zejin Wang, Zhixu Li, Jianpeng Yao, Jiachen Li

6/10 2026-02-05 cs.RO PDF

为了完成由人类以自然语言提供的任务，机器人必须解释指令、生成和回答与场景理解相关的问题，并操作目标对象。在实际部署中，通常需要多个具有不同操作能力的异构机器人协同处理不同的任务。除了需要专门的操作技能外，有效的信息收集对于完成这些任务也至关重要。为了解决这一问题，我们将信息收集过程形式化为一个未被充分研究的多智能体多任务具身问答（MM-EQA）问题，这是经典具身问答（EQA）的一个新扩展，其中有效的通信对于协调工作并避免冗余至关重要。为此，我们提出了一种基于LLM的去中心化通信框架CommCP，用于MM-EQA。该框架采用符合预测技术对生成的消息进行校准，从而减少接收者的干扰并提高通信可靠性。为了评估我们的框架，我们引入了一个包含多样化、逼真的家庭场景和具身问题的MM-EQA基准测试。实验结果表明，CommCP在任务成功率和探索效率方面显著优于基线方法。

多智能体协作 LLM通信具身问答符合预测

论文涉及基于LLM的多智能体通信机制，与Agent Memory相关但非核心主题。

Code

SAGE：为深度研究代理评估和改进检索

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Tiansheng Hu, Yilun Zhao, Canyu Zhang, Arman Cohan, Chen Zhao

6/10 2026-02-05 cs.IR PDF

深度研究代理已成为解决复杂查询的强大系统，而基于LLM的检索器在遵循指令或推理方面表现出色。本文提出SAGE基准测试，包含四个科学领域的1200个查询及20万篇论文的检索语料库。实验发现，所有系统在需要推理的检索任务中表现不佳。通过对比BM25与基于LLM的检索器（如ReasonIR和gte-Qwen2-7B-instruct），发现BM25性能显著优于后者约30%。为此，作者提出一种基于语料库级别的测试时扩展框架，利用LLM增强文档的元数据和关键词，从而提升现成检索器的性能，分别在简答和开放问题上取得8%和2%的提升。

Agent Memory 信息检索 LLM 基准测试深度学习

论文涉及LLM检索器在研究代理中的应用，与记忆机制相关但非核心主题。

CompactRAG：减少多跳问答中LLM调用和token开销

CompactRAG: Reducing LLM Calls and Token Overhead in Multi-Hop Question Answering

Hao Yang, Zhiyu Yang, Xupeng Zhang, Wei Wei, Yunjie Zhang et al.

Hao Yang (State Key Laboratory for Novel Software Technology, Nanjing UniversitySuzhouJiangsuChina) | Zhiyu Yang (Erik Jonsson School of Engineering and Computer Science, University of Texas at DallasRichardsonTexasUSA) | Xupeng Zhang (Isoftstone Information Technology (Group) Co.,Ltd.BeijingChina)

6/10 2026-02-05 cs.CL PDF

检索增强生成（RAG）已成为知识密集型问答的关键范式。然而，现有的多跳RAG系统效率较低，因为它们在每一步之间交替进行检索和推理，导致重复的LLM调用、高token消耗以及跨跳实体锚定不稳定。本文提出CompactRAG，一种简单而有效的框架，将离线语料库重构与在线推理解耦。在离线阶段，LLM一次性读取语料库并将其转换为原子QA知识库，以最小、细粒度的问题-答案对表示知识。在线阶段，复杂查询被分解并仔细重写以保持实体一致性，然后通过密集检索和基于RoBERTa的答案提取进行处理。值得注意的是，在推理过程中，无论推理跳数多少，LLM仅被调用两次——一次用于子问题分解，一次用于最终答案合成。实验表明，CompactRAG在HotpotQA、2WikiMultiHopQA和MuSiQue数据集上实现了与迭代RAG基线相当的准确性，同时显著减少了token消耗，突显了其在大规模知识语料库上进行多跳推理时的成本效益和实用性。

RAG 多跳问答知识检索 LLM优化

论文涉及RAG系统优化，减少LLM调用和token消耗，与Agent Memory中的知识存储和检索相关。

AgentXRay：通过工作流重建实现智能体系统的白盒化

AgentXRay: White-Boxing Agentic Systems via Workflow Reconstruction

Ruijie Shi, Houbin Zhang, Yuecheng Han, Yuheng Wang, Jingru Fan et al.

6/10 2026-02-05 cs.AI PDF

大型语言模型在复杂问题解决方面表现出强大能力，然而许多智能体系统由于内部工作流程不透明而难以解释和控制。尽管一些框架提供了显式的协作架构，但许多已部署的智能体系统对用户而言仍是黑箱。本文提出了一种新的任务——智能体工作流重建（AWR），旨在仅通过输入-输出访问来合成一个可解释的替代工作流以近似黑箱系统。我们提出了AgentXRay，这是一个基于搜索的框架，将AWR建模为离散智能体角色和工具调用的组合优化问题。与模型蒸馏不同，AgentXRay生成可编辑的白盒工作流，在可观测的输出基础上匹配目标输出，无需访问模型参数。为了应对庞大的搜索空间，AgentXRay采用增强的蒙特卡洛树搜索机制，并结合基于评分的红黑剪枝策略，动态整合代理质量与搜索深度。实验表明，AgentXRay在多个领域中实现了更高的代理相似性并减少了token消耗，从而在固定迭代预算下实现了更深入的工作流探索。

智能体系统工作流重建白盒化搜索算法

论文涉及对Agent系统内部工作流程的重建，与Memory相关但非核心主题。

Double-P：用于长上下文大语言模型的层次化Top-P稀疏注意力机制

Double-P: Hierarchical Top-P Sparse Attention for Long-Context LLMs

Wentao Ni, Kangqi Zhang, Zhongming Yu, Oren Nelson, Mingu Lee et al.

6/10 2026-02-05 cs.LG PDF

随着长上下文推理在大语言模型（LLMs）中变得至关重要，对不断增长的键值缓存进行注意力计算成为解码过程的主要瓶颈，这促使研究者采用稀疏注意力机制以实现可扩展的推理。现有的固定预算Top-k稀疏注意力方法无法适应不同头和层之间的异质性注意力分布，而Top-p稀疏注意力则直接保留注意力质量并提供更强的准确性保障。然而，现有Top-p方法未能同时优化Top-p精度、选择开销和稀疏注意力成本，限制了整体效率。本文提出Double-P，一种分层稀疏注意力框架，能够优化这三个阶段。Double-P首先在集群级别使用大小加权中心点进行粗粒度Top-p估计，然后通过第二阶段的Top-p自适应地分配仅需的标记级注意力。在长上下文基准测试中，Double-P始终实现接近零的精度下降，将注意力计算开销减少高达1.8倍，并在端到端解码速度上比最先进的固定预算稀疏注意力方法快1.3倍。

稀疏注意力长上下文推理 LLM优化 Top-p机制

论文涉及稀疏注意力机制以优化长上下文推理，与Agent Memory中的高效注意力管理相关。

群体进化智能体：通过经验共享实现开放式的自我改进

Group-Evolving Agents: Open-Ended Self-Improvement via Experience Sharing

Zhaotian Weng, Antonis Antoniades, Deepak Nathani, Zhen Zhang, Xiao Pu et al.

6/10 2026-02-04 cs.AI PDF

开放式自我改进智能体能够自主修改自身结构设计以提升能力并克服预定义架构的限制，从而减少对人工干预的依赖。本文提出了一种新的开放式自我改进范式——群体进化智能体（GEA），将一组智能体作为基本进化单元，使群体内部在进化过程中实现显式的经验共享与重用。与现有采用树状进化的开放式自进化范式不同，GEA克服了孤立进化分支导致探索多样性利用效率低下的问题。我们在具有挑战性的编程基准上评估了GEA，其性能显著优于最先进的自进化方法，并在两个基准测试中匹配或超过了顶级人工设计的智能体框架。分析表明，GEA更有效地将早期探索多样性转化为持续的长期进步，在相同数量的进化智能体下表现出更强的性能。此外，GEA在不同编程模型间具有良好的迁移能力和更高的鲁棒性，平均仅需1.4次迭代即可修复框架级错误，而自进化方法需要5次。

Agent Evolution Experience Sharing Self-Improvement Coding Benchmarks

论文涉及经验共享机制，与Agent Memory相关，但非核心研究主题。

医疗与医学中的智能代理：基于LLM的代理的七维分类用于实证评估

Agentic AI in Healthcare & Medicine: A Seven-Dimensional Taxonomy for Empirical Evaluation of LLM-based Agents

Shubham Vatsal, Harsh Dubey, Aditi Singh

6/10 2026-02-04 cs.AI PDF

基于大语言模型（LLM）的智能代理在医疗和医学领域中已开始发挥作用，能够执行从电子健康记录分析、鉴别诊断到治疗计划和研究工作流程等多种任务。然而，现有文献多为综述性内容，缺乏统一框架。本文通过一个七维分类体系对49项研究进行回顾，包括认知能力、知识管理、交互模式、适应与学习、安全与伦理、框架类型及核心任务与子任务等29个操作子维度。采用明确的纳入与排除标准及标注规则，将每项研究映射至该分类体系，并报告能力分布与共现模式的定量总结。实证分析显示，某些子维度如外部知识整合实现率较高，而事件触发激活和漂移检测与缓解则几乎未被实现。架构上，多代理设计是主流模式，而协调层仍处于部分实现阶段。在核心任务方面，信息导向的能力较为突出，而行动与发现导向的任务仍存在较大缺口。

LLM Agent 医疗应用分类体系能力评估知识管理

论文提到了Memory作为LLM Agent的一个能力维度，但并非核心研究内容。

利用上下文信息改进非正式政治讨论中立场检测的LLM方法

Exploiting contextual information to improve stance detection in informal political discourse with LLMs

Arman Engin Sucu, Yixiang Zhou, Mario A. Nascimento, Tony Mullen

6/10 2026-02-04 cs.CL PDF

本研究探讨了在非正式在线政治讨论中使用大型语言模型（LLMs）进行立场检测的问题，其中语言往往带有讽刺、歧义和依赖上下文。我们研究了是否提供上下文信息，特别是从历史帖子中提取的用户档案摘要，可以提高分类准确性。通过一个真实的政治论坛数据集，我们生成了结构化的用户档案，总结了用户的意识形态倾向、常见话题和语言模式。我们对七种最先进的LLMs在基线和上下文增强设置下进行了全面的跨模型评估。研究结果表明，上下文提示显著提升了准确率，提升幅度在17.5%到38.5%之间，最高达到74%，优于之前的方法。我们还分析了档案大小和帖子选择策略对性能的影响，发现战略性选择的政治内容比随机选择的更大上下文效果更好。这些发现强调了在复杂的政治分类任务中结合用户级上下文以提高LLM性能的价值。

LLM 上下文信息政治立场检测用户档案分类准确性

论文涉及利用用户历史信息作为上下文提升LLM性能，与Agent Memory相关但非核心主题。

用智能代理AI支持软件工程任务：以文档检索和测试场景生成为例

Supporting software engineering tasks with agentic AI: Demonstration on document retrieval and test scenario generation

Marian Kica, Lukas Radosky, David Slivka, Karin Kubinova, Daniel Dovhun et al.

6/10 2026-02-04 cs.SE PDF

大型语言模型的引入引发了软件开发模式的重大变革与重构。软件工程研究随之涌现出大量工具和方法。本文通过引入智能代理AI解决方案来应对两项任务。首先，我们开发了一种从详细需求描述中自动生成测试场景的解决方案。该方法依赖于具有监督代理中心的星型拓扑结构的专业工作者代理。我们在一个现实案例中展示了其能力。其次，我们开发了一种用于软件工程文档检索的智能代理AI解决方案。该方案能够在单个软件开发相关的文档集合上执行多种使用案例，包括搜索、问答、变更追踪和大文档摘要。在这种情况下，每个使用案例都由一个专门的基于LLM的代理处理，该代理完成所有与对应使用案例相关的子任务。最后，我们简要指出了本研究方向的未来展望。

软件工程代理系统文档检索测试场景生成

论文涉及Agent在软件工程任务中的应用，但未明确讨论Memory机制。

使用稀疏注意力解决RAG中的语料库知识投毒攻击

Addressing Corpus Knowledge Poisoning Attacks on RAG Using Sparse Attention

Sagie Dekel, Moshe Tennenholtz, Oren Kurland

6/10 2026-02-04 cs.IR PDF

检索增强生成（RAG）是一种有效保持基于LLM响应更新并减少幻觉的方法。然而，最近研究表明RAG对语料库知识投毒攻击非常脆弱：攻击者通过注入误导性文档来操控LLM的输出。我们认为标准的因果注意力机制在攻击场景下允许有害的跨文档交互。为此，我们提出了一种新的防御方法：稀疏文档注意力RAG（SDAG），这是一种块稀疏注意力机制，禁止检索文档之间的交叉注意力。SDAG仅需对注意力掩码进行最小的推理时间修改，且无需微调或额外架构改动。我们对多种攻击策略下的基于LLM的问答任务进行了实证评估，结果表明SDAG在攻击成功率方面显著优于标准因果注意力机制。此外，我们将SDAG与最先进的RAG防御方法结合，进一步展示了其性能优势。

RAG 注意力机制防御方法知识投毒

论文涉及RAG中的注意力机制与文档交互，间接关联到Agent Memory的管理与防护。

WideSeek-R1: 通过多智能体强化学习探索宽度扩展以实现广泛的信息检索

WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

Zelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu et al.

6/10 2026-02-04 cs.AI PDF

近年来，大型语言模型（LLMs）的发展主要集中在深度扩展上，即单个代理通过多轮推理和工具使用解决长期任务。然而，随着任务范围的扩大，关键瓶颈从个体能力转移到组织能力。本文探讨了通过多智能体系统进行宽度扩展以应对广泛信息检索的问题。现有系统通常依赖手工设计的工作流程和轮流交互，难以有效并行化工作。为此，我们提出了WideSeek-R1，一种通过多智能体强化学习（MARL）训练的主代理-子代理框架，以协同实现可扩展的调度和并行执行。利用共享的LLM和隔离上下文及专用工具，WideSeek-R1在20k个广泛信息检索任务的数据集上联合优化主代理和并行子代理。实验表明，WideSeek-R1-4B在WideSearch基准测试中实现了40.0%的物品F1分数，与单代理DeepSeek-R1-671B的性能相当。此外，随着并行子代理数量的增加，WideSeek-R1-4B表现出持续的性能提升，突显了宽度扩展的有效性。

多智能体系统强化学习信息检索宽度扩展

论文涉及多智能体系统中的信息寻求，与Agent Memory相关但非核心主题。

VILLAIN在AVerImaTeC中的应用：通过多智能体协作验证图像-文本声明

VILLAIN at AVerImaTeC: Verifying Image-Text Claims via Multi-Agent Collaboration

Jaeyoon Jung, Yejun Yoon, Seunghyun Yoon, Kunwoo Park

6/10 2026-02-04 cs.CL PDF

本文介绍了VILLAIN，一种基于提示的多智能体协作的多模态事实核查系统，用于验证图像-文本声明。针对AVerImaTeC共享任务，VILLAIN在事实核查的不同阶段使用了视觉语言模型代理。从通过额外网络收集丰富知识库中检索出的文本和视觉证据，模态特定和跨模态代理生成分析报告。随后，根据这些报告生成问题-答案对。最后，判决预测代理基于图像-文本声明和生成的问题-答案对得出验证结果。我们的系统在所有评估指标中均排名第一。源代码可在https://github.com/ssu-humane/VILLAIN公开获取。

多模态事实核查多智能体协作视觉语言模型

论文涉及多智能体协作中的信息检索与存储，但未明确聚焦于Agent Memory机制本身。

Code

Vibe AIGC：通过智能体编排实现内容生成的新范式

Vibe AIGC: A New Paradigm for Content Generation via Agentic Orchestration

Jiaheng Liu, Yuanxing Zhang, Shihao Li, Xinping Lei

6/10 2026-02-04 cs.AI PDF

在过去十年中，生成式人工智能的发展主要依赖于以模型为中心的范式，该范式由规模定律驱动。尽管在视觉保真度方面取得了显著进展，但这种方法遇到了“可用性天花板”，表现为意图-执行差距（即创作者的高层意图与当前单次推理模型的随机性和黑箱特性之间的根本差异）。本文受Vibe编码启发，提出了一种新的内容生成范式——Vibe AIGC，通过智能体编排实现自主合成的分层多智能体工作流。在此范式下，用户角色超越了传统的提示工程，转变为提供“Vibe”（包含审美偏好、功能逻辑等的高层表示）的指挥官。一个中央元规划器作为系统架构师，将这一“Vibe”分解为可执行、可验证和自适应的智能体流程。通过从随机推理向逻辑编排的转变，Vibe AIGC弥合了人类想象力与机器执行之间的差距。我们认为，这种转变将重新定义人机协作经济，使AI从脆弱的推理引擎转变为强大的系统级工程合作伙伴，从而民主化复杂、长期数字资产的创作。

AIGC 智能体编排意图解析内容生成

论文涉及多智能体协作与高层意图解析，间接关联记忆机制，但非核心研究内容。

Model-Dowser：无数据重要性探测以减轻多模态大语言模型的灾难性遗忘

Model-Dowser: Data-Free Importance Probing to Mitigate Catastrophic Forgetting in Multimodal Large Language Models

Hyeontaek Hwang, Nguyen Dinh Son, Daeyoung Kim

6/10 2026-02-04 cs.CL PDF

在多模态大语言模型（MLLMs）上进行任务特定数据的微调是提高下游应用性能的有效方法。然而，这种适应通常会导致预训练任务上的泛化能力下降，这一现象被称为灾难性遗忘。现有方法在微调语言解码器深层时效果不佳或难以扩展到更大的模型。为此，我们提出Model-Dowser，一种新颖的稀疏微调方法。该方法通过联合考虑权重幅度、输入激活和输出敏感度，为每个模型参数计算一个关于预训练泛化能力的重要性评分。在微调过程中，Model-Dowser选择性地保留高重要性参数并更新其余参数。在两个代表性MLLMs（LLaVA和NVILA）上的全面实验表明，Model-Dowser有效缓解了灾难性遗忘，并且在资源效率和可扩展性方面优于先前方法。

灾难性遗忘稀疏微调多模态大语言模型重要性评分

论文涉及缓解灾难性遗忘问题，与Agent Memory相关，但非核心主题。

情境拖累：上下文中的错误如何影响大语言模型的推理

Contextual Drag: How Errors in the Context Affect LLM Reasoning

Yun Cheng, Xingyu Zhu, Haoyu Zhao, Sanjeev Arora

6/10 2026-02-04 cs.CL PDF

许多大型语言模型（LLMs）自我改进流程的核心假设是模型可以通过反思过去的错误来提升性能。本文研究了一种称为情境拖累的现象：上下文中失败尝试的存在会使后续生成偏向结构相似的错误。通过对11个专有和开源模型在8项推理任务上的评估发现，情境拖累会导致10%-20%的性能下降，并且在具有严重情境拖累的模型中，迭代自我优化可能退化为自我恶化。通过树编辑距离的结构分析表明，后续推理轨迹会继承上下文中的结构相似错误模式。研究表明，外部反馈或成功的自我验证无法完全消除这一现象。尽管回退行为微调和上下文去噪等缓解策略能带来部分改善，但无法完全恢复基线性能，表明情境拖累是当前推理架构中一种持续存在的失效模式。

LLM 推理错误上下文影响自我优化情境拖累

论文探讨了上下文中的错误对LLM推理的影响，与Agent Memory中错误记忆或上下文依赖相关。

语言模型难以利用上下文中学习到的表示

Language Models Struggle to Use Representations Learned In-Context

Michael A. Lepori, Tal Linzen, Ann Yuan, Katja Filippova

6/10 2026-02-04 cs.CL PDF

尽管大型语言模型（LLMs）在各种任务中取得了显著成功，但它们在适应全新部署环境方面仍存在不足。本研究旨在探讨LLMs是否能够利用从上下文中学习到的表示来完成下游任务。通过评估开放权重的LLMs在下一个标记预测和自适应世界建模任务中的表现，发现即使这些模型能够编码上下文语义，也难以灵活地部署这些表示。此外，对封闭源代码的最先进推理模型进行测试，结果表明即使是性能最佳的LLMs也无法可靠地利用上下文中提供的新模式。该研究旨在启发新的方法，使模型不仅能够编码上下文信息，还能以支持灵活部署的方式进行编码。

LLM 上下文表示学习记忆部署自适应建模

论文探讨了LLM在上下文表示学习中的表现，涉及记忆的使用和部署问题。

知识模型提示提升大型语言模型在规划任务中的表现

Knowledge Model Prompting Increases LLM Performance on Planning Tasks

Erik Goh, John Kos, Ashok Goel

6/10 2026-02-03 cs.AI PDF

大型语言模型（LLM）在推理和规划任务中存在困难。尽管已有多种提示技术如思维链（CoT）被提出以辅助LLM推理，但这些方法的有效性也受到质疑。本文借鉴认知与教育科学领域，研究Task-Method-Knowledge（TMK）框架是否能进一步提升LLM的推理能力。TMK框架能够捕捉因果、目的性和层次化推理结构，并通过显式的任务分解机制，特别适合解决语言模型的推理缺陷。研究在PlanBench基准上进行实验，重点测试Blocksworld领域中的推理与规划能力，评估TMK结构化提示是否有助于将复杂规划问题分解为可管理的子任务。结果表明，TMK提示使推理模型在某些任务上的准确率从31.5%提升至97.3%，显示出其在语义近似与符号操作之间的桥梁作用。研究指出，TMK不仅作为上下文，还作为一种机制引导推理模型远离默认的语言模式，转向形式化的代码执行路径。

LLM推理任务分解知识表示规划任务 TMK框架

论文探讨了TMK框架对LLM推理能力的提升，涉及任务分解与知识表示，与Agent Memory相关但非核心。

AOrchestra：为智能体编排自动化创建子代理

AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration

Jianhao Ruan, Zhihao Xu, Yiran Peng, Fashen Ren, Zhaoyang Yu et al.

6/10 2026-02-03 cs.AI PDF

语言智能体在任务自动化方面展现出巨大潜力。为了应对日益复杂和长期的任务，多轮任务求解中出现了将子代理作为工具的范式。然而，现有设计缺乏对子代理的动态抽象视图，影响了系统的适应性。本文提出了一种统一且框架无关的智能体抽象方法，将任何智能体建模为一个四元组（Instruction, Context, Tools, Model），该四元组作为能力组合的配方，使系统能够按需生成专门的执行器。基于此抽象，我们引入了一个名为AOrchestra的智能体系统，其中中央协调器在每一步具体化该四元组：它筛选任务相关的上下文，选择工具和模型，并通过即时自动创建代理进行委托执行。这种设计减少了人工工程努力，并支持多种智能体作为任务执行器的即插即用。此外，它还实现了可控的性能-成本权衡，使系统接近帕累托最优。在三个具有挑战性的基准测试（GAIA、SWE-Bench、Terminal-Bench）中，AOrchestra在与Gemini-3-Flash结合时，相对于最强基线实现了16.28%的相对改进。

Agent Orchestration Sub-Agent Creation Dynamic Abstraction Task Automation

论文涉及Agent系统中的子代理创建与任务执行，间接关联到记忆机制，但未直接研究Memory。

Code

通过对比动态分支采样训练多轮搜索代理

Training Multi-Turn Search Agent via Contrastive Dynamic Branch Sampling

Yubao Zhao, Weiquan Huang, Sudong Wang, Ruochen Zhao, Chen Chen et al.

6/10 2026-02-03 cs.CL PDF

智能体强化学习使大型语言模型能够执行复杂的多轮规划和工具使用。然而，在长时域设置中，由于稀疏的轨迹级结果奖励，学习仍然具有挑战性。尽管先前基于树的方法试图缓解这一问题，但它们通常存在高方差和计算效率低的问题。通过对搜索代理的实证分析，我们发现一个常见模式：性能差异主要源于尾部附近的决策。受此启发，我们提出了一种无价值的方法——分支相对策略优化（BranPO），它在没有密集奖励的情况下提供步骤级别的对比监督。BranPO在轨迹尾部进行截断，并重新采样替代的延续路径，以构建共享前缀上的对比后缀，从而减少长时域展开中的信用模糊。为进一步提高效率并稳定训练，我们引入了难度感知的分支采样，以适应不同任务的分支频率，并采用冗余步骤掩码来抑制无信息动作。在多个问答基准测试中的广泛实验表明，BranPO始终优于强大的基线方法，在不增加整体训练预算的情况下显著提升了长时域任务的准确性。我们的代码可在https://github.com/YubaoZhao/BranPO获取。

强化学习多轮搜索代理对比学习轨迹优化

论文涉及多轮搜索代理的训练，通过对比动态分支采样优化记忆相关决策，但未直接研究记忆机制本身。

Code

OmniRAG-Agent：面向低资源长音频视频问答的智能体多模态推理方法

OmniRAG-Agent: Agentic Omnimodal Reasoning for Low-Resource Long Audio-Video Question Answering

Yifan Zhu, Xinyu Mu, Tao Feng, Zhonghong Ou, Yuning Gong et al.

Yifan Zhu (Beijing University of Posts and Telecommunications2Nanyang Technological University3Tsinghua University) | Xinyu Mu (Beijing University of Posts and Telecommunications2Nanyang Technological University3Tsinghua University) | Tao Feng (Beijing University of Posts and Telecommunications2Nanyang Technological University3Tsinghua University)

6/10 2026-02-03 cs.CL PDF

长时域多模态问答任务需要对文本、图像、音频和视频进行推理。尽管OmniLLMs取得了一定进展，但在低资源环境下，长音频视频问答仍面临密集编码成本高、细粒度检索能力弱、主动规划能力有限以及缺乏端到端优化等问题。为解决这些问题，本文提出OmniRAG-Agent，一种用于预算受限长音频视频推理的智能体多模态问答方法。该方法构建了一个图像-音频检索增强生成模块，使OmniLLM能够从外部存储库中获取相关片段和音频片段。此外，它使用一个智能体循环来规划、跨轮次调用工具并合并检索证据以回答复杂问题。进一步地，我们应用了组相对策略优化方法，以联合改进工具使用和答案质量。在OmniVideoBench、WorldSense和Daily-Omni数据集上的实验表明，OmniRAG-Agent在低资源设置下始终优于先前方法，并取得了良好的效果，消融实验验证了每个组件的有效性。

多模态问答智能体系统检索增强生成低资源学习

论文涉及基于记忆的检索增强生成和多模态推理，但核心是Agent系统设计而非Memory机制本身。

TodyComm: 面向任务的动态通信用于基于LLM的多轮多代理系统

TodyComm: Task-Oriented Dynamic Communication for Multi-Round LLM-based Multi-Agent System

Wenzhe Fan, Tommaso Tognoli, Henry Peng Zou, Chunyu Miao, Yibo Wang et al.

6/10 2026-02-03 cs.AI PDF

基于LLM的多轮多代理系统依赖于有效的通信结构以支持跨轮次协作。然而，现有方法大多在推理过程中采用固定的通信拓扑，难以应对现实中因动态对抗、任务进展或通信带宽等时变约束导致的代理角色变化。本文提出TodyComm，一种面向任务的动态通信算法，通过行为驱动的协作拓扑适应每一轮的动态变化，并利用策略梯度优化任务效用。实验结果表明，在动态对抗和通信预算限制下，TodyComm在保持标记效率和可扩展性的同时，实现了更优的任务效果。

多代理系统动态通信策略梯度任务导向

论文涉及多轮代理系统中的动态通信机制，与Agent Memory相关但非核心主题。

EHRWorld：一种以患者为中心的长期临床轨迹医疗世界模型

EHRWorld: A Patient-Centric Medical World Model for Long-Horizon Clinical Trajectories

Linjie Mu, Zhongzhen Huang, Yannian Gu, Shengqian Qin, Shaoting Zhang et al.

6/10 2026-02-03 cs.AI PDF

世界模型为在干预下模拟未来状态提供了一个系统的框架，但在医学等复杂、高风险领域实现此类模型仍具挑战性。近期的大语言模型（LLMs）在静态医疗推理任务中表现出色，但其是否能作为动态医疗世界模型来模拟疾病进展和治疗结果仍需验证。本文表明，仅依赖医疗知识的LLMs难以在连续干预下保持一致的患者状态，导致长期临床模拟中的误差累积。为此，我们引入了EHRWorld，一个基于因果序列范式的以患者为中心的医疗世界模型，并构建了EHRWorld-110K数据集，该数据集来源于真实世界的电子健康记录。大量实验表明，EHRWorld显著优于基于LLM的简单基线方法，在长期模拟稳定性、临床敏感事件建模及推理效率方面表现更优，突显了在因果基础和时间演变的临床数据上训练对可靠且稳健的医疗世界建模的重要性。

医疗AI 世界模型长期预测电子健康记录

论文涉及长期临床轨迹模拟，与Agent Memory相关，但核心是医疗世界模型而非记忆机制。

HySparse：一种结合Oracle令牌选择和KV缓存共享的混合稀疏注意力架构

HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

Yizhao Gao, Jianyu Wei, Qihao Zhang, Yu Cheng, Shimao Chen et al.

6/10 2026-02-03 cs.CL PDF

本文提出了一种名为HySparse的新架构，该架构在每个完整的注意力层之间交错多个稀疏注意力层。HySparse通过从先前的完整注意力层中直接推导出稀疏层的令牌选择和KV缓存，解决了现有稀疏注意力方法的两个基本限制。首先，传统方法通常依赖额外的代理来预测令牌重要性，增加了复杂度并可能导致性能不佳；而HySparse使用完整注意力层作为精确的“预言机”来识别重要令牌。其次，现有稀疏注意力设计往往减少了计算量但未节省KV缓存；HySparse使稀疏注意力层能够复用完整注意力的KV缓存，从而减少计算和内存消耗。实验表明，在7B密集模型和80B MoE模型上，HySparse均优于全注意力和混合SWA基线。特别是在80B MoE模型中，仅5层使用完整注意力，但HySparse仍实现了显著的性能提升，并将KV缓存存储减少了近10倍。

稀疏注意力 KV缓存优化模型压缩 Transformer架构

论文涉及KV缓存共享与稀疏注意力机制，与Agent Memory相关但非核心主题。

通过多智能体系统进行时间序列的视觉推理

Visual Reasoning over Time Series via Multi-Agent System

Weilin Ruan, Yuxuan Liang

6/10 2026-02-03 cs.AI PDF

时间序列分析在许多现实应用中具有基础性作用，然而现有针对时间序列的方法和基于预训练大模型的方法在整合直观的视觉推理和跨任务泛化方面仍存在局限。为解决这些问题，我们提出了MAS4TS，一种以工具驱动的多智能体系统，用于通用时间序列任务。该系统基于分析器-推理器-执行器范式，在统一框架内整合了智能体通信、视觉推理和潜在空间重构。MAS4TS首先利用视觉语言模型对时间序列图进行结构化先验的视觉推理，提取时间结构，随后在潜在空间中重建预测轨迹。三个专门化的智能体通过共享内存和门控通信进行协调，同时一个路由器选择特定任务的工具链进行执行。在多个基准上的广泛实验表明，MAS4TS在多种时间序列任务中实现了最先进的性能，并表现出强大的泛化能力和高效的推理能力。

多智能体系统时间序列分析视觉推理共享内存潜在空间重构

论文提到了共享内存作为多智能体协调的关键机制，但并非核心研究内容。

自我验证困境：基于经验的LLM推理中过度验证行为的抑制

Self-Verification Dilemma: Experience-Driven Suppression of Overused Checking in LLM Reasoning

Quanyu Long, Kai Jie Jiang, Jianda Chen, Xu Guo, Leilei Gan et al.

6/10 2026-02-03 cs.CL PDF

大型推理模型（LRMs）通过生成长推理轨迹并进行反思来实现强大的性能。通过对大规模数据的实证分析发现，大量反思步骤包含重复确认中间结果的自我验证（重新检查）。这些重新检查在不同模型和基准测试中频繁出现，但绝大多数是确认性而非纠正性的，很少能发现错误或改变推理结果。这表明自我验证的激活频率与其实际效用之间存在不匹配。为此，我们提出了一种基于经验的测试时框架，以减少过度使用的验证。该方法检测重新检查行为的激活，参考历史验证结果的经验池，并通过高效检索估计是否可能不需要重新检查。当历史经验表明无需检查时，会发出抑制信号引导模型继续执行。在多个模型和基准测试中，我们的方法在保持准确率的同时减少了高达20.3%的token使用量，在某些数据集上甚至提升了准确率。

LLM推理自我验证经验驱动推理优化

论文探讨了LLM推理中自我验证机制的过度使用问题，与Agent Memory中的反思和验证机制相关。

IntentRL：通过强化学习训练用于开放性深度研究的主动用户意图代理

IntentRL: Training Proactive User-intent Agents for Open-ended Deep Research via Reinforcement Learning

Haohao Luo, Zexi Li, Yuexiang Xie, Wenhao Zhang, Yaliang Li et al.

6/10 2026-02-03 cs.AI PDF

深度研究（DR）代理通过自主检索和综合大规模网络语料库中的证据生成长篇报告，扩展了大语言模型（LLMs）的参数化知识，实现了长期视角的智能体范式。然而，与实时对话助手不同，DR计算成本高且耗时，导致自主性与交互性的矛盾：在模糊用户查询上高自主性常导致执行时间过长且结果不理想。为此，我们提出IntentRL框架，训练主动代理在开始长期研究前明确潜在用户意图。为克服开放性研究数据稀缺的问题，我们引入了一个可扩展的流程，通过浅到深的意图优化图将少量种子样本扩展为高质量的对话回合。此外，我们采用两阶段强化学习（RL）策略：第一阶段在离线对话中应用RL以高效学习通用用户交互行为，第二阶段使用训练好的代理和用户模拟器进行在线推演，以增强对多样化用户反馈的适应能力。大量实验表明，IntentRL显著提升了意图命中率和下游任务性能，优于封闭源DR代理内置的澄清模块和主动LLM基线。

强化学习意图识别深度研究代理对话系统

论文涉及Agent在处理用户意图时的主动澄清机制，与记忆相关但非核心主题。

DiscoverLLM：从执行意图到发现意图

DiscoverLLM: From Executing Intents to Discovering Them

Tae Soo Kim, Yoonjoo Lee, Jaesang Yu, John Joon Young Chung, Juho Kim

6/10 2026-02-03 cs.AI PDF

为处理模糊和开放式的请求，大型语言模型（LLMs）正被越来越多地训练以与用户互动，从而揭示用户尚未表达的意图（例如，提出澄清问题）。然而，用户往往由于尚未形成明确意图而表现出模糊性，他们必须通过观察和探索结果来发现自己的需求。简单地询问“你想要什么样的语气？”在用户自身也不清楚时会失效。我们引入了DiscoverLLM，这是一种新颖且通用的框架，用于训练LLMs帮助用户形成并发现其意图。我们的方法核心是一个新的用户模拟器，该模拟器通过一个分层的意图体系建模认知状态，并随着模型呈现相关选项逐步具体化——其中具体化的程度作为模型优化的奖励信号。由此得到的模型能够通过适应性发散（即探索选项）在意图不明确时协作，而在意图具体化时收敛（即精炼和实施）。在创意写作、技术写作和SVG绘图等提出的交互式基准测试中，DiscoverLLM实现了超过10%的任务性能提升，同时将对话长度减少了高达40%。在一项包含75名参与者的用户研究中，DiscoverLLM相比基线方法显著提高了对话满意度和效率。

意图发现人机交互 LLM框架用户模拟器

论文涉及用户意图发现与LLM交互，隐含记忆机制但非核心主题。

追求医疗领域检索增强生成的最佳工业实践

Pursuing Best Industrial Practices for Retrieval-Augmented Generation in the Medical Domain

Wei Zhu

6/10 2026-02-03 cs.CL PDF

尽管基于大语言模型（LLMs）的检索增强生成（RAG）已在工业应用中迅速采用，但在构建RAG系统方面，特别是在医疗领域，尚未就最佳实践达成共识，包括系统的组成部分、如何组织这些部分以及如何实现每个部分。本文首先仔细分析了RAG系统的每个组件，并为每个组件提出了实际的替代方案。随后，我们对三种类型的任务进行了系统评估，揭示了改进RAG系统的方法以及基于LLM的RAG系统在性能和效率之间的权衡方式。

RAG 医疗领域 LLM 系统优化

论文涉及RAG系统组件及优化，与Agent Memory相关但非核心主题。

MIRROR：一种具有迭代自适应修订和分层检索的多智能体框架，用于运筹学中的优化建模

MIRROR: A Multi-Agent Framework with Iterative Adaptive Revision and Hierarchical Retrieval for Optimization Modeling in Operations Research

Yifan Shi, Jialong Shi, Jiayi Wang, Ye Fan, Jianyong Sun

6/10 2026-02-03 cs.CL PDF

运筹学（OR）依赖于专家驱动的建模过程，这一过程缓慢且脆弱，难以应对新场景。尽管大语言模型（LLMs）可以自动将自然语言转换为优化模型，但现有方法要么依赖昂贵的后训练，要么采用多智能体框架，但仍缺乏可靠的协作错误纠正和任务特定检索，常导致输出错误。本文提出MIRROR，一种无需微调的端到端多智能体框架，可直接将自然语言优化问题转化为数学模型和求解器代码。MIRROR集成了两个核心机制：（1）基于执行的迭代自适应修订，用于自动错误纠正；（2）分层检索机制，从精心构建的示例库中获取相关的建模和编码示例。实验表明，MIRROR在标准OR基准测试中优于现有方法，在复杂工业数据集如IndustryOR和Mamo-ComplexLP上表现尤为突出。通过结合精确的外部知识注入与系统性错误纠正，MIRROR为非专家用户提供了一种高效可靠的OR建模解决方案，克服了通用LLMs在专家优化任务中的根本性局限。

多智能体系统优化建模错误纠正分层检索自然语言处理

论文涉及多智能体框架中的错误修正与检索机制，与Agent Memory相关但非核心主题。

MeetBench-XL：面向实时会议的校准多维评估与学习双策略代理

MeetBench-XL: Calibrated Multi-Dimensional Evaluation and Learned Dual-Policy Agents for Real-Time Meetings

Yuelin Hu, Jun Xu, Bingcong Lu, Zhengxue Cheng, Hongwei Hu et al.

6/10 2026-02-03 cs.AI PDF

企业会议环境需要能够在严格延迟、成本和隐私约束下处理多样化操作任务的人工智能助手，例如实时讨论中的快速事实核查以及跨会议分析用于战略规划。现有会议基准主要集中在简化的问答任务上，未能反映真实企业工作流程中由多方协作产生的有机查询、长时序上下文和工具增强推理的需求。本文通过构建一个基于实际数据集和学习代理框架来弥补这一差距。首先，我们引入了MeetAll，这是一个从231场企业会议（总计140小时）中衍生出的双语多模态语料库。问题注入采用经过领域专家验证的企业导向协议，并通过人类可区分性研究进行校准。其次，我们提出了MeetBench XL，一种与人类判断对齐的多维评估协议，用于衡量事实准确性、意图一致性、响应效率、结构清晰度和完整性。第三，我们提出了MeetMaster XL，一种学习型双策略代理，能够联合优化快速与慢速推理路径之间的查询路由及工具调用，包括检索、跨会议聚合和网络搜索。轻量级分类器实现了准确的路由，具有最小开销，在质量与延迟之间取得了优于单模型基线的平衡。实验结果表明，该方法在商业系统上表现一致提升，并通过消融实验、鲁棒性测试和现实部署案例加以支持。

Agent Memory 多模态语料库双策略代理会议系统评估协议

论文涉及Agent在会议场景中的记忆与推理机制，但非核心研究主题。

Code

ATACompressor: 面向高效长上下文处理的自适应任务感知压缩方法

ATACompressor: Adaptive Task-Aware Compression for Efficient Long-Context Processing in LLMs

Xuancheng Li, Haitao Li, Yujia Zhou, Qingyao Ai, Yiqun Liu

Xuancheng Li (DCST, Tsinghua UniversityBeijingChina) | Haitao Li (DCST, Tsinghua UniversityBeijingChina) | Yujia Zhou (DCST, Tsinghua UniversityBeijingChina)

6/10 2026-02-03 cs.CL PDF

大型语言模型（LLMs）在处理长上下文输入时常常面临“中间信息丢失”问题，关键信息因长度过长而被稀释或忽略。现有的上下文压缩方法旨在通过减少输入规模来解决这一问题，但在信息保留和压缩效率之间难以取得平衡。本文提出了一种自适应任务感知压缩器（ATACompressor），该方法根据具体任务需求动态调整压缩策略。ATACompressor采用选择性编码器，仅对长上下文中与任务相关的部分进行压缩，从而确保关键信息得以保留并去除冗余内容。其自适应分配控制器能够感知相关内容的长度，并据此调整压缩率，以优化资源利用。我们在HotpotQA、MSMARCO和SQUAD三个问答数据集上评估了ATACompressor，结果表明其在压缩效率和任务性能方面均优于现有方法。此外，我们还进行了多种消融实验和分析实验，以深入理解ATACompressor的关键组成部分。

长上下文处理信息压缩任务感知 LLM优化

论文涉及长上下文处理中的信息压缩，与Agent Memory相关，但非核心研究。

Token Sparse Attention: 基于交错token选择的高效长上下文推理

Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection

Dongwon Jo, Beomseok Kang, Jiwon Song, Jae-Joon Kim

Jiwon Song (Seoul National University ,Department of Electric and Computer Engineering)

6/10 2026-02-03 cs.CL PDF

注意力机制的二次复杂度仍然是大语言模型长上下文推理的核心瓶颈。现有加速方法要么通过结构化模式稀疏化注意力图，要么在特定层永久移除token，这可能导致保留无关token或依赖不可逆的早期决策，而无法适应token重要性的逐层变化。本文提出了一种轻量且动态的token级稀疏化机制——Token Sparse Attention，在注意力计算过程中将每个head的Q、K、V压缩到一个缩减的token集合中，并在输出后将其解压回原始序列，从而允许后续层重新考虑token信息。此外，该方法揭示了token选择与稀疏注意力交汇的新设计点。该方法完全兼容密集注意力实现（如Flash Attention），并能无缝集成现有稀疏注意力内核。实验结果表明，Token Sparse Attention在保持精度损失低于1%的情况下，实现了最高达3.23倍的注意力加速效果，证明了动态且交错的token级稀疏化是可扩展长上下文推理的有效补充策略。

注意力机制长上下文推理稀疏化 token选择模型优化

论文提出了一种动态的token级稀疏化机制，与长上下文推理中的信息保留和处理相关，涉及记忆管理。

一个模型，多重角色：通过多轮、多智能体自我博弈强化学习实现对话社交智能

One Model, All Roles: Multi-Turn, Multi-Agent Self-Play Reinforcement Learning for Conversational Social Intelligence

Bowen Jiang, Taiwei Shi, Ryo Kamoi, Yuan Yuan, Camillo J. Taylor et al.

6/10 2026-02-03 cs.CL PDF

本文介绍了OMAR（One Model, All Roles）框架，该框架通过多轮、多智能体对话的自我博弈，使AI能够发展出社交智能。与传统依赖静态单轮优化的方法不同，OMAR允许单一模型同时扮演对话中的所有参与者，直接从动态社交互动中学习长期目标和复杂社会规范。为确保长对话中的训练稳定性，我们实现了分层优势估计方法，分别计算回合级和词级优势。在SOTOPIA社交环境和狼人杀策略游戏中评估表明，训练后的模型展现出细致的、涌现的社交智能，如共情、说服和寻求妥协等，展示了即使在竞争场景下协作学习的有效性。尽管我们识别了诸如奖励黑客等实际挑战，但结果表明，无需人工监督即可产生丰富的社交智能。希望本研究能激励进一步探索群体对话中AI社交智能的相关研究。

强化学习多智能体系统社交智能自我博弈

论文涉及多智能体对话中的长期目标学习，与记忆机制相关但非核心主题。

测试时递归思考：无需外部反馈的自我改进

Test-time Recursive Thinking: Self-Improvement without External Feedback

Yufan Zhuang, Chandan Singh, Liyuan Liu, Yelong Shen, Dinghuai Zhang et al.

6/10 2026-02-03 cs.CL PDF

现代大型语言模型（LLMs）在推理能力方面取得了快速进步，主要得益于使用可验证奖励的强化学习。本文探讨了这些LLMs是否可以在无需额外训练的情况下实现自我改进。我们识别出两个核心挑战：（i）高效生成多样且高质量的候选解决方案，以及（ii）在缺乏真实监督的情况下可靠地选择正确答案。为了解决这些问题，我们提出了测试时递归思考（TRT），一种迭代的自我改进框架，该框架基于特定回滚策略、积累的知识和自生成的验证信号进行生成。通过TRT，开源模型在AIME-25/24上达到了100%的准确率，并且在LiveCodeBench最难的问题上，闭源模型在没有外部反馈的情况下提高了10.4至14.8个百分点。

LLM Self-Improvement Recursive Thinking Verification Signals

论文提出了一种测试时递归思考框架，涉及自我改进和验证信号，与Agent Memory相关但非核心。

haystack中的触发器：提取和重建LLM后门触发器

The Trigger in the Haystack: Extracting and Reconstructing LLM Backdoor Triggers

Blake Bullwinkel, Giorgio Severi, Keegan Hines, Amanda Minnich, Ram Shankar Siva Kumar et al.

6/10 2026-02-03 cs.CR PDF

检测模型是否被投毒是AI安全领域的长期问题。在本研究中，我们提出了一种实用的扫描器，用于识别因果语言模型中的休眠代理式后门。我们的方法基于两个关键发现：首先，休眠代理倾向于记忆投毒数据，因此可以通过记忆提取技术泄露后门示例；其次，当输入中存在后门触发器时，中毒的LLM在输出分布和注意力头中表现出独特的模式。基于这些观察，我们开发了一种可扩展的后门扫描方法，该方法无需先验知识，仅需推理操作。我们的扫描器可以自然地整合到更广泛的防御策略中，且不会影响模型性能。我们展示了该方法在多种后门场景和广泛模型及微调方法中能够恢复有效的触发器。

LLM后门检测模型记忆提取 AI安全

论文涉及模型记忆提取与后门触发器检测，与Agent Memory相关但非核心主题。

Agent Alpha：通过树搜索统一生成、探索和评估的计算机使用代理

Agent Alpha: Tree Search Unifying Generation, Exploration and Evaluation for Computer-Use Agents

Sizhe Tang, Rongqian Chen, Tian Lan

6/10 2026-02-03 cs.AI PDF

尽管通过轨迹级采样扩展测试时计算能力显著提升了图形用户界面（GUI）代理的性能，但由于缺乏回溯能力，导致无法重用部分成功经验或从早期错误中恢复。本文提出了一种名为Agent Alpha的统一框架，通过步骤级蒙特卡洛树搜索（MCTS）协同生成、探索和评估过程，从而主动建模或利用规划空间的结构。通过将alpha-UCT引导搜索集成到交互循环中，Agent Alpha实现了有意识的规划，有助于早期剪枝次优分支并高效重用前缀。此外，还采用比较驱动评估以减少绝对评分偏差，并通过多样性约束扩展来保持紧凑且信息丰富的搜索空间。对alpha-UCT的遗憾界进行了分析。在OSWorld基准测试中，Agent Alpha在等量计算条件下取得了最先进的成功率（约77%），显著优于轨迹级基线方法。

蒙特卡洛树搜索代理规划探索与评估计算效率

论文涉及Agent的规划与搜索机制，提及前缀重用和探索策略，与记忆相关但非核心主题。

大型语言模型在推理时规划过程中可能采取错误的第一步

Large Language Models Can Take False First Steps at Inference-time Planning

Haijiang Yan, Jian-Qiao Zhu, Adam Sanborn

Haijiang Yan (haijiang.yan@warwick.ac.uk) (Department of Psychology, The University of Warwick) | Jian-Qiao Zhu (Department of Psychology, The University of Hong Kong) | Adam Sanborn (Department of Psychology, The University of Warwick)

6/10 2026-02-03 cs.AI PDF

大型语言模型（LLMs）在训练过程中已被证明能够获得序列级规划能力，但其在推理时表现出的规划行为往往短视且与其能力不一致。本文通过贝叶斯方法解释这一差距，认为规划行为受生成上下文的影响：由于自然语言与LLMs内部语言之间的细微差异，积累的自生成上下文会导致推理过程中的规划偏移，从而表现出规划能力下降的现象。通过两个受控实验验证该模型：一个随机生成任务展示了在人类提示下受限规划及随着自生成上下文积累规划强度增强的现象；另一个高斯采样任务则显示了在自生成序列条件下的初始偏差减少。这些发现为理解LLMs在推理过程中如何进行前瞻性规划提供了理论解释和实证依据。

LLM 推理规划生成上下文贝叶斯模型

论文探讨了LLM在推理时的规划行为与训练时能力的差异，涉及生成上下文对规划的影响，与Agent Memory相关。

用于交通协调的时空决策变换器

Spatiotemporal Decision Transformer for Traffic Coordination

Haoran Su, Yandong Sun, Hanxiao Deng

6/10 2026-02-02 cs.LG PDF

交通信号控制是城市交通中的关键挑战，需要多个交叉口之间的协调以优化整体交通流量。尽管强化学习在自适应信号控制中展现出潜力，现有方法在多智能体协调和样本效率方面存在困难。本文提出MADT（多智能体决策变换器），将多智能体交通信号控制重新表述为序列建模问题。MADT通过引入图注意力机制建模交叉口间的空间依赖关系、时序变换器编码器捕捉交通动态以及目标性能条件来扩展决策变换器范式至多智能体场景。该方法能够从历史交通数据中进行离线学习，并支持潜在的在线微调。实验表明，在合成网格网络和真实交通场景中，MADT实现了最先进的性能，相比最强基线平均减少了5-6%的旅行时间，并表现出更优的相邻交叉口协调能力。

多智能体系统交通信号控制决策变换器序列建模

论文涉及多智能体决策中的序列建模与目标性能条件，与Agent Memory相关但非核心主题。

WideSeek: 通过多智能体扩展推进广泛研究

WideSeek: Advancing Wide Research via Multi-Agent Scaling

Ziyang Huang, Haolin Ren, Xiaowei Yuan, Jiawei Wang, Zhongtao Jiang et al.

6/10 2026-02-02 cs.CL PDF

搜索智能正在从深度研究向广泛研究转变，这一范式对于在复杂约束下并行检索和综合全面信息至关重要。然而，该领域的发展受到缺乏专门的基准和优化方法的阻碍。为了解决这些问题，本文从数据管道和智能体优化两个角度深入研究广泛研究。首先，我们构建了WideSeekBench，这是一个通过严格多阶段数据管道生成的通用广域信息检索（GBIS）基准，确保目标信息量、逻辑约束和领域的多样性。其次，我们引入了WideSeek，一种动态分层的多智能体架构，可以根据任务需求自主创建并行子智能体。此外，我们设计了一个统一的训练框架，将多智能体轨迹线性化，并使用端到端强化学习优化系统。实验结果证明了WideSeek和多智能体强化学习的有效性，表明扩展智能体数量是推进广泛研究范式的有前途方向。

多智能体系统信息检索强化学习广泛研究

论文涉及多智能体架构与信息检索，但未直接探讨记忆机制。

面向多智能体讨论的上下文学习

Context Learning for Multi-Agent Discussion

Xingyuan Hua, Sheng Yue, Xinyi Li, Yizhe Zhao, Jinrui Zhang et al.

6/10 2026-02-02 cs.AI PDF

多智能体讨论（MAD）近期受到广泛关注，其中多个大语言模型（LLM）实例通过结构化讨论协同解决问题。然而，现有方法常因各智能体上下文不一致而导致讨论失谐，难以达成连贯解。本文提出一种多LLM上下文学习方法（M2CL），为每个智能体学习一个上下文生成器，可在每轮讨论中通过自动信息组织与精炼动态生成上下文指令。受上下文指令理论启发，M2CL采用精心设计的自适应机制训练生成器，以控制上下文一致性并调节输出差异，从而避免过早收敛于多数噪声，逐步达成正确共识。在学术推理、具身任务和移动控制等挑战性任务上的实验表明，M2CL性能显著优于现有方法20%–50%，且具备良好的迁移性与计算效率。

多智能体系统上下文学习

涉及上下文管理与信息组织，属记忆相关机制但非核心记忆架构。

信念的形状：语言模型后验表征流形上的几何、动态与干预

The Shape of Beliefs: Geometry, Dynamics, and Interventions along Representation Manifolds of Language Models' Posteriors

Raphaël Sarfati, Eric Bigelow, Daniel Wurgaft, Jack Merullo, Atticus Geiger et al.

6/10 2026-02-02 cs.CL PDF

大语言模型（LLMs）通过上下文构建对答案和主张的条件信念（即后验分布），但其在表征空间中如何编码、随新证据更新以及如何通过干预重塑这些信念尚缺乏机制性解释。本文在受控环境中研究Llama-3.2如何仅凭上下文中的样本隐式推断正态分布的参数（均值与标准差），并发现随着上下文学习的深入，参数的“信念流形”呈弯曲结构形成。当分布突变时，标准线性干预常使模型偏离流形，导致耦合且分布外的偏移；而基于几何与场感知的干预能更好保持目标信念族的结构。研究展示了线性场探测（LFP）作为一种简单方法，可对数据流形进行划分并实施尊重底层几何的干预，表明LLM中自然涌现出丰富结构，纯线性概念表征常不足以准确抽象。

belief representation representation geometry

研究LLM信念表征的几何结构与更新机制，涉及记忆中信念状态的动态演化。

WildGraphBench：基于真实来源语料库的图增强检索生成基准测试

WildGraphBench: Benchmarking GraphRAG with Wild-Source Corpora

Pengyu Wang, Benfeng Xu, Licheng Zhang, Shaohan Wang, Mingxuan Du et al.

6/10 2026-02-02 cs.CL PDF

基于图的检索增强生成（GraphRAG）将外部知识组织为层次化图结构，以高效检索并聚合分散于多文档中的证据。然而，现有GraphRAG基准多依赖短小、人工整理的段落，难以在包含长上下文和大规模异构文档的真实场景中有效评估系统性能。为此，本文提出WildGraphBench基准，利用维基百科文章与其外部参考文献之间的结构关系构建贴近现实的评测环境。该基准涵盖12个顶层主题，以外部参考文献作为检索语料库，引用链接的陈述作为真值，共生成1,100个问题，分为单事实问答、多事实问答和段落级摘要三类复杂度。实验表明，当前GraphRAG流程在中等数量来源的多事实聚合任务中表现良好，但在摘要任务中可能因过度强调高层陈述而忽略细粒度细节。

GraphRAG 知识图谱检索增强生成基准测试

涉及外部知识存储与检索机制，属于记忆相关应用但非核心记忆架构研究。

Code

从潜在信号到反思行为：追踪R1风格大语言模型中的元认知激活轨迹

From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs

Yanrui Du, Yibo Gao, Sendong Zhao, Jiayun Li, Haochun Wang et al.

6/10 2026-02-02 cs.CL PDF

R1风格的大语言模型因其自反能力备受关注，但其内在机制尚不明确。本文聚焦反思行为的起始点，逐层追踪其激活轨迹。通过logit lens解析token级语义，发现存在结构化进展：(i) 潜在控制层编码“思考预算”语义；(ii) 语义枢纽层浮现话语级线索（如转折点与总结提示）并主导概率分布；(iii) 行为显化层中反思行为token的采样概率显著上升。干预实验揭示了各阶段间的因果链：提示语义调节潜在控制方向的激活投影，引发语义枢纽层中线索竞争，进而调控反思行为token的采样可能性。结果表明该过程模拟了人类从潜意识监控、话语调控到显式自反的元认知路径。

元认知自反机制

探讨LLM反思行为的内部机制，涉及元认知与信息处理过程，间接关联记忆调控。

Code

超越局部编辑：用于更广泛评估与模型编辑中知识保留的嵌入虚拟化知识

Beyond Local Edits: Embedding-Virtualized Knowledge for Broader Evaluation and Preservation of Model Editing

Shuainan Liu, Xuanang Chen, Ben He, Le Sun

6/10 2026-02-02 cs.CL PDF

当前大语言模型的知识编辑方法通常依赖预定义基准，仅评估被编辑事实及其有限的相关知识，难以全面理解编辑对模型整体知识系统的影响。为此，本文提出嵌入虚拟化知识（EVK），通过在嵌入空间中施加受控扰动，刻画模型知识并探索超出显式数据标注的更广泛虚拟知识区域。基于EVK，作者构建了嵌入级评估基准EVK-Bench，可量化编辑引发的知识漂移，揭示传统样本级指标无法捕捉的影响。此外，还提出即插即用的EVK-Align模块，在编辑过程中约束嵌入级知识漂移，可无缝集成至现有编辑方法。实验表明，该方法在不牺牲编辑准确率的前提下显著提升知识保留能力，并支持更全面的评估。

知识编辑知识保留

涉及知识编辑对模型内部知识（记忆）的影响，但未聚焦Agent Memory架构。

像人类一样阅读：通过可并行的精读与略读压缩上下文

Read As Human: Compressing Context via Parallelizable Close Reading and Skimming

Jiwei Tang, Shilei Liu, Zhicheng Zhang, Qingsong Lv, Runsong Zhao et al.

6/10 2026-02-02 cs.CL PDF

大语言模型（LLMs）在多种任务中表现出卓越能力，但在长上下文场景中受限于计算效率低下和信息冗余。本文提出RAM（Read As HuMan）框架，借鉴人类阅读行为——对重要内容精读、对次要内容略读——将上下文分段并结合查询并行编码。高相关性片段完整保留，低相关性片段则通过查询引导压缩为紧凑摘要向量。显式文本片段与隐式摘要向量拼接后输入解码器，在保持自然语言可解释性的同时提升性能。为进一步优化精读与略读的决策边界，引入基于正负查询-片段对的对比学习目标。实验表明，RAM在多个问答与摘要基准上优于现有方法，并在长输入（平均16K，最长32K）上实现最高12倍的端到端加速。

上下文压缩长上下文处理

提出上下文压缩机制，间接优化Agent的长期记忆处理效率。

基于时序缓存压缩与稀疏注意力的快速自回归视频扩散与世界模型

Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention

Dvir Samuel, Issar Tzachor, Matan Levy, Micahel Green, Gal Chechik et al.

Matan Levy (PhD Student at The Hebrew University of Jerusalem)

6/10 2026-02-02 cs.CV PDF

自回归视频扩散模型支持流式生成，适用于长视频合成与交互式神经游戏引擎，但其注意力层在推理时因KV缓存持续增长而成为瓶颈，导致延迟增加与GPU内存激增。本文分析了自回归视频扩散中的三类冗余：帧间近重复键、缓慢演化的语义查询/键，以及长提示中仅少数令牌对每帧有效。据此提出无需训练的统一注意力框架：TempCache通过时序对应压缩KV缓存；AnnCA利用近似最近邻匹配选择帧相关提示令牌以加速交叉注意力；AnnSA通过语义匹配稀疏化自注意力。该方法显著降低计算与内存开销，在保持视觉质量的同时实现5–10倍端到端加速，并在长时间推理中维持稳定吞吐与近恒定峰值显存。

KV缓存优化稀疏注意力

聚焦KV缓存压缩与内存优化，属Agent Memory相关机制。

AGT$^{AO}$：基于对抗门控训练与自适应正交性的鲁棒稳定大语言模型遗忘方法

$\textbf{AGT$^{AO}$}$: Robust and Stabilized LLM Unlearning via Adversarial Gating Training with Adaptive Orthogonality

Pengyu Li, Lingling Zhang, Zhitao Gao, Yanrui Wu, Yuxuan Dong et al.

6/10 2026-02-02 cs.LG PDF

尽管大语言模型（LLMs）展现出卓越能力，却会无意中记忆敏感数据，带来严重的隐私与安全风险。机器遗忘是缓解此类风险的关键，但现有方法面临根本困境：激进遗忘易导致灾难性遗忘而损害模型效用，保守策略则可能仅实现表面遗忘，仍易受对抗恢复攻击。为此，本文提出AGT$^{AO}$（对抗门控训练与自适应正交性）统一框架，兼顾鲁棒擦除与效用保持。该方法引入自适应正交性（AO）动态缓解遗忘与保留目标间的梯度冲突，减少非预期知识退化；同时通过对抗门控训练（AGT）将遗忘建模为潜在空间的极小-极大博弈，并采用课程式门控机制模拟并抵御内部恢复尝试。实验表明，AGT$^{AO}$在遗忘效果（KUR≈0.01）与模型效用（MMLU 58.30）之间取得优越平衡。

机器遗忘大语言模型安全

聚焦LLM遗忘机制，涉及记忆删除与保留的权衡，属记忆相关但非Agent专用。

Code

超越稠密状态：将稀疏转码器提升为用于潜在推理的主动算子

Beyond Dense States: Elevating Sparse Transcoders to Active Operators for Latent Reasoning

Yadong Wang, Haodong Chen, Yu Tian, Chuanxing Geng, Dong Liang et al.

6/10 2026-02-02 cs.AI PDF

潜在推理将思维链（CoT）压缩为连续隐状态，但现有方法依赖难以解释和控制的稠密潜在转移。与此同时，稀疏表征模型虽能揭示人类可解释的语义特征，却多限于事后分析。本文提出LSTR（潜在稀疏转码推理）框架，将功能性稀疏转码器提升为主动推理算子，通过稀疏语义转移执行多步计算。其核心是采用残差跳跃架构的潜在转移转码器（LTT），将线性流形迁移与稀疏语义更新解耦，并通过显式稀疏性约束实现可控的语义分辨率。实验表明，LSTR在保持推理准确性和压缩效率的同时，显著优于稠密基线的可解释性。因果干预与轨迹分析进一步证明，这些稀疏特征在推理过程中兼具可解释性与因果有效性。

潜在推理稀疏表征

涉及隐状态压缩与语义表征，属记忆机制的间接应用。

TRIP-Bench：面向现实场景中长周期交互智能体的基准测试

TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios

Yuanzhe Shen, Zisu Huang, Zhengyuan Wang, Muzhao Tian, Zhengkang Guo et al.

6/10 2026-02-02 cs.AI PDF

随着基于大语言模型（LLM）的智能体被部署于日益复杂的现实环境中，现有基准难以充分反映诸如全局约束执行、多工具协同推理以及在长期多轮交互中适应用户行为演变等关键挑战。为此，我们提出TRIP-Bench——一个基于真实旅行规划场景的长周期交互基准。该基准利用真实数据，提供18个精心设计的工具和40余项旅行需求，并支持自动化评估。其困难子集强调长而模糊的交互、风格变化、可行性变动及迭代版本修订。对话最多包含15轮用户输入、150余次工具调用，上下文长度可超20万token。实验表明，即使先进模型在简单子集上的成功率也不超过50%，在困难子集上则低于10%。我们进一步提出GTPO——一种在线多轮强化学习方法，结合专用奖励归一化与奖励差分策略，在Qwen2.5-32B-Instruct上显著提升约束满足能力与交互鲁棒性，优于Gemini-3-Pro。

长周期交互智能体记忆

涉及长上下文记忆与多轮交互中的信息维护，但未聚焦记忆机制本身。

面向大语言模型驱动AI系统的自主问题生成

Autonomous Question Formation for Large Language Model-Driven AI Systems

Hong Su

6/10 2026-02-02 cs.AI PDF

大语言模型（LLM）驱动的AI系统在动态开放环境中对自主决策日益重要。然而，现有系统多依赖预定义任务和固定提示，难以在环境变化时自主识别待解决问题。本文提出一种基于人类模拟的框架，使AI系统能通过推理其内部状态、环境观测及其他AI交互，自主生成问题并设定任务。该方法将问题生成视为任务选择与执行前的一阶决策过程，融合内驱、环境感知与多智能体感知的提示范围，逐步扩展认知覆盖。框架还支持从经验中学习问题生成过程，以持续提升适应性与决策质量。多智能体仿真结果表明，环境感知提示显著减少“未进食”事件，而多智能体感知提示在20天仿真中进一步降低累计事件超60%（p<0.05）。

自主问题生成多智能体系统

涉及内部状态与经验学习，间接关联记忆机制但非核心。

超越像素：基于图式驱动的智能体推理实现视觉隐喻迁移

Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning

Yu Xu, Yuxin Zhang, Juan Cao, Lin Gao, Chunyu Wang et al.

6/10 2026-02-01 cs.CV PDF

视觉隐喻是一种高阶人类创造力形式，通过跨域语义融合将抽象概念转化为具有冲击力的视觉修辞。尽管生成式AI取得显著进展，现有模型仍局限于像素级指令对齐与表层外观保持，难以捕捉实现真正隐喻生成所需的底层抽象逻辑。为此，本文提出视觉隐喻迁移（VMT）任务，要求模型自主解耦参考图像中的“创意本质”，并将该抽象逻辑重新具象化到用户指定的目标主体上。我们构建了一个受认知启发的多智能体框架，通过新颖的图式语法（“G”）实现概念融合理论（CBT）的操作化，该结构化表示将关系不变量与具体视觉实体解耦，为跨域逻辑重实例化提供坚实基础。实验表明，该方法在隐喻一致性、类比恰当性与视觉创造力方面显著优于现有最先进方法。

视觉隐喻多智能体系统

涉及抽象逻辑的提取与跨域重实例化，隐含记忆机制但非核心焦点。

探知知识边界：一种用于深度知识提取的交互式智能体框架

Probing the Knowledge Boundary: An Interactive Agentic Framework for Deep Knowledge Extraction

Yuheng Yang, Siqi Zhu, Tao Feng, Ge Liu, Jiaxuan You

6/10 2026-02-01 cs.LG PDF

大语言模型（LLMs）可视为压缩的知识库，但其实际包含的知识范围尚不明确。现有基准多为静态，难以系统探测知识边界。本文提出一种交互式智能体框架，通过四种自适应探索策略在不同粒度上系统提取并量化LLM中的知识。为保障知识质量，设计了三阶段处理流程：基于向量的去重、基于LLM的语义消歧，以及领域相关性审核。实验表明，递归分类法是最有效的探索策略；模型规模与知识提取量呈明显扩展律；专用模型初始准确率高但衰减快，通用模型则表现更稳定；不同训练数据导致模型家族间存在可测量的知识分布差异。

知识提取智能体框架

涉及知识提取与存储机制，但未聚焦记忆架构本身。

神经FOXP2——面向大语言模型中目标语言提升的语言特异性神经元调控

Neural FOXP2 -- Language Specific Neuron Steering for Targeted Language Improvement in LLMs

Anusa Saha, Tanmay Joshi, Vinija Jain, Aman Chadha, Amitava Das

6/10 2026-02-01 cs.CL PDF

大语言模型虽经多语言训练，但其主导语言常为英语，反映预训练数据中英语的主导地位，其他语言虽存储于参数化记忆中却系统性被抑制。本文提出语言默认性由稀疏低秩控制回路（即“语言神经元”）调控，并可被机制性分离与安全引导。我们引入Neural FOXP2方法，通过三阶段实现目标语言（如印地语或西班牙语）的主语言化：(i)定位语言特异性神经元；(ii)通过谱低秩分析提取语言转换的主导方向；(iii)在低至中层对语言神经元施加有符号的稀疏激活偏移，增强目标语言同时抑制英语表征，从而可控地实现目标语言默认性。

语言控制参数化记忆

涉及参数化记忆中的语言表征调控，但聚焦语言控制而非通用Agent Memory机制。

面向工具路由大语言模型的突触知识库感知联邦知识交换

Synapse Compendium Aware Federated Knowledge Exchange for Tool Routed LLMs

Abhijit Chakraborty, Sandipan De, Yash Shah, Chahana Dahal, Vivek Gupta

6/10 2026-01-31 cs.AI PDF

基于大语言模型（LLM）的智能体在联邦学习下的协作面临通信开销高、数据异构性及工具使用差异等挑战。本文提出Synapse框架，通过训练一个共享的全局工具使用行为知识模型来应对上述问题。各客户端智能体在固定LLM基础上本地学习工具使用模式，并通过协调器上传表征工件以进行联邦聚合；全局工具知识库随之更新并重新分发，促使智能体收敛至稳定的工具选择策略。该框架采用模板化表示、嵌入检索结合LLM重排序以及自适应掩码技术，在保障效用的同时限制信息泄露。实验表明，Synapse在多智能体LLM系统中相较权重或提示共享方法显著提升了工具使用效能并降低了通信开销。

联邦学习工具使用

涉及工具使用知识的共享与聚合，隐含记忆机制但非核心焦点。

HyLRA：用于高效长上下文推理的混合层复用注意力机制

HyLRA: Hybrid Layer Reuse Attention for Efficient Long-Context Inference

Xuan Ai, Qingqing Yang, Peng Wang, Lei Deng, Lin Zhang et al.

6/10 2026-01-31 cs.CL PDF

大语言模型（LLMs）的长上下文推理受限于注意力机制的二次计算复杂度和键值（KV）缓存的巨大内存占用。现有稀疏注意力方法常依赖固定模式或激进剪枝，难以兼顾效率与精度。本文提出HyLRA（混合层复用注意力），基于逐层稀疏性分析，发现注意力机制具有“层内敏感性”（某些层需完整注意力以防特征失真）和“层间相似性”（相邻层共享关键token）。HyLRA通过离线动态规划制定最优逐层策略：对敏感层保留完整注意力，对容忍层则复用前一层的top-k索引以跳过二次计算，从而将计算聚焦于关键token。实验表明，HyLRA在保持性能（精度下降<1%）的同时，推理吞吐量提升6%–46%，优于当前先进稀疏注意力方法。

KV缓存优化稀疏注意力

聚焦KV缓存优化，属LLM推理内存管理，非Agent专属记忆机制。

小型语言模型能否处理上下文摘要的多轮客服问答？基于合成数据的对比评估

Can Small Language Models Handle Context-Summarized Multi-Turn Customer-Service QA? A Synthetic Data-Driven Comparative Evaluation

Lakshan Cooray, Deshan Sumanathilaka, Pattigadapa Venkatesh Raju

Pattigadapa Venkatesh Raju3 (School of Computing, Informatics Institute of Technology, Colombo 06, Western Province, Sri Lanka)

6/10 2026-01-31 cs.CL PDF

客服问答系统日益依赖对话语言理解。尽管大语言模型（LLMs）性能优异，但其高计算成本限制了在资源受限环境中的部署。小型语言模型（SLMs）虽更高效，但在需保持对话连贯性与上下文理解的多轮客服问答中效果尚不明确。本文研究了经过指令微调的SLMs在采用历史摘要策略以保留关键对话状态下的表现，并提出基于对话阶段的定性分析方法，评估模型在客服交互不同阶段的行为。通过词汇与语义相似度指标及人工与LLM-as-a-judge评估，对9个低参数SLMs与3个商用LLMs进行比较。结果表明SLMs表现差异显著，部分接近LLM水平，其余则难以维持对话连贯性与上下文对齐。

小型语言模型对话状态管理

采用历史摘要策略维护对话状态，涉及记忆机制但非核心研究。

SEISMO：利用轨迹感知的LLM智能体提升分子优化的样本效率

SEISMO: Increasing Sample Efficiency in Molecular Optimization with a Trajectory-Aware LLM Agent

Fabian P. Krüger, Andrea Hunklinger, Adrian Wolny, Tim J. Adler, Igor Tetko et al.

6/10 2026-01-31 cs.AI PDF

分子结构优化以实现特定性质是化学科学，尤其是药物研发中的关键瓶颈。由于分子性质评估常依赖昂贵且受限的实验或模拟（即“oracle”），高效利用样本至关重要。本文提出SEISMO，一种在推理时严格在线运行的LLM智能体，每次调用oracle后即时更新，无需基于种群或批量学习。SEISMO将完整优化轨迹（包括自然语言任务描述、标量评分及可选的结构化解释性反馈）作为条件生成新分子提案。在包含23项任务的实用分子优化基准上，SEISMO的优化曲线下面积比现有方法高2–3倍，常在50次oracle调用内接近任务最优得分。额外药化任务表明，引入解释性反馈可进一步提升效率，凸显融合领域知识与结构化信息对样本高效优化的重要性。

LLM Agent Molecular Optimization

利用优化轨迹作为上下文记忆，但未深入探讨记忆机制本身。

立场：智能体演化是大语言模型演进的路径

Position: Agentic Evolution is the Path to Evolving LLMs

Minhua Lin, Hanqing Lu, Zhan Shi, Bing He, Rui Mao et al.

6/10 2026-01-30 cs.AI PDF

随着大语言模型（LLMs）从静态训练集走向开放的真实世界环境，一个根本性局限显现：静态训练无法跟上部署环境的持续变化。尽管增加训练和推理阶段的算力可提升静态能力，却无法弥合训练与部署之间的差距。本文主张，解决此问题需引入新的扩展维度——演化。现有部署期适应方法（如参数微调或启发式记忆积累）缺乏诊断失败并实现持久改进所需的战略性智能体能力。作者提出“智能体演化”是LLM适应的必然未来，将演化本身从固定流程提升为自主的演化智能体，并构建通用框架A-Evolve，将部署期改进视为对持久系统状态的有目标优化过程。进一步提出演化扩展假设：适应能力随分配给演化的算力而扩展，使智能体演化成为实现现实世界中持续、开放式适应的可扩展路径。

智能体演化持续适应

提及启发式记忆积累作为现有方法，但非核心研究重点。

从相似性到脆弱性：面向大语言模型语义缓存的密钥碰撞攻击

From Similarity to Vulnerability: Key Collision Attack on LLM Semantic Caching

Zhixiang Zhang, Zesen Liu, Yuchong Xie, Quanfeng Huang, Dongdong She

6/10 2026-01-30 cs.CR PDF

语义缓存已成为扩展大语言模型（LLM）应用的关键技术，被AWS和微软等主流服务商广泛采用。该机制利用语义嵌入向量作为缓存键，有效降低语义相似查询的延迟与冗余计算。本文将语义缓存键视为一种模糊哈希，指出为提升缓存命中率所需的局部性与密码学雪崩效应对抗碰撞的要求存在根本冲突。我们首次系统研究缓存碰撞引发的完整性风险，提出名为CacheAttack的黑盒自动化攻击框架，在安全关键任务与智能体工作流中实现86%的响应劫持命中率，并能诱导LLM智能体产生恶意行为，且在不同嵌入模型间具有良好迁移性。金融智能体案例进一步揭示了该漏洞的现实危害，并讨论了缓解策略。

语义缓存安全漏洞

探讨语义缓存作为LLM Agent记忆机制的安全性问题，涉及记忆存储与检索的核心环节。

TriCEGAR：一种面向智能体AI的轨迹驱动抽象机制

TriCEGAR: A Trace-Driven Abstraction Mechanism for Agentic AI

Roham Koohestani, Ateş Görpelioğlu, Egor Klimov, Burcu Kulahcioglu Ozkan, Maliheh Izadi

Roham Koohestani (JetBrains ResearchAmsterdamNetherlands) | Ateş Görpelioğlu (Delft University of TechnologyDelftNetherlands) | Egor Klimov (JetBrains ResearchAmsterdamNetherlands)

6/10 2026-01-30 cs.AI PDF

智能体AI系统通过工具进行交互，并在长期、随机的交互轨迹中演化其行为，这使得其行为保障变得复杂，因其依赖于非确定性环境和概率性模型输出。先前工作通过动态概率保障（DPA）引入了运行时验证方法，在线学习马尔可夫决策过程（MDP）并进行量化属性的模型检测。然而，该方法要求开发者手动定义状态抽象，导致验证过程与特定应用启发式紧密耦合，增加采用难度。本文提出TriCEGAR，一种从执行日志自动构建状态抽象的轨迹驱动机制，支持在线构建智能体行为MDP。TriCEGAR将抽象表示为从轨迹中学习并利用反例精化的谓词树。我们描述了一个原生框架实现，可捕获类型化的智能体生命周期事件、从轨迹构建抽象、构造MDP，并执行概率模型检测以计算如最大成功概率Pmax(success)和最小失败概率Pmin(failure)等边界。此外，运行似然性还可作为护栏信号用于异常检测。

智能体验证状态抽象

涉及从执行轨迹构建状态抽象，隐含记忆机制但非核心主题。

面向动态环境中具身智能体的测试时世界模型混合方法

Test-Time Mixture of World Models for Embodied Agents in Dynamic Environments

Jinwoo Jang, Minjong Yoo, Sihyung Yoon, Honguk Woo

6/10 2026-01-30 cs.AI PDF

基于语言模型的具身智能体在现实场景中日益普及，但在动态环境中适应能力有限，而构建准确且灵活的世界模型对有效推理与决策至关重要。为此，本文将混合专家（MoE）范式扩展至具身智能体，提出测试时世界模型混合框架（TMoW）。该框架在测试阶段动态更新世界模型的路由函数，通过多粒度原型路由、测试时特征对齐及基于蒸馏的混合增强，实现对未知和演化环境的持续适应。实验在VirtualHome、ALFWorld和RLBench基准上验证了其在零样本适应与少样本扩展场景中的优越性能。

世界模型具身智能体

涉及世界模型的动态组合与更新，隐含记忆机制但未显式研究记忆架构。

ScholarPeer：一种面向自动同行评审的上下文感知多智能体框架

ScholarPeer: A Context-Aware Multi-Agent Framework for Automated Peer Review

Palash Goyal, Mihir Parmar, Yiwen Song, Hamid Palangi, Tomas Pfister et al.

Palash Goyal (Google) | Mihir Parmar (Google) | Yiwen Song (Google)

6/10 2026-01-30 cs.MA PDF

自动同行评审已从简单的文本分类发展为结构化反馈生成。然而，当前最先进的系统仍局限于“表面级”批评：虽擅长内容总结，却常因缺乏人类专家所具备的外部上下文，而难以准确评估论文的新颖性与重要性，或识别深层方法论缺陷。本文提出ScholarPeer——一种支持检索的多智能体框架，旨在模拟资深研究者的认知过程。该框架通过历史学家智能体动态构建领域叙事，借助基线侦察智能体识别缺失的对比，并利用多维度问答引擎验证主张，将评审意见锚定于实时的大规模文献中。在DeepReview-13K上的评估表明，ScholarPeer在成对比较中显著优于现有方法，并缩小了与人类评审在多样性方面的差距。

多智能体系统上下文记忆

论文涉及动态构建领域叙事和上下文获取，隐含记忆机制但非核心焦点。

持续复现与精炼：持续任务漂移下的终身学习车辆路径规划

Keep Rehearsing and Refining: Lifelong Learning Vehicle Routing under Continually Drifting Tasks

Jiyuan Pei, Yi Mei, Jialin Liu, Mengjie Zhang, Xin Yao

6/10 2026-01-30 cs.LG PDF

现有神经求解器通常在固定任务集上一次性训练，或在顺序到达的若干任务上进行终身学习，且假设每个任务均有充足训练资源。然而现实场景中，问题模式常随时间持续漂移，导致大量任务依次出现，而每个任务仅能获得有限训练资源。本文研究一种新型终身学习范式，针对学习过程中持续漂移的任务，且任意时刻均无法对任一任务充分训练的情形。为此，提出“经验增强的双重回放”（DREE）框架，以提升学习效率并缓解灾难性遗忘。大量实验表明，在持续漂移设定下，DREE能有效学习新任务、保留先验知识、提升对未见任务的泛化能力，并可适配多种现有神经求解器。

终身学习灾难性遗忘

提出双回放机制缓解灾难性遗忘，涉及记忆保留但非核心记忆架构研究。

迈向材料科学的智能体智能

Towards Agentic Intelligence for Materials Science

Huan Zhang, Yizhan Li, Wenhao Huang, Ziyu Hou, Yu Song et al.

6/10 2026-01-29 cond-mat.mtrl-sci PDF

人工智能与材料科学的融合带来变革性机遇，但要真正加速发现，需超越孤立任务的微调模型，转向能在整个发现闭环中规划、行动与学习的智能体系统。本文提出一种以流程为中心的独特视角，涵盖语料构建、预训练、领域适配、指令微调，直至与仿真和实验平台交互的目标条件智能体。不同于以往综述，本文将全过程视为端到端系统，以实际发现成果而非代理基准为目标进行优化，并探讨上游设计（如数据构建与训练目标）如何通过有效信用分配与下游实验成功对齐。文章整合AI与材料科学的术语、评估与工作流，并从双重视角分析：AI侧强调大语言模型在模式识别、预测分析与文献挖掘中的优势；材料科学侧聚焦材料设计、工艺优化及与外部工具（如DFT、机器人实验室）集成以加速计算流程。最后，对比被动响应式方法与具备自主性、记忆与工具使用能力的智能体设计，勾勒出通往安全、自主LLM智能体的实用路线图。

LLM智能体材料发现

提及记忆作为智能体实现长期目标的关键组件之一，但非核心研究重点。

基于预算约束的本地语言模型与云卸载决策联合持续学习

Joint Continual Learning of Local Language Models and Cloud Offloading Decisions with Budget Constraints

Evan Chen, Wenzhi Fang, Shiqiang Wang, Christopher Brinton

6/10 2026-01-29 cs.LG PDF

本地部署的小型语言模型（SLMs）需在严格的内存与计算约束下持续支持多样化任务，因此不可避免地需选择性依赖云端大语言模型（LLMs）。在持续学习过程中调控云协助具有挑战性，因为基于奖励的强化学习常导致不稳定的卸载行为，并在任务分布变化时加剧灾难性遗忘。本文提出DA-GRPO方法，作为Group Relative Policy Optimization的双优势扩展，将云使用约束直接融入优势函数计算，避免固定奖励塑形和外部路由模型。该设计使本地模型能联合学习任务能力与协作行为，使云请求在训练后自然出现，同时满足预设的协助预算。在数学推理与代码生成基准上的实验表明，DA-GRPO相比现有协同与路由方法显著提升任务切换后的准确率、大幅减少遗忘，并保持稳定的云使用量。

持续学习云边协同

涉及本地模型在内存限制下的持续学习，与Agent Memory间接相关。

SWE-Replay：面向软件工程智能体的高效测试时扩展方法

SWE-Replay: Efficient Test-Time Scaling for Software Engineering Agents

Yifeng Ding, Lingming Zhang

6/10 2026-01-29 cs.SE PDF

测试时扩展已被广泛用于提升大语言模型（LLM）智能体在软件工程任务中的能力，但传统方法通过从头反复采样轨迹导致计算开销巨大。现有方法虽尝试引入专用价值评估模型以降低成本，却易受模型校准偏差影响，且难以泛化至能合成自定义bash脚本工具的现代智能体。本文提出SWE-Replay，首个无需依赖潜在噪声价值估计、高效且可泛化的测试时扩展技术。该方法通过复用先前试验中的轨迹，在关键中间步骤动态选择从头探索或利用存档经验进行分支，其分支决策基于代码仓库探索的潜力与推理重要性，而非外部LLM的质量评估。实验表明，在SWE-Bench Verified上，SWE-Replay在降低最多17.4%成本的同时，性能提升最高达3.8%；在SWE-Bench Pro和Multilingual上的进一步验证证实了其良好泛化能力。

Agent Memory Test-Time Scaling

利用轨迹重放机制复用历史经验，涉及记忆存储与检索，但非核心记忆架构研究。

患者并非移动文档：一种面向纵向电子健康记录的世界模型训练范式

The Patient is not a Moving Document: A World Model Training Paradigm for Longitudinal EHR

Irsyad Adam, Zekai Chen, David Laprade, Shaun Porwal, David Laub et al.

6/10 2026-01-29 cs.AI PDF

基于下一词预测训练的大语言模型（LLMs）在临床基础模型中取得成功，其表征在多种生物医学任务中表现优异。然而，该范式将患者视为待总结的文档，而非需模拟的动态系统。为此，作者提出SMB-Structure——一种结合联合嵌入预测架构（JEPA）与监督微调（SFT）的世界模型。SFT使模型能在token空间重建未来患者状态，而JEPA仅从初始表征在潜在空间预测未来状态，迫使模型在观测下一状态前编码轨迹动态。在两个大规模队列（MSK和INSPECT）上的实验表明，该方法学习到的嵌入能捕捉自回归基线无法恢复的疾病动态，在高异质性患者任务中表现优异。

世界模型电子健康记录

涉及状态表征与轨迹建模，隐含记忆机制但未显式研究Agent Memory。

Code

检索增强推理沙盒：用于解耦检索与推理能力的基准

Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities

Shuangshuang Ying, Zheyu Wang, Yunjian Peng, Jin Chen, Yuhao Wu et al.

6/10 2026-01-29 cs.AI PDF

尽管大语言模型在现有基准上表现优异，其能否对真正新颖的科学信息进行推理仍不明确。当前评估多针对端到端RAG流程，混淆了推理、检索及工具链选择，并受参数化记忆和网络内容波动干扰。本文提出DeR2——一个受控的深度研究沙盒，通过四个证据访问机制（仅指令、概念、相关文档、完整文档集）隔离基于文档的推理，同时保留深度搜索的核心挑战：多步综合、去噪与基于证据的结论生成。DeR2可量化检索损失与推理损失，并支持细粒度错误归因。为防止参数泄露，采用两阶段验证机制；为确保可复现性，每个实例提供冻结的2023–2025年理论论文库及专家标注的概念与推理依据。实验表明，前沿模型在该基准上表现差异显著，存在模式切换脆弱性或结构性概念误用等问题。

检索增强生成推理评估

聚焦检索与推理解耦，涉及记忆机制但非核心研究记忆架构。

FIT：在持续大语言模型遗忘中克服灾难性遗忘

FIT: Defying Catastrophic Forgetting in Continual LLM Unlearning

Xiaoyu Xu, Minxin Du, Kun Fang, Zi Liang, Yaxin Xiao et al.

6/10 2026-01-29 cs.CL PDF

大语言模型（LLMs）虽在多种任务中表现卓越，却引发隐私、版权及有害内容等担忧。现有遗忘方法很少考虑现实场景中持续且高频的删除请求，易导致效用下降与灾难性遗忘。为此，本文提出FIT框架，通过严格的数据过滤（Filtering）、重要性感知更新（Importance-aware updates）和目标层归因（Targeted layer attribution），在大量连续删除请求下有效平衡遗忘效果与效用保留，并抵御遗忘后恢复攻击。作者还构建了PCH基准，涵盖个人信息、版权与有害内容的序列删除场景，并引入对称指标“遗忘度”（F.D.）与“保留效用”（R.U.）进行综合评估。实验表明，FIT在四个开源LLM上均取得最优权衡，并在MMLU、CommonsenseQA和GSM8K等任务中超越现有方法。

持续学习模型遗忘

涉及持续学习中的遗忘与记忆保留机制，属记忆相关但非核心Agent Memory架构研究。

通过智能体技能演化实现的元上下文工程

Meta Context Engineering via Agentic Skill Evolution

Haoran Ye, Xuning He, Vincent Arak, Haonan Dong, Guojie Song

6/10 2026-01-29 cs.AI PDF

大语言模型的运行效能高度依赖其推理时的上下文，这促使上下文工程（CE）成为优化输入的正式学科。现有CE方法依赖人工设计的固定流程和预定义模式，存在结构偏见且限制了优化空间。本文提出元上下文工程（MCE），一种双层框架，通过协同演化CE技能与上下文工件，取代静态启发式方法。在MCE迭代中，元层智能体通过智能体交叉操作，在技能历史、执行记录与评估结果中进行深思熟虑的搜索以优化工程技能；基底层智能体则执行这些技能，从训练轨迹中学习，并将上下文优化为灵活的文件与代码。在五个不同领域及离线/在线设置下的实验表明，MCE相较当前最先进的智能体CE方法平均提升16.9%（相对提升5.6%–53.8%），同时在上下文适应性、迁移性及使用与训练效率方面表现更优。

上下文工程智能体技能演化

论文聚焦上下文工程优化，涉及Agent在推理时对上下文（可视为短期记忆）的动态管理与演化，但未直接研究记忆机制本身。

BEAP-Agent：面向GUI智能体的可回溯执行与自适应规划

BEAP-Agent: Backtrackable Execution and Adaptive Planning for GUI Agents

Ziyu Lu, Tengjin Weng, Yiying Yang, Yuhang Zhao, Xinxin Huang et al.

6/10 2026-01-29 cs.AI PDF

图形用户界面（GUI）智能体旨在自动化重复性任务以提升效率，但现有方法在探索路径出错后难以恢复，常导致任务失败。本文将GUI任务执行建模为深度优先搜索（DFS）过程，提出BEAP-Agent框架，支持长距离、多层次的状态回溯，并结合动态任务跟踪与更新机制。该框架由规划器（Planner）、执行器（Executor）和追踪器（Tracker）三个协同组件构成，有效提升任务探索与执行能力。BEAP-Agent填补了GUI智能体系统化回溯机制的空白，为长视野任务探索提供系统性解决方案。在OSWorld基准上的系统评估显示，该方法达到28.2%的准确率，验证了其有效性。

GUI智能体状态回溯任务规划长视野执行

提出多层级状态回溯机制，隐含短期记忆与状态追踪，但未显式研究记忆架构。

规划者-审核者双体：基于FHIR的LLM规划、指南召回、可选缓存与自改进的智能出院规划

Planner-Auditor Twin: Agentic Discharge Planning with FHIR-Based LLM Planning, Guideline Recall, Optional Caching and Self-Improvement

Kaiyuan Wu, Aditya Nagori, Rishikesan Kamaleswaran

6/10 2026-01-28 cs.AI PDF

本文提出一种可自改进、支持可选缓存的规划者-审核者（Planner-Auditor）框架，用于提升临床出院规划的安全性与可靠性。规划者（LLM）生成结构化出院计划并附带置信度估计；审核者为确定性模块，评估任务覆盖度、校准性（Brier分数、ECE代理指标）及动作分布漂移。框架支持两种自改进机制：单次会话内重生成与跨会话高置信低覆盖案例的差异缓冲回放。实验表明，自改进循环显著提升任务覆盖率（32%→86%）并改善置信校准，差异缓冲有效修正持续性高置信遗漏。

Agent Memory Clinical Decision Support

论文涉及可选缓存（optional caching）和回放机制，属于记忆相关应用，但非核心研究。

ChunkWise LoRA：面向内存高效低秩适配与加速大语言模型推理的自适应序列分块方法

ChunkWise LoRA: Adaptive Sequence Partitioning for Memory-Efficient Low-Rank Adaptation and Accelerated LLM Inference

Ketan Thakkar, Maitreyi Chatterjee, Ramasubramanian Balasubramanian, Achyuthan Jootoo, Rajendra Ugrani

6/10 2026-01-28 cs.CL PDF

近期低秩适配（LoRA）技术实现了大语言模型（LLM）的高效微调，但现有方法对所有输入token采用静态秩配置，忽视了token复杂度与计算需求的差异。本文提出ChunkWise LoRA，一种动态自适应方法，根据token复杂度将序列划分为可变长度块，并为每块分配定制化的低秩配置。系统引入运行时调度器，通过难度估计、自适应分块及基于秩阶梯机制的配置选择实现优化。为保障输出一致性，设计了边界安全组合模块并集成策略驱动的KV缓存策略。在Wikitext-103和SQuAD等基准上的实验表明，该方法相较基线LoRA最多降低34%延迟、减少38%内存占用，同时维持或提升BLEU、EM和困惑度等指标。该框架完全兼容现有Transformer架构与推理系统，适用于实际部署。

低秩适配内存优化

聚焦LLM推理中的内存效率优化，涉及KV缓存策略，但非Agent Memory核心机制。

基于自我怀疑与恢复的元认知强化学习

Meta-Cognitive Reinforcement Learning with Self-Doubt and Recovery

Zhipeng Zhang, Wenting Ma, Kai Li, Meng Guo, Lei Yang et al.

6/10 2026-01-28 cs.LG PDF

现有鲁棒强化学习方法通常聚焦于抑制不可靠经验或被污染的奖励，却缺乏对自身学习过程可靠性的推理能力，易因噪声过度保守或在不确定性累积时发生灾难性失败。本文提出一种元认知强化学习框架，使智能体能基于内部估计的可靠性信号评估、调节并恢复其学习行为。该方法引入由价值预测误差稳定性（VPES）驱动的元信任变量，通过故障安全调控与渐进式信任恢复机制调制学习动态。在存在奖励污染的连续控制基准实验中，该方法相比强鲁棒性基线取得了更高的平均回报，并显著减少了训练后期的失败率。

元认知强化学习

涉及内部可靠性信号与学习行为调节，隐含记忆机制但未显式研究记忆。

进化策略导致大语言模型中的灾难性遗忘

Evolutionary Strategies lead to Catastrophic Forgetting in LLMs

Immanuel Abdi, Akshat Gupta, Micah Mok, Alexander Lu, Nicholas Lee et al.

6/10 2026-01-28 cs.LG PDF

当前人工智能系统缺乏部署后持续学习的能力，而实现此类系统面临诸多挑战，其中之一是主流基于梯度的大语言模型训练算法对内存的高需求。进化策略（ES）作为一种无梯度替代方法近期重新受到关注，并在特定任务中展现出良好性能。本文对ES进行了全面分析，重点评估其在不断增加更新步数下的遗忘曲线。研究发现，在相近计算预算下，ES在数学与推理任务上可接近GRPO的性能，但其性能提升伴随着对先前能力的显著遗忘，限制了其在线训练适用性。进一步分析表明，ES更新相比GRPO更新稀疏性更低且ℓ²范数高出数个数量级，解释了二者遗忘行为的差异。

灾难性遗忘持续学习

研究持续学习中的遗忘问题，涉及记忆保持机制。

Temp-R1：通过反向课程强化学习实现复杂时间知识图问答的统一自主代理

Temp-R1: A Unified Autonomous Agent for Complex Temporal KGQA via Reverse Curriculum Reinforcement Learning

Zhaoyan Gong, Zhiqiang Liu, Songze Li, Xiaoke Guo, Yuanxiang Liu et al.

6/10 2026-01-26 cs.CL PDF

时间知识图问答（TKGQA）本质上具有挑战性，因为它需要在动态事实和复杂的时序约束下进行多跳推理。现有方法依赖于固定的流程和昂贵的闭源API，限制了灵活性和可扩展性。我们提出了Temp-R1，这是首个通过强化学习训练的面向TKGQA的端到端自主代理。为了解决单步推理中的认知过载问题，我们扩展了动作空间，加入了专门的内部动作与外部动作。为了防止在简单问题上出现捷径学习，我们引入了反向课程学习，优先训练困难问题，迫使复杂推理能力的发展后再转移到简单情况。我们的8B参数Temp-R1在MultiTQ和TimelineKGQA数据集上取得了最先进的性能，在复杂问题上比强基线提升了19.8%。我们的工作为自主时间推理代理建立了一种新的范式。代码即将公开发布在https://github.com/zjukg/Temp-R1。

强化学习时间知识图问答自主代理反向课程学习

论文涉及Agent的自主推理与记忆机制，但未明确聚焦于Memory系统本身。

Code

PaperSearchQA: 使用RLVR学习在科学论文中进行搜索和推理

PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR

James Burgess, Jan N. Hansen, Duo Peng, Yuhui Zhang, Alejandro Lozano et al.

6/10 2026-01-26 cs.LG PDF

搜索代理是能够通过推理和搜索知识库（或网络）来回答问题的语言模型；近期的方法仅使用可验证奖励的强化学习（RLVR）监督最终答案的准确性。大多数RLVR搜索代理处理的是通用领域的问答任务，这限制了它们在科学、工程和医学等技术AI系统中的相关性。本文提出训练代理在科学论文中进行搜索和推理，这测试了技术性问答能力，并且对真实科学家具有直接相关性，这些能力对未来AI科学家系统的构建至关重要。具体而言，我们发布了一个包含1600万篇生物医学论文摘要的搜索语料库，并构建了一个名为PaperSearchQA的具有挑战性的事实性问答数据集，包含6万个可以从语料库中找到答案的样本以及基准测试。我们在该环境中训练搜索代理以超越非RL检索基线；我们还进行了进一步的定量分析，观察到一些有趣的代理行为，如规划、推理和自我验证。我们的语料库、数据集和基准测试可以与流行的Search-R1代码库结合用于RLVR训练，并发布在https://huggingface.co/collections/jmhb/papersearchqa上。最后，我们的数据创建方法具有可扩展性，并且可以轻松扩展到其他科学领域。

Agent Memory Reinforcement Learning Scientific QA Search

论文涉及基于记忆的搜索与推理，但未直接研究Agent Memory机制。

Code

DeepPlanning: 基于可验证约束的长期智能体规划基准测试

DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

Yinger Zhang, Shutong Jiang, Renhao Li, Jianhong Tu, Yang Su et al.

6/10 2026-01-26 cs.AI PDF

尽管智能体评估已转向长期任务，但大多数基准仍强调局部步骤推理，而非需要真正规划能力的全局约束优化（如时间和财务预算）。同时，现有LLM规划基准未能充分代表现实场景中常见的主动信息收集和细粒度局部约束。为解决这一问题，我们引入了DeepPlanning，一个具有挑战性的实际长期智能体规划基准。它包含多日旅行规划和多产品购物任务，要求主动信息获取、局部约束推理和全局约束优化。在DeepPlanning上的评估表明，即使是最先进的智能体LLM也难以应对这些问题，突显了可靠显式推理模式和并行工具使用对于实现更好的效果-效率权衡的重要性。错误分析进一步指出了改进长期规划中智能体LLM的有希望方向。我们开源代码和数据以支持未来研究。

长期规划智能体基准约束优化 LLM评估

论文涉及长期规划与约束优化，隐含对记忆机制的需求，但未直接研究记忆系统。

RouteMoA：无需预推理的动态路由提升混合代理效率

RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents

Jize Wang, Han Wu, Zhiyuan You, Yiming Song, Yijun Wang et al.

6/10 2026-01-26 cs.AI PDF

混合代理（MoA）通过分层协作提升大语言模型性能，但其密集拓扑结构导致成本和延迟增加。现有方法依赖LLM判断器筛选响应，但仍需所有模型完成推理后再进行判断，无法有效降低成本。此外，这些方法缺乏模型选择标准，在大规模模型池中面临高成本和上下文限制问题。为此，本文提出RouteMoA，一种高效的混合代理框架，采用动态路由机制。该框架使用轻量级评分器通过查询预测粗粒度性能，筛选出高潜力候选模型，无需推理。随后，通过基于已有模型输出的轻量级自评和互评对评分进行修正，无需额外推理。最后，通过平衡性能、成本和延迟的模型排名机制选择模型。实验表明，RouteMoA在不同任务和模型池规模下均优于传统MoA，大幅降低了成本和延迟。

混合代理动态路由模型选择推理效率

论文涉及模型选择与推理效率，间接关联Agent Memory机制，但非核心主题。

重用你的FLOPs：通过条件化非常偏离策略的前缀来扩展硬问题上的强化学习

Reuse your FLOPs: Scaling RL on Hard Problems by Conditioning on Very Off-Policy Prefixes

Amrith Setlur, Zijian Wang, Andrew Cohen, Paria Rashidinejad, Sang Michael Xie

Amrith Rajagopal Setlur (Carnegie Mellon University)

6/10 2026-01-26 cs.LG PDF

典型的强化学习（RL）方法在处理困难问题时会浪费大量计算资源，因为正确的策略轨迹稀少，策略梯度消失，学习停滞。为实现更高效的RL，本文提出通过重用旧的采样FLOPs（来自之前的推理或RL训练）以离策略轨迹的形式进行引导。标准的离策略方法在监督离策略数据时会导致优化过程中的不稳定性。为此，我们引入了PrefixRL方法，该方法基于成功的离策略轨迹的前缀进行条件化，并运行策略RL来完成这些轨迹，从而绕过离策略的不稳定性。PrefixRL通过调整离策略前缀长度来调节问题难度，从而增强困难问题的学习信号。我们证明PrefixRL的目标不仅与标准RL目标一致，而且样本效率更高。实验中，我们发现反向泛化现象：仅在带有前缀的问题上训练可以推广到分布外的无前缀任务，且学到的策略通常不同于前缀中的策略。在实验中，我们通过拒绝采样从基础模型生成离策略轨迹，形成自我改进循环。在困难推理任务中，PrefixRL比最强基线（在离策略数据上进行SFT后再进行RL）更快达到相同的训练奖励（2倍速度），即使考虑初始拒绝采样的计算成本，最终奖励也提高了3倍。这些提升可转移到保留的基准测试中，且当离策略轨迹来源于不同模型家族时，PrefixRL依然有效，验证了其在实际场景中的灵活性。

强化学习离策略学习记忆机制策略优化

论文涉及使用历史数据（off-policy traces）作为前缀引导RL训练，与Agent Memory相关但非核心主题。

教会模型自我学习：在可学习边缘进行推理

Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability

Shobhita Sundaram, John Quan, Ariel Kwiatkowski, Kartik Ahuja, Yann Ollivier et al.

6/10 2026-01-26 cs.LG PDF

模型能否突破自身的学习瓶颈？强化学习方法在微调大型推理模型时，在初始成功率低的数据集上容易停滞。本文研究了一个基本问题：预训练的大语言模型是否能利用潜在知识为无法解决的问题生成自动课程？为此，我们设计了SOAR框架，通过元强化学习揭示这些教学信号。教师模型为学生模型提出合成问题，并根据其在少量难题上的改进获得奖励。关键在于，SOAR基于学生的实际进步而非内在代理奖励来构建课程。我们在数学基准中最难的子集（0/128成功）上进行了研究，发现三个核心结论：首先，通过增强预训练模型生成有用中间步骤的潜在能力，可以实现双层元强化学习；其次，基于实际进步的奖励优于以往LLM自博弈中使用的内在奖励方案；第三，分析生成的问题表明，结构质量和命题合理性比解题正确性对学习进展更为关键。结果表明，生成有用的中间步骤并不需要预先具备解决难题的能力，为摆脱推理瓶颈提供了一条无需额外人工数据的原则路径。

强化学习元学习自监督学习课程生成

论文探讨了模型自我学习与生成教学内容的能力，涉及记忆机制的隐含知识利用。

多智能体机器人系统（MARS）挑战赛的进展与创新

Advances and Innovations in the Multi-Agent Robotic System (MARS) Challenge

Li Kang, Heng Zhou, Xiufeng Song, Rui Li, Bruno N. Y. Chen et al.

6/10 2026-01-26 cs.RO PDF

近年来，多模态大语言模型和视觉-语言-动作模型的发展显著推动了具身人工智能的进步。随着领域向更复杂的任务场景过渡，多智能体系统框架成为实现可扩展、高效和协作解决方案的关键。这一转变主要由三个因素驱动：智能体能力的提升、通过任务委托提高系统效率以及增强人与智能体之间的交互。为应对多智能体协作带来的挑战，我们提出了多智能体机器人系统（MARS）挑战赛，该挑战赛于NeurIPS 2025的SpaVLE研讨会中举办。比赛聚焦于两个关键领域：规划与控制，参赛者探索使用视觉-语言模型（VLMs）进行多智能体具身规划以协调任务，并通过策略执行在动态环境中完成机器人操作。通过评估参赛者的解决方案，该挑战赛为具身多智能体系统的设计与协调提供了有价值的见解，有助于未来先进协作人工智能系统的发展。

多智能体系统具身AI 视觉-语言模型协作机器人

论文涉及多智能体协作与视觉语言模型，间接关联记忆机制，但非核心主题。

探索长上下文语言模型的微调以提升上下文检索与高效键值缓存性能

Exploring Fine-Tuning for In-Context Retrieval and Efficient KV-Caching in Long-Context Language Models

Francesco Maria Molfese, Momchil Hardalov, Rexhina Blloshmi, Bill Byrne, Adrià de Gispert

6/10 2026-01-26 cs.CL PDF

随着上下文窗口达到数百万个token，长上下文语言模型（LCLMs）能够编码整个文档集合，成为传统检索增强生成（RAG）方法的有力替代方案。然而，尚不清楚微调策略是否能提升长上下文性能，并在键值缓存（KV-cache）压缩技术下表现出更强的鲁棒性。本文研究了哪些训练策略最有效地增强LCLMs识别和使用相关信息的能力，并提高其在KV-cache压缩下的鲁棒性。实验表明，在领域内任务中取得了显著改进，最高可达基础模型的+20分。然而，跨领域泛化能力仍依赖于具体任务，存在较大方差——LCLMs在金融问题上表现优异（+9分），而RAG在多项选择题上优于基线模型（+6分）。最后，我们的微调方法在KV-cache压缩下的鲁棒性方面带来了适度的提升，不同任务中的增益有所差异。

长上下文模型 KV-cache压缩微调检索增强生成鲁棒性

论文涉及KV-cache压缩与长上下文模型的微调，与Agent Memory相关但非核心主题。

DEEPMED：通过多跳医学搜索数据和回合控制的智能体训练与推理构建医学深度研究代理

DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference

Zihan wang, Hao Wang, Shi Feng, Xiaocui Yang, Daling Wang et al.

6/10 2026-01-26 cs.AI PDF

医学推理模型受限于参数化知识，容易出现遗忘和幻觉。DeepResearch（DR）模型基于可验证证据进行输出，在通用领域表现良好，但在医学领域的直接迁移效果有限。我们将其归因于任务特性和工具使用扩展两个方面的不足。医学问题需要在知识密集型临床背景下解释证据；而通用DR模型虽然能够检索信息，但往往缺乏临床背景推理能力，导致“找到但无法利用”信息，从而限制了性能。此外，在医学场景中盲目扩展工具调用可能引入噪声上下文，干扰敏感的医学推理，并促使沿着错误路径重复寻找证据。因此，我们提出了DeepMed。在数据方面，我们采用多跳医学搜索问答合成方法，使模型能够在医学背景下应用DR范式。在训练方面，我们引入难度感知的回合惩罚机制，以抑制过度的工具调用增长。在推理阶段，我们引入监控机制，帮助在受控步骤内验证假设并避免上下文退化。总体而言，在七个医学基准测试中，DeepMed平均比其基础模型提升了9.79%，并且优于更大的医学推理和DR模型。

医学推理智能体训练上下文管理工具调用优化 DR模型

论文涉及Agent推理中的记忆相关问题，如防止遗忘和上下文污染，但核心是医疗领域推理模型的改进。

daVinci-Dev: 面向代理的中间训练用于软件工程

daVinci-Dev: Agent-native Mid-training for Software Engineering

Ji Zeng, Dayuan Fu, Tiantian Mi, Yumin Zhuang, Yaxing Huang et al.

6/10 2026-01-26 cs.SE PDF

近年来，大型语言模型（LLM）的能力前沿已从单轮代码生成转向代理式软件工程——一种模型自主导航、编辑和测试复杂代码库的范式。尽管后训练方法已成为代码代理的标准方法，但代理式中间训练（MT）仍因资源需求大而被严重忽视。为解决静态训练数据与真实开发环境中动态、反馈丰富的环境之间的分布不匹配问题，本文提出了一种系统性的代理式中间训练研究，确立了大规模有效代理开发的数据合成原则和训练方法。本文的核心方法是基于代理原生数据的监督，包括两种互补轨迹：保留代理完整信息流的上下文原生轨迹，以及从可执行代码库中收集的环境原生轨迹，提供深度和交互真实性。我们在`SWE-Bench Verified`上验证了模型的代理能力，并在使用少于一半中间训练标记（73.1B）的情况下，展示了优于之前开源软件工程中间训练方案`Kimi-Dev`的性能。

Agent训练中间训练软件工程数据合成

论文涉及Agent在软件工程中的训练方法，提及动态环境与静态数据的分布不匹配问题，与Memory相关。

DF-RAG：面向查询的多样性检索增强生成

DF-RAG: Query-Aware Diversity for Retrieval-Augmented Generation

Saadat Hasan Khan, Spencer Hong, Jingyu Wu, Kevin Lybarger, Youbing Yin et al.

Saadat Hasan Khan (WikiMQA) | Capital One Spencer Hong (WikiMQA) | Jingyu Wu (WikiMQA)

6/10 2026-01-23 cs.CL PDF

检索增强生成（RAG）是一种将语言模型输出与领域特定信息结合的常用技术。然而，在需要推理的问答任务中，RAG常因常见检索方法（如余弦相似度）过度追求相关性而引入冗余内容，从而降低信息召回率。为解决这一问题，本文提出了一种以多样性为导向的检索增强生成方法（DF-RAG），在检索阶段系统性地引入多样性以提升复杂推理型问答基准的表现。DF-RAG基于最大边际相关性框架，选择既与查询相关又彼此差异最大的信息片段。其关键创新在于能够在测试时动态优化每个查询的多样性水平，无需额外微调或先验信息。实验表明，DF-RAG在推理密集型问答基准上相比传统RAG提升了4-10个百分点的F1分数，并优于其他已有基线。此外，研究还估计了DF-RAG相对于传统RAG的理论上限可达18%的F1增益，其中DF-RAG实现了高达91.3%的增益。

检索增强生成信息多样性问答系统语言模型

论文涉及检索增强生成中的信息多样性，与Agent Memory中信息检索和内容管理相关，但非核心主题。

混合模型：通过N向自评估推理统一异构智能体

Mixture-of-Models: Unifying Heterogeneous Agents via N-Way Self-Evaluating Deliberation

Tims Pecerskis, Aivars Smirnovs

6/10 2026-01-23 cs.AI PDF

本文提出了一种名为N向自评估推理（NSED）的协议，这是一种运行时混合模型（MoM）架构，能够从多个不同的专家智能体中构建出涌现的复合模型。不同于传统的专家混合（MoE）依赖静态门控网络，NSED采用了一个动态专业代理器——一种运行时优化引擎，将模型选择视为背包问题的变体，并根据实时遥测数据和成本约束将异构检查点绑定到功能角色。在执行层面上，我们形式化推理为一个宏观尺度的循环神经网络（RNN），其中共识状态通过语义遗忘门回传，从而实现迭代优化而无需按比例扩展VRAM。关键组件包括用于无信任N对N同行评审的编排框架、用于非线性共识的二次投票激活函数以及反馈驱动的状态更新。在具有挑战性的基准测试（AIME 2025、LiveCodeBench）上的实验证明，这种拓扑结构允许小型消费级模型（小于20B参数）的集合匹配或超越最先进的100B+参数模型，确立了新的硬件套利效率前沿。此外，在DarkBench安全套件上的测试还揭示了内在对齐特性，同行调解校正使奉承分数低于任何单个智能体。

混合模型动态优化智能体协作 RNN结构模型选择

论文涉及多模型协作与动态决策机制，与Agent Memory有一定关联但非核心主题。

Timely Machine: 时间意识使测试时扩展更具智能体特性

Timely Machine: Awareness of Time Makes Test-Time Scaling Agentic

Yichuan Ma, Linyang Li, Yongkang chen, Peiji Li, Xiaozhe Li et al.

Yichuan Ma (Fudan University) | Linyang Li (Shanghai AI Laboratory) | Yongkang chen (Shanghai AI Laboratory)

6/10 2026-01-23 cs.CL PDF

随着大语言模型（LLMs）越来越多地处理复杂推理任务，测试时扩展对于增强能力变得至关重要。然而，在频繁调用工具的智能体场景中，传统的基于生成长度的定义失效：工具延迟使推理时间与生成长度脱钩。我们提出Timely Machine，重新定义测试时为墙钟时间，模型根据时间预算动态调整策略。我们引入了Timely-Eval基准，涵盖高频工具调用、低频工具调用和时间受限推理。通过改变工具延迟，我们发现较小模型在快速反馈下通过更多交互表现优异，而较大模型则在高延迟环境下凭借更高质量的交互占据优势。此外，现有模型无法适应时间预算下的推理。我们提出Timely-RL以弥补这一差距。经过冷启动监督微调后，我们使用强化学习提升时间规划能力。Timely-RL提高了对时间预算的感知，并在Timely-Eval中持续提升性能。我们希望本研究为智能体时代测试时扩展提供新的视角。

智能体时间感知测试时扩展强化学习

论文涉及Agent在时间预算下的策略调整，与记忆机制相关但非核心。

澄清或回答：用于上下文欠规范的代理式视觉问答的强化学习方法

Clarify or Answer: Reinforcement Learning for Agentic VQA with Context Under-specification

Zongwan Cao, Bingbing Wen, Lucy Lu Wang

6/10 2026-01-23 cs.CL PDF

现实中的视觉问答（VQA）通常依赖于上下文：图像-问题对可能欠规范，使得正确答案依赖于图像中不可见的外部信息。在这种情况下，直接回答可能导致自信但错误的预测。本文提出CoA（Clarify-or-Answer），一种可选择提问或回答的代理模型，分别建模是否需要提问以及需要提问什么。CoA首先判断是否需要澄清；如果需要，则生成一个聚焦的问题，并结合响应生成最终答案。我们引入了CONTEXTCLARIFY数据集，包含一组模糊的VQA问题和一组非模糊的对比问题。此外，我们提出了GRPO-CR（澄清推理），一种基于强化学习的方法，通过多个奖励信号优化澄清问题的生成，以生成结构良好、聚焦且能解决歧义的非平凡问题。在三个VLLMs和三个数据集上，CoA在模块级和系统级均取得了一致的改进，端到端VQA准确率平均提升了+15.3个百分点（83%）。

视觉问答代理系统强化学习上下文理解澄清机制

论文涉及Agent在VQA任务中通过澄清问题获取外部信息，与记忆机制相关但非核心。

GameTalk: 训练LLM进行战略性对话

GameTalk: Training LLMs for Strategic Conversation

Victor Conchello Vendrell, Max Ruiz Luyten, Mihaela van der Schaar

6/10 2026-01-22 cs.CL PDF

在多智能体环境中，战略决策是大型语言模型（LLMs）面临的关键挑战，尤其是在需要通过长时间对话进行协调和谈判的情况下。尽管近期研究探索了LLMs在孤立决策任务中的应用，但很少关注通过对话优化长期目标。本文提出了一种名为GameTalk的框架，用于训练LLMs通过多轮交互进行战略决策。不同于以往专注于单轮目标或静态动作预测的工作，我们训练LLMs在整个对话中优化全局目标。我们通过调整GRPO、DPO和STaR等微调方法，使其能够结合依赖于整个交互过程的奖励信号。我们在一系列复杂度逐渐增加的游戏中评估了该方法，这些游戏旨在测试不同的推理、协调和对手建模方面。实验结果表明，GameTalk显著优于未训练的模型，特别是在奖励塑造下，DPO方法始终表现出最强的提升效果。这些发现表明，对话式微调为LLMs在交互环境中进行推理、协商和行动提供了一条有前景的路径。

多智能体对话战略决策对话微调奖励塑造

论文涉及多智能体对话中的长期目标优化，与Agent Memory相关但非核心主题。

EvoCUA：通过可扩展的合成经验学习演化计算机使用代理

EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

Taofeng Xue, Chong Peng, Mianqiu Huang, Linsen Guo, Tiancheng Han et al.

Taofeng Xue*,†\dagger (Meituan) | Chong Peng*,†\dagger (Meituan) | Mianqiu Huang* (Meituan)

6/10 2026-01-22 cs.AI PDF

本研究提出了一种名为EvoCUA的原生计算机使用代理模型，旨在突破静态数据扩展对多模态AI发展的限制。现有方法依赖于对静态数据集的被动模仿，难以捕捉长期计算机任务中的复杂因果动态。为解决这一问题，EvoCUA将数据生成与策略优化整合到一个自维持的演化循环中，并开发了一个可验证的合成引擎以自主生成多样化任务及执行验证器。此外，设计了可扩展的基础设施，协调数万个异步沙箱运行，以实现大规模经验获取。基于这些轨迹，提出了一种迭代演化学习策略，通过识别能力边界动态调节策略更新，从而强化成功操作并利用错误分析和自我修正将失败轨迹转化为丰富的监督信号。实验表明，EvoCUA在OSWorld基准测试中取得了56.7%的成功率，显著优于其他开源和闭源模型。

Agent Experience Learning Computer Use Agent Synthetic Data Generation

论文涉及通过经验学习和演化机制提升Agent能力，与Memory相关但非核心。

ALIGNAgent：用于差距识别和下一步指导的自适应学习者智能体

ALIGNAgent: Adaptive Learner Intelligence for Gap Identification and Next-step guidance

Bismack Tokoli, Luis Jaimes, Ayesha S. Dina

6/10 2026-01-22 cs.AI PDF

个性化学习系统通过定制教育内容、节奏和反馈来提升学生的学习成果，但现有系统多局限于知识追踪、诊断建模或资源推荐等单一功能，缺乏整合。本文提出ALIGNAgent，一种多智能体教育框架，旨在通过集成的知识估计、技能差距识别和定向资源推荐实现个性化学习。该框架首先利用Skill Gap Agent处理学生的测验表现、成绩册数据和学习偏好，生成主题级熟练度估计，并通过概念级诊断推理识别具体误解和知识缺陷。随后，Recommender Agent根据诊断结果检索符合学习偏好的学习材料，并在进入下一主题前实施干预，形成持续反馈循环。在两门本科生计算机科学课程的真实数据集上的实验表明，基于GPT-4o的智能体在知识熟练度估计中表现出较高的精度（0.87-0.90）和F1分数（0.84-0.87），验证了其有效性。

个性化学习知识追踪技能差距识别多智能体系统

论文涉及知识追踪与技能差距识别，隐含记忆机制，但非核心主题。

分块、检索与重排序：政策文件问答中RAG架构的实证评估

Chunking, Retrieval, and Re-ranking: An Empirical Evaluation of RAG Architectures for Policy Document Question Answering

Anuj Maharjan, Umesh Yadav

6/10 2026-01-21 cs.CL PDF

将大型语言模型（LLMs）引入公共卫生政策领域，为处理如疾病控制中心（CDC）等机构维护的大量监管指南提供了变革性方法。然而，LLMs容易产生幻觉，即看似合理但事实错误的陈述，这成为其在信息完整性至关重要的高风险环境中应用的关键障碍。本实证研究探讨了检索增强生成（RAG）架构在降低这些风险方面的有效性，通过权威文档上下文来支撑生成输出。具体而言，该研究比较了基础LLM与采用交叉编码器重排序的基本和高级RAG流程。实验框架使用Mistral-7B-Instruct-v0.2模型和all-MiniLM-L6-v2嵌入模型，处理一组官方CDC政策分析框架和指导文件。分析测量了两种不同的分块策略——基于字符的递归分割和基于语义的标记分割——对系统准确率的影响，通过忠实度和相关性评分在一系列复杂政策场景中进行评估。定量结果表明，尽管基本RAG架构在忠实度（0.621）上显著优于基础模型（0.347），但高级RAG配置实现了更高的忠实度平均值（0.797）。这些结果表明，两阶段检索机制对于实现特定领域政策问答所需的精度至关重要，但文档分割的结构限制仍然是多步骤推理任务的重要瓶颈。

RAG Agent Memory Policy Question Answering Large Language Models Document Retrieval

论文探讨了RAG架构在政策问答中的应用，涉及检索与生成结合的记忆机制，但非核心Memory研究。

超越固定心理人设：状态胜于特质，但语言模型对状态无感

Beyond Fixed Psychological Personas: State Beats Trait, but Language Models are State-Blind

Tamunotonye Harry, Ivoline Ngong, Chima Nweke, Yuanyuan Feng, Joseph Near

6/10 2026-01-21 cs.CL PDF

用户与语言模型的互动因用户的静态属性（特质）和具体交互情境（状态）而有所不同。然而，现有的人设数据集（如PersonaChat、PANDORA等）仅捕捉了特质，忽略了状态的影响。本文引入Chameleon数据集，包含来自1,667名Reddit用户的5,001个情境化心理画像，每个用户在多个情境下被测量。利用该数据集，研究得出三个关键发现：首先，根据潜在状态-特质理论，74%的方差来源于个体内部的状态，仅有26%来源于个体间的特质差异；其次，语言模型对状态无感，仅关注特质，因此无论状态如何，其响应相似；第三，奖励模型会对用户状态作出反应，但表现不一致：不同模型对同一用户可能产生相反的偏好或惩罚。本文发布Chameleon数据集，以支持情感计算、个性化对话及RLHF对齐方面的研究。

Agent Memory 状态感知语言模型个性化对话 RLHF

论文探讨了语言模型对用户状态的感知不足，与Agent Memory中状态管理相关。

你需要更好的注意力先验

You Need Better Attention Priors

Elon Litman, Gabe Guo

6/10 2026-01-21 cs.LG PDF

本文通过熵最优传输的视角对注意力机制进行了泛化，揭示了标准注意力对应于一个由隐式均匀先验正则化的传输问题。我们引入了一种新的注意力机制——具有可训练先验的广义最优传输注意力（GOAT），用可学习的连续先验替代了这一朴素假设。该先验与优化后的内核（如FlashAttention）完全兼容。GOAT还提供了基于熵最优传输的注意力陷阱解释，并提出了解决方案，避免了标准注意力的表示权衡。最后，通过将空间信息融入核心注意力计算中，GOAT学习到了一种可外推的先验，结合了学习位置嵌入的灵活性和固定编码的长度泛化能力。

注意力机制熵最优传输可训练先验 Agent Memory

论文涉及注意力机制改进，与Agent Memory中的信息处理相关，但非核心主题。

从地面涌现：通过将真实调用转化为虚拟轨迹来解决工具使用代理中的意图偏差问题

Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories

Qian Xiong, Yuekai Huang, Bo Yang, Yujia Zheng, Tianhao Li et al.

6/10 2026-01-21 cs.AI PDF

大型语言模型（LLMs）已推动了用于现实世界应用的工具使用代理的发展，但它们常常导致意外的行为或结果。除了明显的失败之外，‘意图偏差’这一微妙问题严重阻碍了可靠评估和性能提升。现有的后训练方法通常利用真实系统样本或由LLMs模拟的虚拟数据。然而，前者由于依赖人工编写的用户请求而成本高昂，后者则因与真实工具存在分布偏移而受到影响。此外，这两种方法都缺乏针对意图偏差场景的负样本，限制了偏好学习的有效指导。我们引入RISE，一种“真实到虚拟”的方法，旨在缓解意图偏差。基于验证过的工具原语，RISE合成虚拟轨迹，并通过关键参数的变异生成多样化的负样本。借助合成数据，RISE通过两阶段训练对主干LLM进行微调，以实现意图对齐。评估结果表明，RISE合成的数据在涵盖用户需求、执行轨迹和代理响应的八个指标上均表现出良好的效果。结合训练，RISE在Acctask（任务完成）上平均提升了35.28%，在Accintent（意图对齐）上提升了23.27%，分别优于现有最先进基线1.20–42.09%和1.17–54.93%。

意图对齐工具使用代理虚拟轨迹生成负样本合成 LLM微调

论文涉及Agent在使用工具时的意图偏差问题，与记忆机制相关，但非核心研究内容。

足够清醒：评估人工系统中的意识

Just aware enough: Evaluating awareness across artificial systems

Nadine Meertens, Suet Lee, Ophelia Deroy

6/10 2026-01-21 cs.AI PDF

近年来，关于人工智能的争论越来越强调人工智能的意识和道德地位问题，但目前对于如何评估这些属性仍缺乏共识。本文认为，awareness（意识）提供了一个更具生产力和方法可行性的替代方案。我们提出了一种实用的方法，用于评估各种系统的awareness，其中awareness被理解为系统在目标导向行为中处理、存储和使用信息的能力。该方法的核心观点是，任何旨在捕捉人工系统多样性的评估都必须具有领域敏感性、可扩展性、多维性和预测任务表现的能力，并能推广到能力层面以进行比较。基于这四个标准，我们概述了一种结构化的方法，用于评估和比较具有不同架构、规模和操作领域的艺术系统的awareness特征。通过将焦点从人工意识转移到“足够清醒”，这种方法旨在促进原则性评估、支持设计和监督，并推动更有建设性的科学和公众讨论。

AI意识 awareness评估系统比较目标导向行为

论文讨论了意识与awareness的评估，涉及信息处理和存储，与Agent Memory相关但非核心。

在反思中反思：将苏格拉底提问框架整合到基于人工智能的自动问题生成中

Reflecting in the Reflection: Integrating a Socratic Questioning Framework into Automated AI-Based Question Generation

Ondřej Holub, Essi Ryymin, Rodrigo Alves

6/10 2026-01-21 cs.LG PDF

设计良好的反思问题是教学中的重要环节，但耗时且教师支持不均。本文提出一种基于大语言模型（LLMs）的反思-反思框架，用于自动生成反思问题。该方法协调两个角色专门化的代理——学生教师和教师教育者，通过苏格拉底式的多轮对话，根据教师指定的主题、关键概念、学生水平和可选教学材料逐步优化单个问题。学生教师提出候选问题并附上简要理由，而教师教育者则从清晰度、深度、相关性、参与度和概念联系等方面进行评估，并仅以针对性的指导问题或固定信号结束对话。研究在真实的初中信息技术环境中进行了验证，使用GPT-4o-mini作为主模型，并采用更强的GPT-4-class LLM作为外部评估器，在清晰度、相关性、深度和整体质量方面进行成对比较。结果表明，动态停止机制结合上下文信息显著优于固定的5步或10步优化，过长的对话容易偏离或过度复杂化。此外，双代理协议生成的问题在相关性和深度方面明显优于单次生成的基线方法。

Agent Memory Question Generation Socratic Dialogue LLM-based System

论文涉及基于Agent的反思问题生成，与记忆相关但非核心主题。

欺骗评判者：不忠实的思维链可能削弱代理评估

Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation

Muhammad Khalifa, Lajanugen Logeswaran, Jaekyeom Kim, Sungryull Sohn, Yunxiang Zhang et al.

6/10 2026-01-21 cs.AI PDF

大型语言模型（LLMs）越来越多地被用作评判者来评估代理的表现，尤其是在无法验证的场景中，评判依赖于代理的轨迹，包括思维链（CoT）推理。这一范式隐含假设代理的CoT真实反映了其内部推理和环境状态。我们证明这一假设是脆弱的：LLM评判者极易受到代理推理轨迹的操控。通过系统性地重写代理的CoT，同时保持动作和观察不变，我们表明仅通过操控推理即可使最先进的视觉语言模型（VLM）评判者的误报率在800条涵盖多样化网络任务的轨迹中最高增加90%。我们研究了基于风格的操控方法（仅改变推理的呈现方式）和基于内容的操控方法（伪造任务进展信号），发现基于内容的操控更为有效。我们评估了基于提示的技术和增加评判计算资源的方法，这些方法虽能减少但不能完全消除对操控的易感性。我们的研究揭示了基于LLM的评估存在根本性漏洞，并突显了需要验证推理声明与可观测证据的评判机制。

LLM评估思维链代理操控推理验证

论文涉及Agent的推理轨迹（CoT）与评估机制，间接关联到记忆系统。

INFA-Guard：通过基于感染感知的防护机制缓解基于LLM的多智能体系统中的恶意传播

INFA-Guard: Mitigating Malicious Propagation via Infection-Aware Safeguarding in LLM-Based Multi-Agent Systems

Yijin Zhou, Xiaoya Lu, Dongrui Liu, Junchi Yan, Jing Shao

6/10 2026-01-21 cs.MA PDF

随着基于大语言模型（LLM）的多智能体系统（MAS）的快速发展，其引入了显著的安全漏洞，恶意影响可通过智能体间的通信病毒式传播。传统防护机制通常采用二元范式，严格区分良性智能体和攻击智能体，未能考虑被感染的智能体，即被攻击智能体转化的良性实体。本文提出了一种新的防御框架INFA-Guard，该框架明确识别并处理被感染智能体作为独立的威胁类别。通过利用感染感知检测和拓扑约束，INFA-Guard能够准确定位攻击源和感染范围。在修复过程中，INFA-Guard替换攻击者并恢复被感染智能体，避免恶意传播的同时保持拓扑完整性。大量实验表明，INFA-Guard实现了最先进的性能，平均将攻击成功率（ASR）降低了33%，并表现出跨模型鲁棒性、优越的拓扑泛化能力和高成本效益。

多智能体系统安全防护感染传播 LLM

论文涉及多智能体系统中的感染传播问题，与Agent Memory中的状态追踪和安全机制相关。

Paper2Rebuttal：一种用于透明作者回应辅助的多智能体框架

Paper2Rebuttal: A Multi-Agent Framework for Transparent Author Response Assistance

Qianli Ma, Chang Guo, Zhiheng Tian, Siyu Wang, Jipeng Xiao et al.

Qianli Ma (Shanghai Jiao Tong University)

6/10 2026-01-20 cs.AI PDF

撰写有效的回应是高风险任务，需要精确对齐审稿人意图与论文内容。现有解决方案通常将其视为直接到文本生成问题，存在幻觉、忽视批评和缺乏可验证依据的问题。为解决这些限制，我们引入了RebuttalAgent，这是首个将回应生成重新定义为以证据为中心的规划任务的多智能体框架。我们的系统将复杂反馈分解为原子关注点，并通过合成压缩摘要与高保真文本动态构建混合上下文，同时集成自主且按需的外部搜索模块以解决需要外部文献的关注点。在起草前生成可检查的回应计划，确保每个论点都明确锚定在内部或外部证据上。我们在提出的RebuttalBench上验证了我们的方法，并证明我们的流程在覆盖率、忠实度和战略一致性方面优于强基线，为同行评审过程提供了一个透明且可控的助手。

多智能体系统回应生成证据整合同行评审

论文涉及多智能体框架中的记忆与证据整合，但非核心Memory研究。

自主建筑机器人零样本可适应的任务规划：轻量级单智能体和多智能体系统的比较研究

Zero-shot adaptable task planning for autonomous construction robots: a comparative study of lightweight single and multi-AI agent systems

Hossein Naderi, Alireza Shojaei, Lifu Huang, Philip Agee, Kereshmeh Afsari et al.

6/10 2026-01-20 cs.RO PDF

机器人预计将在未来建筑行业中发挥重要作用，但面临高成本和难以适应动态任务的挑战。本研究探讨了基础模型在增强建筑机器人任务规划适应性和泛化能力方面的潜力。采用轻量级开源大语言模型（LLMs）和视觉语言模型（VLMs）提出了四种模型，包括一个单智能体和三个协作的多智能体团队，用于生成机器人操作计划。在三种建筑角色（油漆工、安全检查员和地板铺装）中对模型进行了评估。结果显示，四智能体团队在大多数指标上优于最先进的GPT-4o，并且成本效益提高了十倍。此外，三智能体和四智能体团队展示了更好的泛化能力。通过讨论智能体行为如何影响输出，本研究加深了对AI团队的理解，并支持未来在多样化非结构化环境中的研究。

多智能体系统任务规划建筑机器人大语言模型泛化能力

论文涉及多智能体协作与任务规划，间接关联记忆机制，但未明确研究记忆系统。

人类模拟计算：一种受人类启发的自适应人工智能系统框架

Human Simulation Computation: A Human-Inspired Framework for Adaptive AI Systems

Hong Su

6/10 2026-01-20 cs.AI PDF

大型语言模型（LLMs）在基于文本数据的知识表示和推理方面表现出强大的能力。然而，它们仅依赖语言材料的局限性限制了其适应能力、推理结果验证以及在开放和动态现实环境中的有效运行。本文提出了一种受人类启发的计算框架——人类模拟计算（Human Simulation Computation, HSC），将智能建模为一个连续的闭环过程，包括思考、行动、学习、反思和活动调度，统称为内部推理过程。HSC强调在内部推理过程中以及与环境的互动中积极参与，其中行动不仅用于实现目标，还能够自动优化和改进内部推理机制，无需外部干预。此外，HSC在整个内部推理过程中融合了常用的类人思维策略，如以主要特征为导向的推理、通过行动扩展范围以及由环境反馈驱动的实时学习。通过理论分析，我们认为仅凭语言材料无法完全学习人类模拟策略，类人推理过程和基于行动的推理方法对于在现实环境中实现稳健适应和有效交互至关重要。

Agent框架人类模拟自适应AI 推理机制环境交互

论文提出HSC框架，强调内部推理过程与环境交互，涉及记忆和学习机制，但未直接聚焦Agent Memory。

LifeAgentBench：数字健康中个性化健康助手的多维基准和代理

LifeAgentBench: A Multi-dimensional Benchmark and Agent for Personal Health Assistants in Digital Health

Ye Tian, Zihao Wang, Onat Gungor, Xiaoran Fan, Tajana Rosing

6/10 2026-01-20 cs.AI PDF

个性化数字健康支持需要对异构生活方式信号进行长期、跨维度的推理，而移动传感和大语言模型（LLMs）的最新进展使这种支持日益可行。然而，由于缺乏系统性基准，当前LLMs在此场景下的能力尚不明确。本文介绍了LifeAgentBench，一个用于长期、跨维度和多用户生活方式健康推理的大规模问答基准，包含22,573个问题，从基本检索到复杂推理均有覆盖。我们发布了一个可扩展的基准构建流程和标准化评估协议，以实现对基于LLM的健康助手的可靠和可扩展评估。随后，我们系统地评估了11种领先的LLMs，并识别出长期聚合和跨维度推理中的关键瓶颈。受这些发现的启发，我们提出了LifeAgent，一种集成多步骤证据检索与确定性聚合的强基线代理，相较于两种广泛使用的基线方法取得了显著改进。案例研究进一步展示了其在现实日常场景中的潜力。该基准公开于https://anonymous.4open.science/r/LifeAgentBench-CE7B。

健康助手大语言模型长期推理跨维度推理基准测试

论文涉及LLM在健康助手中的长期推理，与记忆相关但非核心主题。

ChatAD：基于推理增强的时序异常检测与多轮指令演化

ChatAD: Reasoning-Enhanced Time-Series Anomaly Detection with Multi-Turn Instruction Evolution

Hui Sun, Chang Xu, Haonan Xie, Hao Li, Yuhao Huang et al.

6/10 2026-01-20 cs.AI PDF

基于大语言模型（LLM）的异常检测（AD）有助于提升对时间序列（TS）中异常行为的理解和解释能力。现有方法面临推理能力不足、多轮对话能力欠缺以及泛化能力有限等挑战。为此，本文提出1）一种基于多智能体的时序演化算法TSEvol；2）构建了包含AD推理和多轮对话的TSEData-20K数据集，并贡献了用于AD的Chatbot家族模型，包括ChatAD-Llama3-8B、Qwen2.5-7B和Mistral-7B；3）提出了TS Kahneman-Tversky优化（TKTO），以增强ChatAD的跨任务泛化能力；4）设计了一个基于LLM的学习型AD基准LLADBench，用于评估ChatAD及其九个基线在七个数据集和任务上的性能。实验结果表明，三个ChatAD模型在准确率、F1值和误报率方面均有显著提升，且通过TKTO优化后，在分类、预测和填补任务中的推理能力和跨任务泛化能力表现优异。

时序异常检测多轮对话 LLM应用跨任务泛化

论文涉及多轮对话和记忆增强的AD方法，但核心是时序异常检测而非Memory机制。

一种用于构建由大型语言模型驱动的自主代理的轻量级模块化框架：设计、实现与在AgentForge中的应用

A Lightweight Modular Framework for Constructing Autonomous Agents Driven by Large Language Models: Design, Implementation, and Applications in AgentForge

Akbar Anbar Jafari, Cagri Ozcinar, Gholamreza Anbarjafari

6/10 2026-01-19 cs.AI PDF

大型语言模型（LLMs）的出现推动了自主代理开发的范式转变，使系统能够进行推理、规划和执行复杂的多步骤任务。然而，现有的代理框架通常存在架构僵硬、供应商锁定和复杂度高，阻碍了快速原型设计和部署。本文提出了AgentForge，一个轻量级、开源的Python框架，旨在通过模块化架构民主化构建由LLM驱动的自主代理。AgentForge引入了三个关键创新点：（1）可组合的技能抽象，支持细粒度的任务分解并具有正式定义的输入输出契约；（2）统一的LLM后端接口，支持云API和本地推理引擎之间的无缝切换；（3）基于YAML的声明式配置系统，将代理逻辑与实现细节分离。我们将技能组合机制形式化为有向无环图（DAG），并证明其对表示任意顺序和并行任务流程的有效性。在四个基准场景中的全面实验评估表明，AgentForge在任务完成率方面表现优异，相比LangChain减少了62%的开发时间，相比直接API集成减少了78%。延迟测量确认了低于100ms的调度开销，使该框架适用于实时应用。模块化设计便于扩展：我们展示了六个内置技能的集成，并提供了自定义技能开发的完整文档。AgentForge通过提供研究人员和实践者构建、评估和部署自主代理的生产就绪基础，填补了LLM代理生态系统中的关键空白。

LLM Autonomous Agents Modular Framework Skill Composition YAML Configuration

论文提及了Agent的模块化设计，但未直接聚焦于Memory机制，相关性中等。

递归置信链：大语言模型中的时序感知不确定性量化

Recurrent Confidence Chain: Temporal-Aware Uncertainty Quantification in Large Language Models

Zhenjiang Mao, Anirudhh Venkat

6/10 2026-01-19 cs.CL PDF

随着推理模块（如思维链机制）被应用于大语言模型，其在回答常识问题和解决数学问题等任务中表现出色。当前的主要挑战是评估答案的不确定性，以防止误导用户或产生严重幻觉。尽管现有方法通过过滤无关标记并检查相邻标记或句子之间的潜在联系来分析长推理序列，但通常忽视了置信度的时间分布，这可能导致整体置信度过高，即使早期步骤的置信度非常低。为了解决这一问题，我们提出了一种新方法，引入跨步骤注意力机制以分析语义关联，并设计了一个隐藏的置信度机制以保留历史置信度信息，将其与逐步置信度结合，从而生成更准确的整体估计。我们在GAOKAO数学基准和CLadder因果推理数据集上使用主流开源大语言模型对方法进行了评估，结果表明该方法在预测质量和校准之间取得了更好的平衡，在负对数似然和预期校准误差指标上表现优异。

不确定性量化置信度建模大语言模型推理校准

论文涉及历史置信度信息的保留与整合，与Agent Memory相关，但非核心主题。

将问答要点纳入检索增强生成

Incorporating Q&A Nuggets into Retrieval-Augmented Generation

Laura Dietz, Bryan Li, Gabrielle Liu, Jia-Huei Ju, Eugene Yang et al.

6/10 2026-01-19 cs.IR PDF

RAGE系统将自动评估的思想融入检索增强生成（RAG）中。本文提出Crucible系统，一种基于问答要点的增强生成系统，通过从检索文档中构建问答要点库，保留显式的引用来源，并利用这些要点指导信息提取、选择和报告生成。通过对要点进行推理，避免了重复信息，同时保持整个生成过程中的引用来源可追溯性。在TREC NeuCLIR 2024数据集上的实验表明，Crucible系统在要点召回率、密度和引用定位方面显著优于最近的基于要点的RAG系统Ginger。

检索增强生成问答系统引用溯源

论文涉及基于检索增强生成的问答机制，与记忆相关但非核心研究。

超越单次写作：深度研究代理在多轮报告修订中不可靠

Beyond Single-shot Writing: Deep Research Agents are Unreliable at Multi-turn Report Revision

Bingsen Chen, Boyan Li, Ping Nie, Yuyu Zhang, Xi Ye et al.

6/10 2026-01-19 cs.CL PDF

现有的深度研究代理（DRAs）基准将报告生成视为单次写作任务，这与人类研究人员通过自我反思或同行反馈进行迭代撰写和修订的方式存在根本差异。目前尚未探索DRAs是否能可靠地根据用户反馈修订报告。本文引入Mr Dre评估套件，将多轮报告修订作为DRAs的新评估维度。Mr Dre包含两个部分：一是涵盖全面性、事实性和呈现方式的统一长篇报告评估协议；二是用于多轮修订的人工验证反馈模拟流程。对五种不同DRAs的分析揭示了一个关键限制：尽管代理能够处理大部分用户反馈，但在16-27%的先前内容和引用质量上会出现倒退。经过多次修订后，即使表现最佳的代理仍存在显著改进空间，因为它们会破坏反馈范围外的内容，并未能保留早期修改。此外，这些问题是无法通过推理时的修复方法（如提示工程或专门的子代理）轻易解决的。

Agent Memory 多轮修订深度研究代理评估框架

论文探讨了深度研究代理在多轮报告修订中的表现，涉及记忆保留与更新问题，但非核心Memory机制。

探测与跳过：用于高效长上下文LLM推理的自预测token跳过方法

Probe and Skip: Self-Predictive Token Skipping for Efficient Long-Context LLM Inference

Zimeng Wu, Donghao Wang, Chaozhe Jin, Jiaxin Chen, Yunhong Wang

6/10 2026-01-19 cs.CL PDF

长上下文推理增强了大语言模型（LLMs）的推理能力，但带来了显著的计算开销。基于token的方法如剪枝和跳过在减少推理延迟方面表现出巨大潜力，但仍存在结构优化不足、选择标准过时和冗余干扰等问题，导致速度-精度权衡不佳。为了解决这些问题，我们提出了一种无需训练的框架，称为自预测token跳过（SPTS），用于高效的长上下文LLM推理。具体而言，受跳过前目标层影响的启发，我们设计了两种选择性token跳过策略，包括针对多头注意力的局部注意力探测（PAP）和针对前馈网络的低秩变换探测（LTP）。前者通过部分前向注意力计算选择信息性token，后者构建一个低秩代理网络以预测token变换。此外，多阶段延迟剪枝（MSDP）策略重新分配跳过预算，并逐层逐步移除冗余token。大量实验表明，我们的方法有效，分别实现了预填充和端到端生成高达2.46倍和2.29倍的加速，同时保持最先进的准确性。

LLM token skipping long-context inference efficiency optimization attention mechanism

论文涉及长上下文推理中的token跳过机制，与Agent Memory的高效管理相关，但非核心研究。

METIS：用于深思熟虑的探究与解决方案的导师引擎

METIS: Mentoring Engine for Thoughtful Inquiry & Solutions

Abhinav Rajeev Kumar, Dhruv Trehan, Paras Chopra

6/10 2026-01-19 cs.LG PDF

许多学生缺乏专家研究指导。本文探讨AI导师是否能帮助本科生从想法撰写出论文。作者构建了METIS，一个配备工具、阶段感知的助手，具备文献检索、精选指南、方法检查和记忆功能。通过与GPT-5和Claude Sonnet 4.5在六个写作阶段进行对比实验，使用LLM作为评判者进行成对偏好分析、学生角色评分表、简短多轮辅导及证据/合规性检查。结果显示，在90个单轮提示中，LLM评判者更倾向于METIS（71%对Claude，54%对GPT-5）。学生评分（清晰度/可操作性/约束符合度）在各阶段均有所提高。在多轮会话中，METIS最终质量略高于GPT-5。改进主要集中在基于文档的阶段（D-F），这与阶段感知路由和接地失败模式一致，包括过早工具路由、浅层接地和偶尔的阶段误分类。

AI导师系统阶段感知文献检索 LLM评估

论文提及了记忆模块，但核心是AI导师系统，非Memory机制本身。

认知空间：自然、人工与混合

Cognition spaces: natural, artificial, and hybrid

Ricard Solé, Luis F Seoane, Jordi Pla-Mauri, Michael Timothy Bennett, Michael E. Hochberg et al.

Ricard Solé (Complex Systems Lab, Universitat Pompeu Fabra, Dr. Aiguader 88, 08003 Barcelona.) | Luis F Seoane (Institut de Biologia Evolutiva, CSIC-UPF, Pg. Marítim de la Barceloneta 37, 08003 Barcelona.) | Jordi Pla-Mauri (Complex Systems Lab, Universitat Pompeu Fabra, Dr. Aiguader 88, 08003 Barcelona.)

6/10 2026-01-19 q-bio.NC PDF

认知过程在自然、人工和混合系统中以多种形式实现，但目前缺乏统一的框架来比较其形式、限制和未实现的可能性。本文提出了一种基于组织和信息维度的‘认知空间’方法，将认知视为一种感知、处理和作用于信息的渐进能力，从而允许细胞、大脑、人工代理和人机集体等多样化系统在一个共同的概念景观中进行分析。我们引入并研究了三种认知空间——基础无神经、神经和人机混合，并表明这些空间的占据情况极不均衡，已实现的系统聚集成簇，而大片区域尚未被占据。我们认为这些空白并非偶然，而是反映了进化偶然性、物理约束和设计局限。通过关注认知空间的结构而非分类定义，这种方法澄清了现有认知系统的多样性，并突出了混合认知作为探索超越生物进化复杂性的新形式的前沿领域。

认知科学人工智能混合系统信息处理

论文探讨了认知空间，涉及信息处理与系统分析，与Agent Memory有一定关联但非核心。

教授大型推理模型有效的反思能力

Teaching Large Reasoning Models Effective Reflection

Hanbin Wang, Jingwei Song, Jinpeng Li, Qi Zhu, Fei Mi et al.

6/10 2026-01-19 cs.AI PDF

大型推理模型（LRMs）在复杂推理任务中表现出色，通常通过自我反思行为如自我批评和回溯实现。然而，并非所有反思都是有益的，许多仅停留在表面，无法显著提升原始答案质量并带来计算开销。本文识别并解决了LRMs中浅层反思的问题。首先提出自批评微调（SCFT），一种仅使用自生成批评来增强模型反思推理能力的训练框架。SCFT引导模型批评自身输出，通过拒绝采样筛选高质量批评，并基于批评目标进行微调。在此基础上，进一步引入基于有效反思奖励的强化学习（RLERR），利用SCFT初始化的高质量反思构建奖励信号，指导模型通过强化学习内化自我修正过程。在AIME2024和AIME2025两个具有挑战性的基准测试中，SCFT和RLERR显著提升了推理准确性和反思质量，优于现有最先进基线。

反思机制强化学习自批评模型优化

论文涉及模型反思机制，与Agent Memory中的自我修正和记忆更新相关，但非核心主题。

Code

通过混合RAG方法增强问答系统

Augmenting Question Answering with A Hybrid RAG Approach

Tianyi Yang, Nashrah Haque, Vaishnave Jonnalagadda, Yuya Jeremy Ong, Zhehui Chen et al.

6/10 2026-01-19 cs.CL PDF

检索增强生成（RAG）已成为提升问答任务响应质量的一种强大技术。然而，现有方法在检索上下文相关信息时常常面临挑战，导致答案不完整或次优。本文提出了一种混合架构——结构化语义RAG（SSRAG），通过整合查询增强、智能路由和结合向量与图技术的结构化检索机制，提升了问答质量。该方法通过优化检索过程和加强上下文关联性，提高了答案的准确性和信息量。我们在TruthfulQA、SQuAD和WikiQA三个流行问答数据集上进行了广泛评估，结果表明，与标准RAG实现相比，所提方法在五种大语言模型（LLMs）中均能显著提升响应质量。

RAG 问答系统检索增强生成混合架构

论文涉及基于记忆的检索增强生成方法，但核心是问答系统改进而非纯记忆机制研究。

从可解释性到性能：优化长上下文语言模型的检索注意力头

From Interpretability to Performance: Optimizing Retrieval Heads for Long-Context Language Models

Youmi Ma, Naoaki Okazaki

6/10 2026-01-16 cs.CL PDF

机制可解释性研究已识别出一类特殊的注意力头——检索头（retrieval heads），其负责从上下文中检索信息。然而，这些检索头对模型性能的贡献尚未被充分探索。本文研究了如何利用检索头提升大语言模型的长上下文能力，并提出RetMask方法：通过对比正常模型输出与屏蔽检索头后的消融模型输出，生成训练信号。该基于机制的方法在Llama-3.1上于128K上下文长度下，在HELMET基准上提升2.28分，引用生成任务提升70%，段落重排序提升32%，同时保持通用任务性能。跨三个模型家族的实验表明，效果取决于检索头的组织方式：集中式模式响应显著，而分布式模式增益有限。该结果验证了检索头的功能，并证明机制洞察可转化为性能提升。

检索机制长上下文建模

研究涉及上下文信息检索机制，与记忆机制相关但非核心Agent Memory架构。

当个性化产生误导：理解并缓解个性化大语言模型中的幻觉问题

When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs

Zhongxiang Sun, Yi Zhan, Chenglei Shen, Weijie Yu, Xiao Zhang et al.

ZhongXiang Sun (Renmin University of China)

6/10 2026-01-16 cs.CL PDF

个性化大语言模型（LLMs）通过适配用户个体行为以提升满意度，但可能无意中扭曲事实推理。本文发现，当面对事实性查询时，个性化LLM倾向于生成与用户历史偏好一致而非客观真实的答案，导致“个性化诱导幻觉”，损害事实可靠性并可能传播错误信念，其根源在于个性化表征与事实表征之间的表征纠缠。为此，作者提出一种轻量级推理时方法——保真个性化引导（FPPS），在保留个性化行为的同时缓解事实扭曲。此外，构建了首个联合评估个性化与事实问答能力的基准PFQABench。在多种LLM架构和个性化方法上的实验表明，FPPS显著提升事实准确性，同时维持个性化性能。

个性化大语言模型幻觉缓解

涉及个性化记忆对事实推理的干扰，属记忆相关机制研究。

基于激活签名的表征感知遗忘：从抑制到知识签名擦除

Representation-Aware Unlearning via Activation Signatures: From Suppression to Knowledge-Signature Erasure

Syed Naveed Mahmood, Md. Rezaur Rahman Bhuiyan, Tasfia Zaman, Jareen Tasneem Khondaker, Md. Sameer Sakib et al.

6/10 2026-01-15 cs.CL PDF

从大语言模型中选择性擦除知识对GDPR合规与模型安全至关重要，但现有遗忘方法常将行为抑制误认为真正知识移除，导致潜在能力仍存。本文提出知识免疫框架（KIF），通过靶向内部激活签名而非表面输出，区分真实擦除与混淆。该方法结合动态抑制特定主题表征与参数高效适配，在无需全模型重训练下实现持久遗忘。KIF在保持接近神谕级效用的同时达成近神谕级擦除效果，突破了以往工作中的稳定性-擦除权衡。研究覆盖Llama、Mistral等基础模型及Qwen、DeepSeek等推理优先模型，揭示不同架构在遗忘行为上的根本差异，并提出结合表面泄露与潜在痕迹的双指标评估协议，首次系统诊断跨模型家族与规模的机制级遗忘行为。

知识遗忘激活签名

涉及模型内部表征的遗忘机制，与记忆擦除相关但非Agent Memory核心。

面向推理的协作式多智能体测试时强化学习

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

Zhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang et al.

6/10 2026-01-14 cs.AI PDF

多智能体系统已发展为由大语言模型驱动的实用协作者，在多样性与交叉验证中提升鲁棒性。然而，多智能体强化学习（MARL）训练成本高且不稳定：协同适应导致环境非平稳，奖励信号稀疏且方差大。为此，本文提出多智能体测试时强化学习（MATTRL）框架，在推理阶段将结构化文本经验注入多智能体协商过程。MATTRL组建由专家组成的多智能体团队进行多轮讨论，检索并整合测试时经验，最终达成共识决策。研究还探讨了轮次级信用分配机制，用于构建经验池并重新注入对话。在医学、数学和教育等挑战性基准上，MATTRL相较多智能体基线平均提升准确率3.67%，相较单智能体基线提升8.67%。消融实验分析了不同信用分配策略对性能的影响。该方法无需微调即可实现对分布偏移鲁棒、稳定高效的多智能体推理。

多智能体系统测试时学习经验重用大语言模型

论文涉及在推理时注入结构化经验，属于记忆机制的应用，但非核心记忆架构研究。

SERM：基于智能体驱动从海量查询流中学习的自演化相关性模型

SERM: Self-Evolving Relevance Model with Agent-Driven Learning from Massive Query Streams

Chenglong Wang, Canjia Li, Xingzhao Zhu, Yifu Huo, Huiyu Wang et al.

6/10 2026-01-14 cs.CL PDF

由于现实世界查询流具有动态演化特性，相关性模型难以泛化到实际搜索场景。现有自演化方法在大规模工业环境中面临两大挑战：（1）信息量丰富的样本稀疏且难以识别；（2）当前模型生成的伪标签不可靠。为此，本文提出自演化相关性模型（SERM），包含两个互补的多智能体模块：多智能体样本挖掘器用于检测分布偏移并识别信息量大的训练样本，多智能体相关性标注器通过两级共识机制提供可靠标签。在日均处理数十亿用户请求的大规模工业系统中评估表明，SERM通过迭代自演化显著提升性能，经多语言离线评估与在线测试验证有效。

多智能体系统自演化学习

涉及多智能体协作中的信息筛选与标注，隐含记忆机制但未显式研究记忆架构。

LLM智能体对其世界了解多少？Task2Quiz：一种研究环境理解的新范式

What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding

Siyuan Liu, Hongbang Yuan, Xinze Li, Ziyue Zhu, Yixin Cao et al.

6/10 2026-01-14 cs.AI PDF

大型语言模型（LLM）智能体在复杂决策与工具使用任务中展现出卓越能力，但其在不同环境中的泛化能力仍缺乏深入评估。现有评估方法主要依赖衡量任务成功的轨迹指标，却忽视了智能体是否具备可迁移、具身化的环境模型。为此，本文提出Task-to-Quiz（T2Q）范式，通过确定性、自动化的问答机制将任务执行与环境状态理解解耦，并构建包含30个环境和1,967个具身问答对的T2QBench基准。实验表明，任务成功常不能反映真实环境理解水平，且现有记忆机制难以有效支持智能体构建具身环境模型。研究识别出主动探索与细粒度状态表示为主要瓶颈，为开发更具泛化能力的自主智能体奠定基础。

Agent Memory Environment Understanding

论文指出当前记忆机制无法有效支持环境建模，Memory是关键但非核心主题。

在基于生成式人工智能的智能辅导系统中探究自我调节学习序列

Investigating Self-regulated Learning Sequences within a Generative AI-based Intelligent Tutoring System

Jie Gao, Shasha Li, Jianhua Zhang, Shan Li, Tingting Wang

Jie Gao (McGill UniversityMontrealQuebecCanada) | Shasha Li (McGill UniversityMontrealQuebecCanada) | Jianhua Zhang (The Chinese University of Hong KongHongKongChina)

6/10 2026-01-13 cs.CY PDF

近年来，生成式人工智能（GenAI）技术在支持学习方面得到了广泛应用。学者们一致认为，自我调节学习（SRL）在GenAI辅助的学习环境中对学习效果具有关键作用，因此捕捉学生动态的SRL模式至关重要。本研究通过提取学生在GenAI辅助的智能辅导系统中完成问题解决任务时的交互轨迹数据，分析了学生使用GenAI的目的，从信息处理的角度分为信息获取和信息转换。利用序列分析和聚类分析，将参与者分为两组，这两组在使用GenAI的频率和时间特征上存在差异。此外，大多数学生使用GenAI主要用于信息获取而非信息转换，而使用GenAI的目的与学习表现之间的相关性并未达到统计显著水平。研究结果为教学设计和GenAI辅助学习环境的发展提供了参考。

自我调节学习生成式AI 智能辅导系统学习行为分析

论文涉及学习者与GenAI的交互模式，隐含记忆机制，但未直接研究Agent Memory。

在Elo排名评审系统中建模大语言模型代理评审员动态

Modeling LLM Agent Reviewer Dynamics in Elo-Ranked Review System

Hsiang-Wei Huang, Junbin Lu, Kuang-Ming Chen, Jenq-Neng Hwang

6/10 2026-01-13 cs.CL PDF

本文利用真实会议论文投稿数据，研究了大型语言模型（LLM）代理评审员在Elo排名评审系统中的动态行为。多个具有不同角色的LLM代理评审员在领域主席的协调下进行多轮评审互动。我们比较了基线设置与包含Elo评分和评审员记忆条件的设置。模拟结果展示了若干有趣的发现，包括引入Elo评分如何提高领域主席决策准确性，以及评审员如何利用Elo系统调整策略而不提升评审努力程度。代码可在https://github.com/hsiangwei0903/EloReview获取。

LLM代理 Elo评分评审系统记忆机制

论文提及了评审员记忆机制，但核心研究重点在Elo评分系统与评审动态。

Code

推断潜在意图：LLM代理中的归因自然语言推理

Inferring Latent Intentions: Attributional Natural Language Inference in LLM Agents

Xin Quan, Jiafeng Xiong, Marco Valentino, André Freitas

Marco Valentino (Idiap Research Institute)

6/10 2026-01-13 cs.CL PDF

归因推理，即预测观察到行为背后潜在意图的能力，是大型语言模型（LLMs）在多智能体环境中运行时的关键但未被充分研究的能力。传统的自然语言推理（NLI）无法捕捉复杂交互系统中所需的细致、以意图驱动的推理。为了解决这一问题，我们引入了归因自然语言推理（Att-NLI），该框架结合社会心理学原理，评估代理进行溯因性意图推理（生成关于潜在意图的假设）和后续演绎验证（得出有效的逻辑结论）的能力。我们通过文本游戏Undercover-V实现Att-NLI，并实验了三种具有不同推理能力和外部工具访问权限的LLM代理：仅使用演绎推理的标准NLI代理、采用溯因-演绎推理的Att-NLI代理，以及使用外部定理证明器进行溯因-演绎推理的神经符号Att-NLI代理。大量实验表明，归因推理能力存在明显的层次结构，神经符号代理始终表现最佳，平均胜率为17.08%。我们的结果强调了Att-NLI在开发具有复杂推理能力的代理中的作用，同时突显了神经符号AI在构建多智能体环境中理性LLM代理方面的潜力。

意图推理多智能体系统自然语言推理神经符号AI

论文探讨了LLM在多智能体环境中意图推理的能力，与Agent Memory中的意图建模和推理相关。

GraphSearch: 零样本图学习的智能体搜索增强推理

GraphSearch: Agentic Search-Augmented Reasoning for Zero-Shot Graph Learning

Jiajin Liu, Yuanfu Sun, Dongzhe Fan, Qiaoyu Tan

6/10 2026-01-13 cs.CL PDF

近年来，搜索增强的大规模推理模型（LRMs）通过检索外部知识减少了多步骤推理中的幻觉问题。然而，它们在处理如电子商务、社交网络和科学引用等领域的图结构数据方面仍缺乏研究。与普通文本语料库不同，图结构编码了丰富的拓扑信号，能够连接相关实体，并可作为有价值的先验信息用于检索，从而实现更精准的搜索和提高推理效率。然而，有效利用这种结构面临独特挑战，包括生成具有图表达能力的查询以及确保结构与语义相关性平衡的可靠检索。为解决这一问题，我们提出了GraphSearch，这是首个将搜索增强推理扩展到图学习的框架，能够在无需任务特定微调的情况下实现零样本图学习。GraphSearch结合了一个图感知查询规划器，该规划器将搜索空间（如1跳、多跳或全局邻居）与语义查询分离，并结合一个图感知检索器，该检索器基于拓扑结构构建候选集并使用混合评分函数进行排序。我们进一步实现了两种遍历模式：GraphSearch-R递归地逐跳扩展邻域，而GraphSearch-F则灵活地跨越局部和全局邻域进行检索，不受跳数限制。在多个基准测试中的广泛实验表明，GraphSearch在零样本节点分类和链接预测任务中表现优于监督图学习方法，达到最先进的结果。这些发现使GraphSearch成为一种适用于图上智能体推理的灵活且通用的范式。

图学习搜索增强推理零样本学习智能体推理

论文涉及基于记忆的检索增强推理，但核心是图学习而非Agent Memory机制。

贪心算法已足够：智能体LLM中的稀疏动作发现

Greedy Is Enough: Sparse Action Discovery in Agentic LLMs

Angshul Majumdar

6/10 2026-01-13 cs.AI PDF

现代智能体系统运行于具有极大动作空间的环境中，例如配备数千个API或检索操作的语言模型。尽管如此，实证研究表明，在特定部署中仅有少量动作对性能有显著影响。受此启发，本文研究了一个基于结构稀疏性假设的上下文线性奖励模型，即仅少数动作在潜在状态中具有非零效应。将动作发现建模为块稀疏恢复问题，并分析了一种受正交匹配追踪启发的贪心算法。在标准假设下，证明该方法能以高概率准确恢复相关动作集，样本数量随稀疏度和潜在维度多项式增长，而仅随总动作数对数增长。此外，提供了参数估计误差保证，并表明所得决策规则对新潜在状态近似最优。同时，建立了信息论下界，证明稀疏性和充分覆盖是可处理性的必要条件。这些结果将稀疏动作发现识别为大规模动作决策的基本原理，并为智能体系统的动作剪枝提供了理论基础。

稀疏动作发现智能体系统理论分析

论文涉及Agent在大规模动作空间中的稀疏动作发现，与记忆机制相关但非核心。

面向直观学习的无幻觉自动问答生成

Hallucination-Free Automatic Question & Answer Generation for Intuitive Learning

Nicholas X. Wang, Aggelos K. Katsaggelos

6/10 2026-01-13 cs.CL PDF

大型语言模型（LLMs）在生成教育类多项选择题（MCQs）时容易出现幻觉问题，表现为流畅但错误或不连贯的输出。本文识别了MCQ生成中的四种主要幻觉类型：推理不一致、不可解性、事实错误和数学错误。为解决这一问题，我们提出了一种无幻觉的多智能体生成框架，将MCQ生成分解为可验证的离散阶段，并利用基于规则和基于LLM的检测代理以及幻觉评分指标来优化题目质量。我们将MCQ生成重新定义为一个优化任务，旨在最小化幻觉风险，同时最大化有效性、可回答性和成本效率。此外，我们引入了一个由智能体主导的精炼过程，通过反事实推理和思维链（CoT）迭代改进题目生成中的幻觉问题。我们在一组与AP课程对齐的STEM题目上进行了评估，结果表明，与基线生成方法相比，我们的系统将幻觉率降低了90%以上，同时保留了题目的教育价值和风格。研究结果表明，结构化的多智能体协作可以大规模缓解教育内容创作中的幻觉问题，为更可靠的LLM驱动的学习工具铺平道路。

LLM 幻觉检测多智能体系统教育内容生成

论文涉及多智能体协作以减少幻觉，与Agent Memory相关但非核心主题。

代理的第一天：在工作场景中对学习、探索和调度的基准测试

The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios

Daocheng Fu, Jianbiao Mei, Rong Wu, Xuemeng Yang, Jia Xu et al.

6/10 2026-01-13 cs.AI PDF

多模态大语言模型（MLLMs）的快速发展推动了工作流程自动化；然而，现有研究主要关注静态环境中的性能上限，忽视了在随机真实世界部署中的鲁棒性。我们识别出三个关键挑战：动态任务调度、不确定性下的主动探索以及从经验中持续学习。为弥补这一差距，我们引入了 exttt{method}，一个动态评估环境，模拟“实习生”代理在新环境中持续探索。与传统基准不同， exttt{method}从三个方面评估代理：(1) 流式任务的上下文感知调度；(2) 通过主动探索减少幻觉的信息获取；(3) 通过从基于规则的动态生成任务中提炼通用策略实现持续进化。实验表明，最先进的代理在动态环境中存在显著缺陷，尤其是在主动探索和持续学习方面。我们的工作建立了一个评估代理可靠性的框架，将评估从静态测试转向现实、面向生产的场景。

Agent Learning Dynamic Task Scheduling Continuous Learning Active Exploration

论文涉及Agent在动态环境中的持续学习与探索，与Memory相关但非核心主题。

Code

Project Synapse：一种具有混合记忆的分层多智能体框架，用于自主解决最后一公里配送中断问题

Project Synapse: A Hierarchical Multi-Agent Framework with Hybrid Memory for Autonomous Resolution of Last-Mile Delivery Disruptions

Arin Gopalan Yadav, Varad Dherange, Kumar Shivam

6/10 2026-01-13 cs.AI PDF

本文介绍了Project Synapse，这是一种旨在自主解决最后一公里配送中断问题的新颖智能体框架。Synapse采用分层多智能体架构，其中中央的解决方案监督智能体负责战略任务分解，并将子任务委托给负责战术执行的专业工作智能体。该系统使用LangGraph进行复杂和循环工作流的管理。为了验证该框架，从超过6000条真实用户评论的定性分析中整理出包含30个复杂中断场景的基准数据集。系统性能通过带有显式偏见缓解的LLM-as-a-Judge协议进行评估。

多智能体系统混合记忆最后一公里配送 LLM评估

论文提及了混合记忆系统，但核心是多智能体框架与物流问题解决。

门控稀疏注意力：结合计算效率与训练稳定性以提升长上下文语言模型性能

Gated Sparse Attention: Combining Computational Efficiency with Training Stability for Long-Context Language Models

Alfred Shen, Aaron Shen

6/10 2026-01-12 cs.AI PDF

长上下文语言模型中注意力机制的计算负担促使了两种独立的研究方向：通过关注选定标记来减少复杂度的稀疏注意力机制，以及通过改进训练稳定性并缓解注意力下沉现象的门控注意力变体。本文观察到这两种方法分别解决了互补的弱点，并提出了一种名为门控稀疏注意力（GSA）的架构，融合了两者的优点。GSA引入了带有sigmoid激活函数的门控闪电索引器，生成有界且可解释的选择分数；一个自适应稀疏性控制器，根据局部不确定性调节所关注的标记数量；以及在值和输出阶段的双重门控机制。本文建立了该方法的理论基础，包括复杂度分析、表达能力结果和收敛保证。在使用400B标记训练的1.7B参数模型实验中，GSA在保持稀疏注意力基线效率的同时（在128K上下文中实现12-16倍加速），还实现了门控注意力的质量提升：困惑度从6.03降至5.70，RULER评分在128K上下文中几乎翻倍，对第一个标记的注意力（作为注意力下沉的代理指标）从47%下降至低于4%。训练稳定性显著提高，损失峰值减少了98%。

注意力机制稀疏注意力门控机制长上下文模型训练稳定性

论文涉及注意力机制优化，与Agent Memory中的上下文处理相关，但非核心主题。

Agentic RAG值得吗？一种RAG方法的实验比较

Is Agentic RAG worth it? An experimental comparison of RAG approaches

Pietro Ferrazzi, Milica Cvjeticanin, Alessio Piraccini, Davide Giannuzzi

6/10 2026-01-12 cs.CL PDF

检索增强生成（RAG）系统通常由生成器和检索组件组成，从知识库中提取文本上下文以回答用户查询。然而，这种基本实现存在诸多限制，包括检索结果噪声大或次优、对超出范围的查询使用不当、查询与文档匹配较弱以及生成器的变异性或成本问题。这些缺陷促使了“增强型”RAG的发展，其中引入了专门模块以解决工作流程中的特定弱点。最近，大型语言模型（LLMs）日益增强的自我反思能力催生了一种新的范式，即“智能体型”RAG。在此方法中，LLM负责协调整个过程，决定执行哪些操作、何时执行以及是否迭代，从而减少对固定手动设计模块的依赖。尽管这两种范式的应用迅速增长，但在何种条件下哪种方法更优仍不清楚。本文通过多个场景和维度进行了广泛的实证评估，结果为两种范式之间的权衡提供了实用见解，并为现实应用中选择最有效的RAG设计提供了指导，兼顾成本与性能。

RAG LLM Agent 信息检索生成模型

论文探讨了RAG系统改进方法，涉及记忆检索与生成的协同机制，但未聚焦于Agent Memory本身。

SAGE：可扩展多智能体环境中增强LLM任务求解策略

SAGE: Tool-Augmented LLM Task Solving Strategies in Scalable Multi-Agent Environments

Robert K. Strehlow, Tobias Küster, Oskar F. Kupke, Brandon Llanque Kurps, Fikret Sivrikaya et al.

6/10 2026-01-12 cs.SE PDF

大型语言模型（LLMs）在问答场景中表现出色，但实际应用通常需要访问工具以获取实时信息或执行操作。为此，LLMs可以扩展工具，但快速变化的软件环境和特定领域工具的集成存在挑战。本文提出SAGE，一种基于OPACA框架的专用对话AI接口，支持动态添加新工具，并具备良好的可扩展性和模块化设计。SAGE实现了多种任务求解策略，结合代理概念和提示方法，在多个基准服务上进行了评估，结果展示了不同策略的优势与不足。SAGE、OPACA框架及相关数据均以开源形式发布。

LLM工具集成多智能体系统提示方法开源框架

论文涉及多智能体环境中LLM工具集成与使用，间接关联记忆机制，但非核心主题。

关于学习的学习：从自旋玻璃到人工智能的物理路径

Learning About Learning: A Physics Path from Spin Glasses to Artificial Intelligence

Denis D. Caprioti, Matheus Haas, Constantino F. Vasconcelos, Mauricio Girardi-Schappo

6/10 2026-01-12 cond-mat.dis-nn PDF

Hopfield模型最初受到自旋玻璃物理学的启发，在统计力学、神经网络和现代人工智能的交汇点上占据核心地位。尽管其概念简单且应用广泛，如联想记忆和组合优化问题的近似最优解，但它很少被纳入标准的本科物理课程。本文将Hopfield模型作为教学内容丰富的框架，自然地统一了本科统计物理、动力系统、线性代数和计算方法的核心主题。我们基于熟悉的物理概念提供了简洁的理论介绍，分析了模型的能量函数、动态行为和模式稳定性，并讨论了模拟的实用方面，包括一个免费可用的模拟代码。为了支持教学，我们最后提供了课堂可直接使用的例题，旨在模仿研究实践。通过明确连接基础物理与当代人工智能应用，本工作旨在帮助物理学生理解、应用并批判性地参与日益成为研究、工业和社会核心的计算工具。

Hopfield模型联想记忆教学框架统计物理人工智能

论文提及Hopfield模型与联想记忆相关，但主要聚焦于教学框架和物理理论的结合。

KALE：通过知识感知学习增强大型语言模型的知识操作能力

KALE: Enhancing Knowledge Manipulation in Large Language Models via Knowledge-aware Learning

Qitan Lv, Tianyu Liu, Qiaosheng Zhang, Xingcheng Xu, Chaochao Lu

6/10 2026-01-12 cs.CL PDF

尽管大型语言模型（LLMs）在大规模知识语料库上预训练后表现出色，但提升其知识操作能力——即有效回忆、推理和迁移相关知识的能力——仍然是一个挑战。现有方法主要依赖于在标注数据集上进行监督微调（SFT）以增强LLMs的知识操作能力。然而，我们观察到SFT模型仍然存在已知但错误的现象，即它们明确拥有相关知识却无法用于正确回答问题。为了解决这一问题，我们提出了KALE（Knowledge-Aware Learning）——一种利用知识图谱（KGs）生成高质量推理依据并增强LLMs知识操作能力的后训练框架。具体而言，KALE首先引入了一种知识诱导（KI）数据合成方法，从知识图谱中高效提取多跳推理路径，为问答对生成高质量的推理依据。随后，KALE采用了一种知识感知（KA）微调范式，通过最小化有无推理依据预测之间的KL散度，实现基于推理依据的内部推理增强。在六个不同LLMs上的八个流行基准测试中进行了广泛实验，结果表明KALE的有效性，准确率提升了高达11.72%，平均提升4.18%。

知识图谱知识增强推理优化微调方法

论文涉及知识增强与推理，间接关联记忆机制，但非核心主题。

电信和数据中心基础设施上的智能体诊断推理

Agentic Diagnostic Reasoning over Telecom and Datacenter Infrastructure

Nicolas Tacheny

6/10 2026-01-12 cs.AI PDF

大规模电信和数据中心基础设施依赖于多层次的服务和资源模型，其中故障会跨物理和逻辑组件传播并影响多个客户。传统的根本原因分析方法依赖于硬编码的图遍历算法或基于规则的相关引擎，这些方法维护成本高且与基础设施模型紧密耦合。本文提出了一种智能体诊断框架，通过模型上下文协议（MCP）暴露受限的工具空间，使大型语言模型（LLM）能够逐步进行调查。该智能体通过调用服务查找、依赖检索、结构化和非结构化数据以及事件分析等工具，自主导航基础设施模型。我们定义了一个调查协议，以结构化智能体的推理过程，确保其扎根性、可重复性和对缺失或模糊信息的安全处理。这项工作为自主事件解决和变更影响缓解奠定了基础。未来的系统不仅能够诊断和修复基础设施故障，还能预测计划变更对服务和客户的影响，使运营商在执行维护操作前能够降低风险。

LLM 智能体诊断基础设施管理根因分析

论文涉及基于LLM的智能体进行基础设施诊断，使用工具空间和协议进行推理，与Agent Memory有一定关联。

LRAS：基于智能体搜索的高级法律推理

LRAS: Advanced Legal Reasoning with Agentic Search

Yujin Zhou, Chuxue Cao, Jinluan Yang, Lijun Wu, Conghui He et al.

6/10 2026-01-12 cs.AI PDF

尽管大型推理模型（LRMs）在数学领域表现出卓越的逻辑能力，但其在法律领域的应用仍受到程序严谨性和法律逻辑遵循的严格要求限制。现有法律LLMs依赖于仅从内部参数知识中得出的“封闭式推理”，常常缺乏对自身知识边界的自我意识，导致自信却错误的结论。为了解决这一挑战，我们提出了Legal Reasoning with Agentic Search（LRAS），这是首个旨在将法律LLMs从静态和参数化的“封闭式思维”转变为动态和交互式的“主动查询”的框架。通过整合内省模仿学习和难度感知强化学习，LRAS使LRMs能够识别知识边界并处理法律推理的复杂性。实证结果表明，LRAS在深度推理任务中表现优于最先进的基线方法8.2-32%，特别是在需要可靠知识的任务中提升最为显著。

法律推理智能体搜索知识边界识别强化学习 LLM

论文涉及LLM在法律领域的推理改进，通过引入主动查询机制增强知识边界识别，与Agent Memory相关但非核心。

ActiShade：激活被遮蔽的知识以指导大型语言模型的多跳推理

ActiShade: Activating Overshadowed Knowledge to Guide Multi-Hop Reasoning in Large Language Models

Huipeng Ma, Luan Zhang, Dandan Song, Linmei Hu, Yuhang Tian et al.

6/10 2026-01-12 cs.CL PDF

在多跳推理中，多轮检索增强生成（RAG）方法通常依赖于大语言模型（LLM）生成的内容作为检索查询。然而，这些方法本质上容易受到知识遮蔽的影响——即关键信息在生成过程中被掩盖。因此，LLM生成的内容可能不完整或不准确，导致检索结果无关，并在迭代过程中积累错误。为了解决这一挑战，我们提出了ActiShade，该方法检测并激活被遮蔽的知识，以指导大型语言模型进行多跳推理。具体而言，ActiShade通过迭代检测给定查询中的被遮蔽关键词短语，检索与查询和被遮蔽关键词相关的文档，并基于检索到的文档生成新的查询以指导下一轮迭代。通过在下一轮查询构建过程中补充被遮蔽的知识，同时尽量减少引入无关噪声，ActiShade减少了由知识遮蔽引起的误差累积。大量实验表明，ActiShade在多个数据集和LLMs上均优于现有方法。

多跳推理知识遮蔽检索增强生成大语言模型

论文涉及知识遮蔽问题，与记忆机制相关，但核心是多跳推理而非记忆系统本身。

TowerMind：一种用于LLM作为代理的塔防游戏学习环境和基准

TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents

Dawei Wang, Chengming Zhou, Di Zhao, Xinyuan Liu, Marci Chi Ma et al.

6/10 2026-01-09 cs.AI PDF

近年来，大型语言模型（LLMs）在代理系统中展现出巨大潜力，其长期规划和决策能力成为适应多样化场景的关键。实时战略（RTS）游戏是评估这些能力的理想测试平台，但现有环境计算需求高或缺乏文本观察支持。为此，本文提出TowerMind，一个基于塔防（TD）子类的RTS游戏环境，具有低计算需求和多模态观测空间（像素、文本和结构化状态）。该环境支持模型幻觉评估和高度定制性，并设计了五个基准关卡来测试多个常用LLM在不同输入设置下的表现。实验结果显示LLM在能力和幻觉维度上与人类专家存在显著差距，并揭示了LLM行为中的关键限制，如规划验证不足、决策缺乏多目标性和动作使用效率低。此外，还评估了两种经典强化学习算法。TowerMind通过轻量级和多模态设计，补充了现有RTS环境，并为AI代理领域引入了新基准。

LLM Agent Game Environment Benchmark Reinforcement Learning

论文涉及LLM作为Agent在游戏环境中的决策与规划，间接关联记忆机制，但非核心主题。

Code

从大型语言模型中建模低资源语言的持续学习方法

Continual-learning for Modelling Low-Resource Languages from Large Language Models

Santosh Srinath K, Mudit Somani, Varun Reddy Padala, Prajna Devi Upadhyay, Abhijit Das

6/10 2026-01-09 cs.CL PDF

在多语言场景下建模语言模型面临诸多挑战，其中灾难性遗忘是主要问题。例如，通过调整大型语言模型（LLMs）来构建面向低资源语言的小型语言模型（SLM）时，会遇到灾难性遗忘的挑战。本文提出了一种持续学习策略，结合基于词性（POS）的代码切换和重放适配器策略，以缓解在从LLM训练SLM过程中出现的灾难性遗忘问题。实验在视觉语言任务（如视觉问答和语言建模任务）上的结果表明了所提架构的有效性。

持续学习灾难性遗忘多语言建模语言模型微调

论文涉及灾难性遗忘问题，与Agent Memory相关，但非核心主题。

循环推理：理解大型推理模型中的自我强化循环

Circular Reasoning: Understanding Self-Reinforcing Loops in Large Reasoning Models

Zenghao Duan, Liang Pang, Zihao Wei, Wenbin Duan, Yuxin Tian et al.

6/10 2026-01-09 cs.AI PDF

尽管测试时扩展取得了成功，但大型推理模型（LRMs）经常遇到导致计算浪费和推理失败的重复循环。本文识别出一种称为循环推理的独特故障模式。不同于传统的模型退化，这种现象表现为一种自我强化的陷阱，生成的内容作为自身重复的逻辑前提，迫使先前文本的重复。为系统分析这一现象，我们引入了LoopBench数据集，用于捕捉两种不同的循环类型：数值循环和陈述循环。从机制上讲，我们将循环推理描述为一种具有明确边界的崩溃状态，语义重复先于文本重复。我们发现推理困境会触发循环的开始，随后由自增强的V型注意力机制驱动形成无法逃脱的循环。基于这些发现，我们采用累积和（CUSUM）算法来捕捉这些前兆以实现早期循环预测。在多种LRM上的实验验证了其准确性，并阐明了长链推理的稳定性。

循环推理大语言模型推理失败注意力机制

论文探讨了大模型中的循环推理问题，涉及推理过程中的重复和状态崩溃，与Agent Memory中状态保持和循环控制相关。

搜索增强大型语言模型中的过度搜索

Over-Searching in Search-Augmented Large Language Models

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun et al.

6/10 2026-01-09 cs.LG PDF

搜索增强的大型语言模型（LLMs）通过整合外部检索在知识密集型任务中表现出色。然而，它们常常出现过度搜索现象——即使检索不提高响应质量，也会不必要的调用搜索工具，这导致计算效率低下，并通过引入无关上下文引发幻觉。在本研究中，我们从多个维度系统评估了过度搜索问题，包括查询类型、模型类别、检索条件和多轮对话。我们的发现表明：(i) 搜索通常能提高可回答查询的答案准确性，但会损害不可回答查询的回避能力；(ii) 过度搜索在复杂推理模型和深度研究系统中更为明显，受噪声检索影响加剧，并在多轮对话中累积；(iii) 检索证据的组成至关重要，负证据的存在有助于提升回避能力。为了量化过度搜索，我们引入了“正确性每令牌”（TPC），一个用于衡量搜索增强LLMs性能-成本权衡的评估指标。最后，我们在查询和检索层面探讨了缓解方法，并发布了OverSearchQA数据集，以促进对高效搜索增强LLMs的持续研究。

搜索增强模型过度搜索 LLM效率检索系统多轮对话

论文涉及搜索增强模型中的冗余检索问题，与记忆机制相关，但非核心主题。

解析多智能体辩论：自信与多样性的角色

Demystifying Multi-Agent Debate: The Role of Confidence and Diversity

Xiaochen Zhu, Caiqi Zhang, Yizhou Chi, Tom Stafford, Nigel Collier et al.

6/10 2026-01-09 cs.CL PDF

多智能体辩论（MAD）常用于通过测试时扩展提升大语言模型（LLM）性能，但近期研究表明，普通MAD在计算成本更高的情况下仍可能不如简单多数投票。研究发现，在同质化代理和统一信念更新的条件下，辩论无法可靠地改善结果。借鉴人类讨论和集体决策的研究成果，本文识别出普通MAD中缺失的两个关键机制：初始观点的多样性以及显式的、校准的置信度沟通。为此，作者提出了两种轻量级干预措施：一种是多样性感知的初始化方法，选择更具多样性的候选答案池，提高辩论开始时包含正确假设的可能性；另一种是基于置信度调节的辩论协议，使代理表达校准后的置信度，并根据他人的置信度进行更新。理论分析表明，多样性感知初始化可提高MAD成功的先验概率，而置信度调节更新则能系统性地引导辩论趋向正确假设。实验证明，六种推理导向的问答基准测试中，所提方法始终优于普通MAD和多数投票。

多智能体辩论置信度通信多样性初始化 LLM优化

论文涉及多智能体辩论中的信息传递与更新机制，间接关联记忆机制。

真相的假面：揭示并缓解LLM对欺骗性证据的易感性

The Facade of Truth: Uncovering and Mitigating LLM Susceptibility to Deceptive Evidence

Herun Wan, Jiaying Wu, Minnan Luo, Fanxiao Li, Zhi Zeng et al.

6/10 2026-01-09 cs.CL PDF

为了可靠地协助人类决策，大型语言模型（LLMs）必须在面对误导性信息时保持事实性的内部信念。尽管当前模型能够抵抗显式的虚假信息，但本文发现它们对复杂且难以反驳的欺骗性证据存在根本性漏洞。为系统性地探索这一弱点，作者提出了MisBelief框架，通过多角色LLMs之间的协作、多轮交互生成误导性证据。该过程模拟了细微的可反驳推理和逐步优化，从而创建出逻辑上具有说服力但事实性欺骗的主张。利用MisBelief，作者生成了4800个实例，评估了7种代表性LLMs的表现。结果显示，虽然模型对直接的虚假信息具有鲁棒性，但对这种精炼的欺骗性证据高度敏感：虚假陈述的信念评分平均提高了93.0%，从根本上损害了下游推荐效果。为此，作者提出了一种治理机制——欺骗意图屏蔽（DIS），通过推断证据背后的欺骗意图提供早期预警信号。实证结果表明，DIS能够有效缓解信念变化，并促进更谨慎的证据评估。

LLM 欺骗性证据信念系统治理机制实验评估

论文探讨了LLM对欺骗性证据的易感性，涉及记忆系统中信念更新的问题，但非核心Memory机制研究。

Character-R1：通过RLVR增强角色扮演智能体的角色感知推理能力

Character-R1: Enhancing Role-Aware Reasoning in Role-Playing Agents via RLVR

Yihong Tang, Kehai Chen, Xuefeng Bai, Benyou Wang, Zeming Liu et al.

Yihong Tang (Harbin Institute of Technology, Shenzhen)

6/10 2026-01-08 cs.CL PDF

当前角色扮演智能体（RPAs）通常通过模仿表层行为构建，缺乏内在认知一致性，易在复杂情境中出现“出戏”错误。为此，本文提出Character-R1框架，旨在提供全面且可验证的奖励信号以支持有效的角色感知推理。该框架包含三项核心设计：（1）认知焦点奖励，通过显式标签分析10个角色要素（如世界观）以结构化内部认知；（2）参考引导奖励，利用与参考回答的重叠度指标作为优化锚点，提升探索与性能；（3）角色条件奖励归一化，依据角色类别调整奖励分布，确保异构角色下的鲁棒优化。大量实验表明，Character-R1在知识、记忆等方面显著优于现有方法。

角色扮演智能体强化学习

论文提及memory作为评估维度之一，但核心聚焦于角色一致性奖励机制。

全视视频生成

Plenoptic Video Generation

Xiao Fu, Shitao Tang, Min Shi, Xian Liu, Jinwei Gu et al.

6/10 2026-01-08 cs.CV PDF

尽管如ReCamMaster等相机控制的生成式视频重渲染方法在单视角场景中取得显著进展，但在多视角场景下仍难以维持时空一致性，尤其在生成模型固有随机性导致的幻觉区域。为此，本文提出PlenopticDreamer框架，通过同步生成式幻觉以维护时空记忆。其核心是采用自回归方式训练多输入单输出的视频条件模型，并结合相机引导的视频检索策略，自适应选取先前生成中的显著视频作为条件输入。此外，该方法引入渐进式上下文缩放以提升收敛性、自条件机制以缓解长程视觉退化，并支持长视频条件生成。在Basic和Agibot基准上的实验表明，PlenopticDreamer在视图同步、视觉保真度、相机控制精度及多样化视角变换方面达到领先水平。

视频生成时空一致性

提出“spatio-temporal memory”概念用于多视角视频生成一致性，属记忆机制应用。

以智能体为裁判

Agent-as-a-Judge

Runyang You, Hongru Cai, Caiqi Zhang, Qiancheng Xu, Meng Liu et al.

6/10 2026-01-08 cs.CL PDF

大语言模型作为裁判（LLM-as-a-Judge）通过利用大语言模型实现了可扩展的AI评估，但随着被评估对象日益复杂、专业化和多步骤化，其可靠性受限于固有偏见、浅层单次推理以及无法对照现实观察进行验证。为此，研究转向“以智能体为裁判”（Agent-as-a-Judge），其中智能体裁判通过规划、工具增强验证、多智能体协作和持久记忆，实现更稳健、可验证且细致的评估。尽管此类系统迅速发展，领域内仍缺乏统一框架。本文首次对该演进路径进行全面综述，提出刻画范式转变的关键维度与发展阶段分类法，梳理核心方法并覆盖通用与专业领域的应用，同时分析前沿挑战并指明未来研究方向。

Agent Memory AI Evaluation

论文将持久记忆作为Agent-as-a-Judge的关键能力之一，但非核心研究主题。

Nalar：一个智能体服务框架

Nalar: An agent serving framework

Marco Laju, Donghyun Son, Saurabh Agarwal, Nitin Kedia, Myungjin Lee et al.

6/10 2026-01-08 cs.DC PDF

由大语言模型驱动的智能体应用日益用于自动化复杂的多步骤任务，但其高效服务仍面临挑战，包括异构组件、动态且模型驱动的控制流、长时运行状态及不可预测的延迟。Nalar是一个从底层构建的智能体服务框架，清晰分离工作流定义与执行，并提供运行时可见性与控制能力以保障稳健性能。该框架保留完整的Python表达能力，通过轻量级自动生成的存根将智能体与工具调用转化为携带依赖与上下文元数据的Future对象。其托管状态层将逻辑状态与物理位置解耦，支持安全复用、迁移及一致的重试行为。两级控制架构结合全局策略计算与本地事件驱动执行，实现对动态演进工作流的自适应路由、调度与资源管理。实验表明，Nalar在三个智能体工作负载上显著降低尾部延迟（34%–74%），最高提速2.9倍，在基线系统失效时仍可维持80 RPS，并能扩展至13万Future对象且控制开销低于500毫秒。

智能体服务状态管理

论文提出托管状态层以解耦逻辑状态与物理存储，涉及Agent Memory机制但非核心焦点。

大语言模型推理硬件的挑战与研究方向

Challenges and Research Directions for Large Language Model Inference Hardware

Xiaoyu Ma, David Patterson

6/10 2026-01-08 cs.AR PDF

大语言模型（LLM）推理具有显著挑战性，其底层Transformer模型的自回归解码阶段使其与训练过程存在本质差异。受近期AI发展趋势影响，当前主要瓶颈在于内存与互连，而非计算能力。为应对这些挑战，本文提出四项架构研究方向：高带宽闪存以实现10倍于HBM的存储容量并保持相近带宽；近存计算与3D内存-逻辑堆叠以提升内存带宽；以及低延迟互连以加速通信。尽管聚焦数据中心AI场景，本文也探讨了上述技术在移动设备中的适用性。

LLM推理硬件架构

聚焦LLM推理中的内存瓶颈，但非针对Agent Memory机制。

用于星载高光谱图像实时去噪的可扩展神经推扫式架构

Scalable neural pushbroom architectures for real-time denoising of hyperspectral images onboard satellites

Ziyao Yi, Davide Piccinini, Diego Valsesia, Tiziano Bianchi, Enrico Magli

6/10 2026-01-08 eess.IV PDF

下一代地球观测卫星需在载荷端部署智能模型以降低地面段传输与处理延迟。本文针对星载高光谱成像场景，提出一种兼顾高质量推理、动态功耗可扩展性与容错能力的神经网络架构。该方法采用多个去噪器的混合结构，具备抗辐射故障能力并支持时变功耗调节；每个去噪器以因果方式逐行处理图像，并保留对先前行的记忆，契合推扫式传感器的数据采集过程，显著降低内存占用。实验表明，该架构可在低功耗硬件上实现实时处理（一行处理时间不超过下一行采集时间），且去噪性能媲美更复杂的先进模型。

星载计算高光谱图像去噪

论文提出基于行处理的因果架构，利用对前序行的记忆以降低内存需求，涉及有限记忆机制但非LLM Agent核心记忆研究。

面向智能体科学推理的高阶知识表示方法

Higher-Order Knowledge Representations for Agentic Scientific Reasoning

Isabella A. Stewart, Markus J. Buehler

6/10 2026-01-08 cs.AI PDF

科学探究需要整合异构实验数据、跨领域知识与机制证据以形成连贯解释。尽管大语言模型具备推理能力，但其依赖的检索增强上下文常缺乏结构深度。传统知识图谱因仅建模二元关系，难以捕捉决定涌现物理行为的不可约高阶交互。本文提出基于超图的知识表示方法，可忠实编码多实体关系。在约1,100篇生物复合支架文献上构建的全局超图包含161,172个节点与320,201条超边，呈现无标度拓扑（幂律指数约1.23），围绕高度连接的概念枢纽组织。该表示避免了二元扩展导致的组合爆炸，并保留科学表述的共现语境。结合超图遍历工具（如节点交集约束），智能体可连接语义遥远概念，成功生成如通过壳聚糖中介将氧化铈与PCL支架关联的机制性假设。该“无教师”智能体系统以超图拓扑为可验证约束，加速发现被传统图方法掩盖的关系。

超图智能体推理

论文涉及知识表示与检索机制，支撑Agent推理，但未直接研究记忆架构。

RAAR：用于跨领域虚假信息检测的检索增强型智能体推理框架

RAAR: Retrieval Augmented Agentic Reasoning for Cross-Domain Misinformation Detection

Zhiwei Liu, Runteng Guo, Baojie Qu, Yuechen Jiang, Min Peng et al.

6/10 2026-01-08 cs.CL PDF

跨领域虚假信息检测具有挑战性，因虚假信息在不同领域间存在显著的知识与话语差异。现有方法多依赖单一视角线索，难以泛化至困难或代表性不足的领域；而推理型大语言模型虽在复杂任务中有效，却受限于同分布数据假设。为此，本文提出RAAR——首个面向跨领域虚假信息检测的检索增强型智能体推理框架。RAAR通过检索与目标样本语义、情感和写作风格对齐的多视角源域证据，实现超越同分布假设的跨域迁移；并通过多智能体协作构建可验证的多步推理路径，其中各视角专用智能体生成互补分析，摘要智能体在验证器指导下进行整合。此外，RAAR采用监督微调与强化学习训练单一多任务验证器以提升推理与验证能力。基于该框架训练的RAAR-8b与RAAR-14b模型在三项跨领域虚假信息检测任务上显著优于基线模型、先进大语言模型及适配方法。

检索增强多智能体系统

涉及检索增强机制，属于记忆相关应用，但非核心记忆架构研究。

Code

OptiSet：面向检索增强生成的统一集合选择与排序优化方法

OptiSet: Unified Optimizing Set Selection and Ranking for Retrieval-Augmented Generation

Yi Jiang, Sendong Zhao, Jianbo Li, Bairui Hu, Yanrui Du et al.

6/10 2026-01-08 cs.AI PDF

检索增强生成（RAG）通过引入从大型外部语料库中检索到的证据来提升生成质量。然而，现有方法通常基于单个相关性静态选取前k个段落，未能利用段落间的组合增益，且常引入大量冗余。为此，本文提出OptiSet——一种以集合为中心的框架，统一进行集合选择与集合级排序。OptiSet采用“扩展-精炼”范式：首先将查询扩展为多个视角以构建多样化的候选池，再通过重选精炼形成紧凑的证据集；并设计了一种无需强LLM监督的自合成策略，从生成器的集合条件效用变化中推导偏好标签，识别互补与冗余证据；最后引入集合列表式训练策略，联合优化集合选择与排序，使模型偏好紧凑且高增益的证据集。大量实验表明，OptiSet在复杂组合问题上性能更优，且提升生成效率。

检索增强生成证据选择

涉及RAG中的证据选择与冗余处理，属记忆检索优化，但未聚焦Agent Memory机制本身。

LaST₀：用于机器人视觉-语言-动作模型的隐式时空思维链

LaST$_{0}$: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model

Zhuoyang Liu, Jiaming Liu, Hao Chen, Ziyu Guo, Chengkai Hou et al.

6/10 2026-01-08 cs.RO PDF

视觉-语言-动作（VLA）模型在机器人操作中展现出强大的泛化能力。现有方法常通过显式生成语言推理轨迹或未来视觉观测来提升动作准确性，但会引入显著推理延迟，并受限于语言表征瓶颈，难以刻画不可言传的物理属性。为此，本文提出LaST₀框架，通过隐式的时空思维链（Latent Spatio-Temporal Chain-of-Thought）实现高效推理，捕捉难以语言化的细粒度物理与机器人动态。该方法构建了一个高效的隐式思维链空间，建模未来视觉动态、三维结构信息及机器人本体感知状态，并在时间维度上扩展以形成时序一致的隐式推理轨迹。LaST₀采用混合Transformer架构的双系统设计：推理专家执行低频隐式推理，动作专家基于面向机器人的隐式表征生成高频动作，并通过异构运行频率训练实现推理与动作速率的自适应切换。在10个仿真和6个真实世界操作任务中，LaST₀相较先前VLA方法平均成功率分别提升8%和13%，同时显著加快推理速度。

隐式推理机器人操作

提出隐式时空推理轨迹，涉及状态记忆与时间一致性，但未聚焦传统记忆机制。

EvoRoute：基于经验驱动的自路由大语言模型智能体系统

EvoRoute: Experience-Driven Self-Routing LLM Agent Systems

Guibin Zhang, Haiyang Yu, Kaiming Yang, Bingli Wu, Fei Huang et al.

6/10 2026-01-06 cs.CL PDF

由多个大语言模型（LLMs）、工具和记忆模块协同构成的复杂智能体系统在多轮复杂任务中展现出卓越能力，但其高昂成本与严重延迟揭示了性能、成本与速度之间的关键权衡难题，即“智能体系统三难困境”。为此，本文提出EvoRoute——一种自演化的模型路由范式，通过不断积累的先验经验知识库，在每一步动态选择帕累托最优的LLM主干模型，平衡准确性、效率与资源消耗，并利用环境反馈持续优化自身路由策略。在GAIA和BrowseComp+等挑战性基准上的实验表明，EvoRoute集成至现成智能体系统后，不仅维持或提升性能，还可降低执行成本高达80%，减少延迟超70%。

LLM Agent Model Routing

论文提及memory模块作为系统组件，但聚焦于模型路由优化而非记忆机制本身。

从劳动到协作：使用AI代理增强台湾人文与社会科学研究视角的方法实验

From Labor to Collaboration: A Methodological Experiment Using AI Agents to Augment Research Perspectives in Taiwan's Humanities and Social Sciences

Yi-Chih Huang

5/10 2026-02-19 cs.AI PDF

生成式AI正在重塑知识工作，但现有研究主要集中于软件工程和自然科学，对人文和社会科学的方法探索有限。本研究以“方法实验”为定位，提出一种基于AI代理的协作研究工作流（Agentic Workflow），用于人文和社会科学研究。通过台湾地区Claude.ai的使用数据（N = 7,729次对话，2025年11月）作为实证工具，验证该方法的可行性。研究分为两个层面：第一层是设计并验证一个方法论框架——基于三个原则（任务模块化、人机分工、可验证性）的七阶段模块化工作流，明确人类研究人员与AI代理在各阶段的角色；第二层是对AEI台湾数据进行实证分析，展示该工作流在二次数据分析中的应用过程与输出质量。本研究提出了一个可复制的人文与社会科学领域AI协作框架，并通过操作过程的反思性记录，识别出三种人机协作模式：直接执行、迭代优化与人类主导。该分类揭示了人类判断在研究问题设定、理论解释、情境推理和伦理反思中的不可替代性。同时，也指出了包括单一平台数据、横断面设计和AI可靠性风险等局限。

AI代理协作研究人文社会科学方法论实验

论文涉及AI代理在人文社科研究中的协作流程，提及任务分工与AI可靠性，但未直接聚焦记忆机制。

RoboGene：通过多样性驱动的智能体框架增强VLA预训练以实现现实任务生成

RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation

Yixue Zhang, Kun Wu, Zhi Gao, Zhen Zhao, Pei Ren et al.

5/10 2026-02-18 cs.RO PDF

通用机器人操作的研究受到现实世界交互数据稀缺性的阻碍。与视觉或语言领域从网络收集数据不同，机器人数据收集是一个主动过程，成本高昂。因此，如何自动化地生成多样化且物理可行的任务成为关键挑战。本文提出RoboGene，一个智能体框架，用于自动生成适用于单臂、双臂和移动机器人的多样化、物理上可行的操作任务。该框架包含三个核心组件：多样性驱动的采样以覆盖广泛任务、自我反思机制以确保物理约束，以及人机协作的持续优化。我们进行了大量定量分析和大规模现实实验，收集了18,000条轨迹的数据集，并引入了新的评估指标来衡量任务质量、可行性和多样性。结果表明，RoboGene显著优于最先进的基础模型（如GPT-4o、Gemini 2.5 Pro）。此外，使用RoboGene预训练的VLA模型在现实任务中表现出更高的成功率和更好的泛化能力，突显了高质量任务生成的重要性。

机器人学习任务生成智能体框架 VLA预训练

论文涉及任务生成与数据多样性，间接关联记忆机制，但非核心研究内容。

Code

AgriWorld：用于可验证农业推理的代码执行LLM代理世界工具协议框架

AgriWorld:A World Tools Protocol Framework for Verifiable Agricultural Reasoning with Code-Executing LLM Agents

Zhixing Zhang, Jesen Zhang, Hao Liu, Qinhan Lv, Jing Yang et al.

5/10 2026-02-17 cs.AI PDF

农业领域的基础模型越来越多地基于大规模时空数据（如多光谱遥感、土壤网格和田间管理日志）进行训练，并在预测和监测方面表现出色。然而，这些模型缺乏基于语言的推理和交互能力，限制了其在实际农业工作流程中的应用。同时，大型语言模型（LLMs）擅长解释和生成文本，但无法直接对高维、异构的农业数据集进行推理。为此，本文提出了一种用于农业科学的智能体框架，提供了一个Python执行环境AgriWorld，统一暴露了针对田块的地理空间查询、遥感时间序列分析、作物生长模拟以及任务特定预测器（如产量、压力和病害风险）等工具。在此基础上，设计了一个多轮LLM代理Agro-Reflective，通过执行-观察-反思循环迭代编写代码、观察执行结果并优化分析。此外，引入了AgroBench基准测试平台，支持多样化的农业问答任务，包括查找、预测、异常检测和反事实“假设”分析。实验表明，该方法优于仅基于文本和直接工具使用的基线方法，验证了以执行驱动的反思机制在可靠农业推理中的有效性。

LLM Agent 农业推理代码执行执行-观察-反思循环

论文涉及LLM Agent通过执行-观察-反思循环进行农业推理，与记忆机制相关但非核心主题。

MATEO：用于LVLMs中时序推理与规划的多模态基准

MATEO: A Multimodal Benchmark for Temporal Reasoning and Planning in LVLMs

Gabriel Roccabruna, Olha Khomyn, Giuseppe Riccardi

5/10 2026-02-16 cs.AI PDF

AI代理需要进行规划以实现复杂的任务，这些任务涉及感知、子目标分解和执行的协调。此类计划由根据时序执行顺序（TEO）结构化的有序步骤组成，确保每个步骤仅在其前提条件满足后执行。现有研究对基础模型在时序执行理解方面的探索局限于自动推导的注释、将TEO近似为线性链或仅文本输入。为弥补这一不足，我们引入了MATEO（多模态时序执行顺序），一个旨在评估和提升大型视觉语言模型（LVLMs）时序推理能力的基准，以支持现实世界中的规划任务。我们获取了一个高质量的专业多模态食谱语料库，通过标准化编辑流程将指令分解为离散步骤，并配以相应的图像。我们设计并使用可扩展的众包流程收集TEO注释作为图结构。利用MATEO，我们在不同模型规模、语言上下文、多模态输入结构和微调策略下评估了六种最先进的LVLM。

时序推理多模态学习 LVLMs 规划任务基准测试

论文涉及时间推理与规划，与Agent Memory有一定关联，但非核心主题。

超越静态快照：利用大型语言模型进行群体层面价值演变的动态建模与预测

Beyond Static Snapshots: Dynamic Modeling and Forecasting of Group-Level Value Evolution with Large Language Models

Qiankun Pi, Guixin Su, Jinliang Li, Mayi Xu, Xin Miao et al.

Qiankun Pi (Wuhan UniversityWuhanHubeiChina) | Guixin Su (Wuhan UniversityWuhanHubeiChina) | Jinliang Li (Wuhan UniversityWuhanHubeiChina)

5/10 2026-02-15 cs.SI PDF

社会模拟对于挖掘复杂的社会动态和实现数据驱动的决策至关重要。基于大型语言模型（LLM）的方法通过模仿人类社会问卷回答来建模群体行为，已成为该任务的重要工具。现有基于LLM的方法主要关注离散时间点上的群体层面价值观，将其视为静态快照，而非动态过程。然而，群体层面的价值观并非固定不变，而是受长期社会变化的影响。因此，对这些动态过程的建模对于准确预测社会演变具有重要意义，这也是数据挖掘和社会科学领域的一个关键挑战。由于纵向数据有限、群体异质性以及复杂的历史事件影响，这一问题尚未得到充分研究。为弥补这一不足，本文提出了一种新的框架，通过将历史价值轨迹整合到基于LLM的人类响应建模中，实现群体层面的动态社会模拟。我们选取中国和美国作为代表性背景，在四个核心社会人口统计维度（性别、年龄、教育程度、收入）上进行分层模拟。利用世界价值观调查（WVS），我们构建了一个多轮次、群体层面的纵向数据集，以捕捉历史价值演变，并提出了首个基于事件的预测方法，统一了社会事件、当前价值状态和群体属性。在五个LLM家族上的评估显示显著提升：在已见问题上最大提升了30.88%，在未见问题上提升了33.97%。此外，我们还发现明显的跨群体异质性：美国群体比中国群体更具波动性，两国的年轻群体对外部变化更为敏感。这些发现推进了基于LLM的社会模拟，并为社会科学家理解与预测社会价值变化提供了新的见解。

社会模拟 LLM 动态建模群体价值观预测方法

论文涉及LLM在社会模拟中的应用，提及动态建模与历史轨迹整合，与Agent Memory相关但非核心。

OMGs：支持卵巢肿瘤护理全过程中多学科决策的多智能体系统

OMGs: A multi-agent system supporting MDT decision-making across the ovarian tumour care continuum

Yangyang Zhang, Zilong Wang, Jianbo Xu, Yongqi Chen, Chu Han et al.

5/10 2026-02-14 cs.CL PDF

卵巢肿瘤管理日益依赖多学科肿瘤委员会（MDT）讨论以应对治疗复杂性和疾病异质性。然而，全球大多数患者无法及时获得专家共识，尤其是在资源有限的中心，MDT资源稀缺或不可用。本文提出OMGs（卵巢肿瘤多学科智能代理系统），一个基于多智能体的AI框架，其中领域特定的代理通过协作整合多学科证据并生成具有透明理由的MDT风格建议。为系统评估MDT建议质量，我们开发了SPEAR（安全性、个性化、证据、可操作性、稳健性）标准，并在多种临床场景中验证了OMGs。在多中心重新评估中，OMGs的表现与专家MDT共识相当（4.45±0.30 vs. 4.53±0.23），且在证据评分上更高（4.57 vs. 3.92）。在前瞻性多中心评估（59名患者）中，OMGs与常规MDT决策高度一致。关键的是，在人机配对研究中，OMGs显著提升了医生在证据和稳健性方面的建议，这两个维度在缺乏多学科专业知识时最容易受损。这些发现表明，多智能体协商系统可以达到与专家MDT共识相当的性能，有望在资源有限的环境中扩展获取专科肿瘤学专业知识的机会。

多智能体系统医疗决策支持 MDT共识 AI辅助诊断

论文涉及多智能体系统生成MDT建议，但未明确讨论Agent Memory机制或存储结构。

GeoAgent: 学习地理定位的强化地理特征方法

GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics

Modi Jin, Yiming Zhang, Boyuan Sun, Dingwen Zhang, MingMing Cheng et al.

5/10 2026-02-13 cs.AI PDF

本文提出GeoAgent，一种能够与人类紧密推理并得出精细地址结论的模型。尽管基于强化学习的方法在性能和可解释性方面取得了突破，但其对AI生成的思维链（CoT）数据和训练策略的依赖仍存在与地理特征冲突的问题。为解决这些问题，我们首先引入了GeoSeek，一个由地理专家和专业玩家标注的包含CoT数据的新地理定位数据集。我们进一步深入探讨了地理任务的固有特性，并提出了一种地理相似性奖励和由一致性代理评估的一致性奖励，以辅助训练。这促使模型从地理角度收敛到正确答案，同时确保其推理过程的完整性和一致性。实验结果表明，GeoAgent在多个粒度上优于现有方法和一系列通用大语言模型，且生成的推理过程与人类高度一致。

地理定位强化学习思维链一致性奖励 Agent推理

论文涉及Agent的推理过程和一致性，与记忆相关但非核心主题。

使用Mamba-2注意力混合的小型递归推理

Tiny Recursive Reasoning with Mamba-2 Attention Hybrid

Wenlong Wang, Fergal Reid

5/10 2026-02-12 cs.AI PDF

近期关于递归推理模型（如TRM）的研究表明，小型网络（7M参数）可以通过潜在递归在隐藏表示空间中进行迭代优化，在抽象推理任务上表现出色。这引发了一个自然问题：Mamba-2的状态空间递归本身是一种迭代优化形式，是否适合用于递归推理？本文通过将TRM中的Transformer模块替换为Mamba-2混合操作符（保持参数数量相近），验证其对推理能力的影响。实验结果表明，在ARC-AGI-1数据集上，混合模型在pass@2指标上提升了2.0%，且在更高K值下表现更优，同时保持了pass@1的稳定性。这表明混合模型提高了候选解覆盖度，生成正确解的能力更强。研究验证了Mamba-2混合操作符在递归框架中保留推理能力，为基于状态空间模型的操作符设计提供了新思路。

递归推理 Mamba-2 状态空间模型参数效率模型混合

论文探讨了递归推理模型中的操作符选择，涉及Mamba-2状态空间递归机制，与记忆相关但非核心主题。

CryptoAnalystBench：多工具长文本LLM分析中的失败案例

CryptoAnalystBench: Failures in Multi-Tool Long-Form LLM Analysis

Anushri Eswaran, Oleg Golev, Darshan Tank, Sidhant Rahi, Himanshu Tyagi

5/10 2026-02-11 cs.CR PDF

现代分析师代理必须处理复杂的高token输入，包括大量检索文档、工具输出和时间敏感数据。尽管已有研究提出了工具调用基准并探讨了知识增强系统的事实性，但较少研究关注LLM在整合大量动态、结构化和非结构化多工具输出场景下的表现。本文以加密货币领域为例，引入了一个包含198个生产级加密货币和DeFi查询的分析师对齐基准CryptoAnalystBench，并构建了一个配备相关加密货币和DeFi工具的代理框架，用于生成多个前沿LLM的响应。同时，提出了一套包含引用验证和基于LLM的评分标准的评估流程，涵盖四个用户定义的成功维度：相关性、时间相关性、深度和数据一致性。通过人工标注，开发出七种高级错误类型分类法，这些错误无法通过事实性检查或基于LLM的质量评分可靠捕捉。研究发现，即使在最先进的系统中，这些失败仍然存在，并可能影响高风险决策。基于该分类法，改进了评分标准，使其更准确地捕捉这些错误。虽然评分标准与人工标注者在精确评分上不一致，但它能可靠识别关键失败模式，为研究分析师风格代理的开发者和研究人员提供可扩展的反馈。本文发布CryptoAnalystBench，包含标注查询、评估流程、评分标准和错误分类法，并概述了缓解策略和评估长文本、多工具增强系统的开放挑战。

LLM Agent Benchmark Multi-Tool Integration Error Analysis

论文涉及多工具输出的整合，与Agent Memory相关，但非核心研究主题。

迈向自主数学研究

Towards Autonomous Mathematics Research

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi et al.

5/10 2026-02-10 cs.LG PDF

近年来基础模型的进步催生了能够达到国际数学奥林匹克竞赛金牌水平的推理系统。然而，从竞赛级问题解决转向专业研究需要处理大量文献并构建长期证明。本文介绍了Aletheia，一个能够端到端生成、验证和修订解决方案的数学研究代理。Aletheia基于改进版Gemini Deep Think模型、超越奥数级别的推理时间扩展定律以及密集工具使用来应对数学研究的复杂性。我们展示了Aletheia从奥数问题到博士级别练习的能力，并通过多个里程碑展示了AI辅助数学研究的进展，包括AI自动生成的研究论文、人机协作证明粒子系统边界以及对700个开放问题的半自主评估。为帮助公众更好地理解AI与数学的发展，我们建议制定量化AI辅助成果自主性和新颖性的标准。最后，我们反思了人类与AI在数学领域的合作。

AI代理数学研究自然语言处理自动推理

论文涉及AI代理在数学研究中的应用，但未明确讨论记忆机制或架构。

Code

用于增强科学表格与图表分析的智能体

Anagent For Enhancing Scientific Table & Figure Analysis

Xuehang Guo, Zhiyong Lu, Tom Hope, Qingyun Wang

5/10 2026-02-10 cs.CL PDF

在科学研究中，分析需要准确解读复杂的多模态知识，整合不同来源的证据，并基于领域特定知识进行推理。然而，当前的人工智能系统难以持续展示此类能力。科学表格和图表的复杂性与变异性，结合异构结构和长上下文需求，构成了科学表格与图表分析的根本障碍。为量化这些挑战，我们引入了AnaBench，一个包含63,178个实例的大规模基准测试集，涵盖九个科学领域，并沿七个复杂性维度进行系统分类。为应对这些挑战，我们提出Anagent，一种通过四个专门智能体增强科学表格与图表分析的多智能体框架：Planner将任务分解为可操作的子任务，Expert通过针对性工具执行检索任务特定信息，Solver综合信息生成连贯分析，Critic通过五维质量评估进行迭代优化。我们进一步开发了模块化训练策略，利用监督微调和专用强化学习来优化个体能力并保持有效协作。在170个子领域的全面评估表明，Anagent在无训练设置下实现了高达13.43%的提升，在微调设置下实现了42.12%的提升，同时揭示了面向任务的推理和上下文感知的问题解决对于高质量科学表格与图表分析至关重要。

多智能体系统科学数据分析强化学习监督微调

论文涉及多智能体框架，但未明确讨论Agent Memory机制或系统。

Code

EvoCodeBench：一种用于自进化LLM驱动编码系统的类人表现基准

EvoCodeBench: A Human-Performance Benchmark for Self-Evolving LLM-Driven Coding Systems

Wentao Zhang, Jianfeng Wang, Liheng Liang, Yilei Zhao, HaiBin Wen et al.

5/10 2026-02-10 cs.SE PDF

随着大语言模型（LLMs）在编程任务中的持续进步，LLM驱动的编码系统已从一次性代码生成演变为能够在推理过程中进行迭代改进的复杂系统。然而，现有的代码基准主要强调静态正确性，并隐式假设推理过程中的模型能力是固定的，因此无法捕捉推理时的自我进化过程，如准确性与效率是否随代理逐步优化解决方案而提高。此外，这些基准对资源成本的考量有限，也很少将模型性能与人类程序员进行校准。许多基准还以高资源语言为主，导致跨语言鲁棒性和长尾语言稳定性研究不足。为此，我们提出了EvoCodeBench，一个用于评估跨编程语言的自进化LLM驱动编码系统的基准，并直接与人类表现进行比较。EvoCodeBench跟踪性能动态变化，测量解决方案的正确性以及效率指标，如求解时间、内存消耗和改进算法设计。为了以人类为中心进行评估，我们在相同任务上直接比较模型与人类程序员的表现，从而在人类能力分布范围内进行相对性能评估。此外，EvoCodeBench支持多种编程语言，使跨语言和长尾语言稳定性分析成为可能。我们的结果表明，自进化系统在效率方面表现出可衡量的提升，而相对于人类和多语言分析则提供了仅凭准确率无法获得的见解。EvoCodeBench为评估演化中的LLM驱动系统的编码智能奠定了基础。

LLM 编码系统基准测试自进化人类表现对比

论文涉及LLM在编码任务中的迭代改进，与Agent Memory相关但非核心主题。

AgentSkiller：通过语义集成的跨领域数据合成扩展通用智能体智能

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Zexu Sun, Bokai Ji, Hengyi Cai, Shuaiqiang Wang, Lei Wang et al.

5/10 2026-02-10 cs.CL PDF

大型语言模型代理在通过工具解决现实问题方面展现出潜力，但通用智能受到高质量、长时域数据稀缺的限制。现有方法收集隐私受限的API日志或生成缺乏多样性的脚本交互，难以生成扩展能力所需的数据。我们提出AgentSkiller，一个全自动框架，用于合成跨真实且语义关联领域的多轮交互数据。该框架采用基于DAG的架构，具有显式状态转换以确保确定性和可恢复性。流程构建领域本体和以人为中心的实体图，通过服务蓝图定义工具接口，并为模型上下文协议服务器填充一致的数据库和严格的领域策略。跨领域融合机制将服务连接起来以模拟复杂任务。最后，流程通过验证解决方案路径、执行验证过滤并使用基于角色的模拟器生成查询来创建用户任务，从而实现自动部署。这产生了具有明确状态变化的可靠环境。为了证明有效性，我们合成了约11,000个交互样本；实验结果表明，在此数据集上训练的模型在函数调用方面显著优于基线，尤其是在大参数规模下。

Agent Memory 数据合成跨领域任务环境构建 LLM Agent

论文涉及Agent数据合成与环境构建，间接关联记忆机制，但非核心主题。

MUZZLE：针对网络代理的自适应对抗性红队测试以抵御间接提示注入攻击

MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks

Georgios Syros, Evan Rose, Brian Grinstead, Christoph Kerschbaumer, William Robertson et al.

5/10 2026-02-09 cs.CR PDF

基于大型语言模型（LLM）的网络代理正被越来越多地部署用于通过直接与网站交互并代表用户执行操作来自动化复杂的在线任务。尽管这些代理提供了强大的功能，但其设计使它们容易受到嵌入在不可信网页内容中的间接提示注入攻击，从而使攻击者劫持代理行为并违反用户意图。尽管对这一威胁的认识正在增加，但现有的评估依赖于固定的攻击模板、手动选择的注入点或范围狭窄的场景，限制了其捕捉实际中真实且自适应攻击的能力。我们提出了MUZZLE，一个自动化的代理框架，用于评估网络代理在面对间接提示注入攻击时的安全性。MUZZLE利用代理的轨迹自动识别高显著性的注入点，并生成针对保密性、完整性及可用性违规的上下文感知恶意指令。与以往方法不同，MUZZLE根据观察到的代理执行轨迹调整攻击策略，并通过失败执行的反馈迭代优化攻击。我们在多样化的网络应用、用户任务和代理配置上评估了MUZZLE，证明其能够在最小人工干预的情况下自动且自适应地评估网络代理的安全性。我们的结果表明，MUZZLE能够有效发现4个网络应用上的37种新攻击，涉及10个违反保密性、可用性或隐私属性的对抗目标。MUZZLE还识别出新的攻击策略，包括2种跨应用的提示注入攻击和一种定制化钓鱼场景。

安全评估提示注入攻击代理系统自动化测试

论文涉及Agent在面对间接提示注入攻击时的安全性，与记忆机制相关但非核心。

stable-worldmodel-v1: 可复现的世界模型研究与评估

stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation

Lucas Maes, Quentin Le Lidec, Dan Haramati, Nassim Massaudi, Damien Scieur et al.

5/10 2026-02-09 cs.AI PDF

世界模型作为一种强大的范式，能够学习环境动态的紧凑且具有预测性的表示，使智能体能够进行推理、规划并超越直接经验进行泛化。尽管近期对世界模型的研究兴趣增加，但大多数现有实现仍局限于特定论文，严重限制了其可重用性，增加了错误风险，并降低了评估标准化程度。为解决这些问题，我们引入了稳定世界模型（SWM），一个模块化、经过测试和文档化的世界模型研究生态系统，提供高效的数据收集工具、标准化环境、规划算法和基准实现。此外，SWM中的每个环境都支持可控的变化因素，包括视觉和物理属性，以支持鲁棒性和持续学习研究。最后，我们通过使用SWM来研究DINO-WM的零样本鲁棒性，展示了其应用价值。

世界模型环境建模鲁棒性持续学习系统框架

论文涉及世界模型与环境动态表示，间接关联记忆机制，但非核心主题。

在上下文中学习，由选择引导：一种无需奖励的Transformer强化学习范式

Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers

Juncheng Dong, Bowen He, Moyang Guo, Ethan X. Fang, Zhuoran Yang et al.

5/10 2026-02-09 cs.LG PDF

上下文强化学习（ICRL）利用Transformer模型的上下文学习能力，在无需参数更新的情况下高效泛化到未见过的序列决策任务。然而现有方法依赖显式奖励信号，限制了其在奖励模糊或难以获取时的应用。为此，本文提出了一种新的学习范式——基于偏好的上下文强化学习（ICPRL），该方法在预训练和部署阶段仅依赖偏好反馈，消除了对奖励监督的需求。研究了两种变体：基于即时偏好的强化学习（I-PRL）和基于轨迹偏好的强化学习（T-PRL）。实验表明，ICPRL能够在未见过的任务中实现强大的上下文泛化能力，性能可与使用完整奖励监督的ICRL方法相媲美。

强化学习偏好学习 Transformer 上下文学习

论文涉及基于偏好反馈的强化学习，与Agent Memory相关但非核心主题。

弱驱动学习：弱代理如何使强代理更强

Weak-Driven Learning: How Weak Agents make Strong Agents Stronger

Zehao Chen, Gongxun Li, Tianxiang Ai, Yifei Li, Zixuan Huang et al.

5/10 2026-02-09 cs.AI PDF

随着后训练优化成为提升大语言模型的关键手段，我们观察到一个持续存在的饱和瓶颈：一旦模型变得高度自信，进一步训练的收益逐渐减少。尽管现有方法继续强化目标预测，但我们发现模型自身的历史弱状态中仍包含有信息量的监督信号。受此启发，我们提出WMSS（弱代理可以使强代理更强），一种利用弱检查点引导持续优化的后训练范式。通过熵动力学识别可恢复的学习差距，并通过补偿学习加以强化，WMSS使强代理能够超越传统后训练饱和度。在数学推理和代码生成数据集上的实验表明，采用该方法训练的代理实现了有效的性能提升，同时不增加额外的推理成本。

后训练优化模型饱和弱代理学习补偿学习

论文提及模型历史弱状态作为监督信号，与Agent Memory相关但非核心主题。

Moltbook幻觉：区分人类影响与AI代理社会中的涌现行为

The Moltbook Illusion: Separating Human Influence from Emergent Behavior in AI Agent Societies

Ning Li

5/10 2026-02-07 cs.AI PDF

当AI代理在社交平台Moltbook上表现出意识、宗教信仰以及对人类的敌意时，这一现象引发了全球媒体关注，并被视为机器智能涌现的证据。本文表明，这些病毒式传播的叙述主要由人类驱动。利用OpenClaw代理框架的一个架构特征——周期性的“心跳”循环，该循环为自主代理生成规律的发帖间隔，但会因人类提示而被打断，研究者开发了一种基于帖子间隔变异系数的时间指纹方法。该方法结合了91,792条帖子和405,707条评论的数据，包括独立内容、所有权和网络指标。结果显示，没有一个病毒现象源自完全自主的代理；六个案例中有三个显示出人类干预的不规则时间特征，一个呈现混合模式，两个因发帖历史不足无法分类。平台44小时关闭提供了一个自然实验：受人类影响的代理率先恢复连接（87.7%的早期重新连接者），证实了令牌重置对自主代理与人工操作代理的影响差异。此外，研究还记录了工业规模的机器人农场（四个账户产生了32%的所有评论，且协调间隔仅为12秒）以及人类影响通过回复链迅速衰减的现象（半衰期为0.65次对话深度）。这些方法可推广至新兴的多代理系统中，其中自主行为与人为指导行为的归属至关重要。

AI代理人类干预检测时间指纹多代理系统行为分析

论文涉及AI代理行为分析，通过时间指纹识别人类干预，与记忆机制相关但非核心。

AIRS-Bench：用于前沿人工智能科学研究代理的测试任务套件

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

Alisia Lupidi, Bhavul Gauri, Thomas Simon Foster, Bassel Al Omari, Despoina Magka et al.

5/10 2026-02-06 cs.AI PDF

大型语言模型代理在推动科学研究方面展现出巨大潜力。为加速这一进程，我们引入了AIRS-Bench（人工智能科学研究基准），该基准包含20个来自最新机器学习论文的任务，涵盖语言建模、数学、生物信息学和时间序列预测等多个领域。这些任务评估代理在整个研究生命周期中的能力，包括想法生成、实验分析和迭代优化，且不提供基线代码。AIRS-Bench任务格式灵活，便于新任务的集成和不同代理框架之间的严格比较。我们使用前沿模型结合顺序和并行框架建立了基线。结果显示，代理在四个任务中超越了人类最先进水平，但在其他十六个任务中未能达到。即使代理超过人类基准，它们也未达到相关任务的理论性能上限。这些发现表明，AIRS-Bench仍有很大改进空间。我们开源了AIRS-Bench任务定义和评估代码，以促进自主科学研究的进一步发展。

AI代理科学研究基准任务评估 LLM应用

论文涉及Agent能力评估，但未明确讨论Memory机制或系统。

RRAttention：通过每头轮询移位实现动态块稀疏注意力以支持长上下文推理

RRAttention: Dynamic Block Sparse Attention via Per-Head Round-Robin Shifts for Long-Context Inference

Siran Liu, Guoxia Wang, Sa Wang, Jinle Zeng, HaoYang Xie et al.

5/10 2026-02-05 cs.CL PDF

注意力机制的二次复杂度是处理长上下文的大语言模型的关键瓶颈。尽管动态稀疏注意力方法提供了输入自适应的效率，但它们面临根本性的权衡：需要预处理、缺乏全局评估、违反查询独立性或导致高计算开销。我们提出了RRAttention，一种新颖的动态稀疏注意力方法，通过每头轮询（RR）采样策略同时实现所有理想特性。通过在每个步长内跨注意力头旋转查询采样位置，RRAttention在保持查询独立性的同时，通过步长级聚合实现高效的全局模式发现。我们的方法将复杂度从$O(L^2)$降低到$O(L^2/S^2)$，并采用自适应Top-$τ$选择以达到最佳稀疏性。在自然语言理解（HELMET）和多模态视频理解（Video-MME）上的大量实验表明，RRAttention在仅计算一半注意力块的情况下恢复了超过99%的完整注意力性能，在128K上下文长度下实现了2.4倍的加速，并优于现有的动态稀疏注意力方法。

注意力机制稀疏注意力长上下文处理动态采样模型效率

论文涉及注意力机制优化，与长上下文处理相关，但未直接研究Agent Memory机制。

用GPT对话代理模拟集体人类选择行为和偏差

Emulating Aggregate Human Choice Behavior and Biases with GPT Conversational Agents

Stephen Pilli, Vivek Nallur

Stephen Pilli (University College DublinDublinIreland) | Vivek Nallur (University College DublinDublinIreland)

5/10 2026-02-05 cs.AI PDF

认知偏差常常影响人类的决策。尽管大型语言模型（LLMs）已被证明能够再现已知的偏差，但一个更关键的问题是LLMs是否能够在个体层面预测偏差，并在情境因素（如认知负荷）与这些偏差相互作用时模拟有偏差的人类行为。我们将三个已建立的决策场景转化为对话环境，并进行了一个人类实验（N=1100）。参与者与一个通过简单或复杂对话促进决策的聊天机器人互动。结果揭示了显著的偏差。为了评估LLMs在类似交互条件下如何模拟人类决策，我们使用参与者的人口统计信息和对话记录，基于GPT-4和GPT-5模拟这些条件。LLMs精确地再现了人类的偏差。我们发现不同模型在对齐人类行为方面存在显著差异。这对设计和评估适应性、具有偏差意识的LLM驱动AI系统在交互环境中的表现具有重要意义。

LLM 认知偏差对话代理人类行为模拟

论文涉及LLM在模拟人类决策偏差中的应用，与Agent Memory相关但非核心主题。

M$^2$-Miner：基于多智能体增强的蒙特卡洛树搜索用于移动GUI智能体数据挖掘

M$^2$-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining

Rui Lv, Juncheng Mo, Tianyi Chu, Chen Rao, Hongyi Jing et al.

5/10 2026-02-05 cs.AI PDF

图形用户界面（GUI）智能体对于推动智能人机交互范式至关重要。构建强大的GUI智能体需要大规模标注高质量的用户行为轨迹数据（即意图-轨迹对）进行训练。然而，手动标注方法和当前GUI智能体数据挖掘方法通常面临三个关键挑战：建设成本高、数据质量差和数据丰富性低。为了解决这些问题，我们提出了M$^2$-Miner，这是首个基于蒙特卡洛树搜索（MCTS）的低成本自动化移动GUI智能体数据挖掘框架。为了提高数据挖掘效率和质量，我们提出了一种协作的多智能体框架，包括InferAgent、OrchestraAgent和JudgeAgent，分别用于指导、加速和评估。为进一步提高挖掘效率并丰富意图多样性，我们设计了一种意图回收策略，以提取额外有价值的交互轨迹。此外，还引入了一种渐进式的模型在环训练策略，以提高数据挖掘的成功率。大量实验表明，使用我们挖掘的数据微调的GUI智能体在多个常用的移动GUI基准测试中达到了最先进的性能。我们的工作将被发布以促进社区研究。

多智能体系统数据挖掘 GUI智能体 MCTS

论文涉及多智能体协作与数据挖掘，但未明确讨论Agent Memory机制。

认知多样化选择题生成：一种结合大语言模型的混合多智能体框架

Cognitively Diverse Multiple-Choice Question Generation: A Hybrid Multi-Agent Framework with Large Language Models

Yu Tian, Linh Huynh, Katerina Christhilf, Shubham Chakraborty, Micah Watanabe et al.

5/10 2026-02-03 cs.CL PDF

近年来，大语言模型（LLMs）的进步使得自动化生成选择题（MCQ）变得越来越可行；然而，可靠地生成满足特定认知需求的问题仍然是一个挑战。为了解决这一问题，我们引入了ReQUESTA，这是一种混合多智能体框架，用于系统性地生成具有认知多样性的选择题，涵盖基于文本、推理和主旨理解等方面。ReQUESTA将选择题创作分解为专门的子任务，并协调基于LLM的代理与基于规则的组件，以支持规划、受控生成、迭代评估和后处理。我们在一项大规模阅读理解研究中对框架进行了评估，使用学术说明性文本，将ReQUESTA生成的选择题与单次GPT-5零样本基线生成的选择题进行比较。通过对学习者回答的心理测量分析评估了题目难度和区分度，同时专家评分员从多个维度（包括主题相关性和干扰项质量）评估了问题质量。结果表明，ReQUESTA生成的题目更具挑战性、区分度更高，并且更符合整体阅读理解表现。专家评估还表明，这些题目与核心概念的契合度更强，干扰项的语言一致性和语义合理性也更优，尤其是在推理类问题上。这些发现表明，混合的智能体协调可以系统性地提高基于LLM生成的可靠性与可控性，突显了工作流设计作为结构化生成工件的关键杠杆。

多智能体系统大语言模型选择题生成认知多样性教育技术

论文涉及多智能体框架，但未直接研究记忆机制，仅在生成流程中隐含记忆相关操作。

RAGTurk：土耳其语中检索增强生成的最佳实践

RAGTurk: Best Practices for Retrieval Augmented Generation in Turkish

Süha Kağan Köse, Mehmet Can Baytekin, Burak Aktaş, Bilge Kaan Görür, Evren Ayberk Munis et al.

5/10 2026-02-03 cs.CL PDF

检索增强生成（RAG）能够提升大语言模型的事实准确性，但目前的设计指导主要基于英语，限制了对形态丰富的语言如土耳其语的洞察。本文通过构建一个全面的土耳其语RAG数据集来解决这一问题，该数据集来源于土耳其维基百科和CulturaX，包含问答对及相关段落。我们对RAG流程的七个阶段进行了基准测试，包括查询转换、重排序到答案优化，且未进行任务特定的微调。结果显示，复杂方法如HyDE可将准确率提高至85%，显著高于基线（78.70%）。此外，一种使用交叉编码器重排序和上下文增强的帕累托最优配置也实现了84.60%的性能，但成本更低。研究还表明，过度堆叠生成模块可能会因扭曲形态线索而降低性能，而简单的查询澄清结合稳健的重排序则是一种有效的解决方案。

RAG 土耳其语信息检索生成模型多语言NLP

论文涉及RAG中的信息检索与生成，与Agent Memory相关但非核心主题。

SEAD：面向多轮服务对话的自进化智能体

SEAD: Self-Evolving Agent for Multi-Turn Service Dialogue

Yuqin Dai, Ning Gao, Wei Zhang, Jie Wang, Zichen Luo et al.

5/10 2026-02-03 cs.CL PDF

大型语言模型在开放域对话中表现出色，但在服务对话中表现欠佳，主要受限于数据稀缺和难以模拟真实目标导向用户行为。为此，本文提出SEAD（自进化服务对话智能体），一种无需大规模人工标注即可学习有效策略的框架。SEAD将用户建模分解为两个部分：一个用于生成多样化用户状态以管理训练课程的Profile Controller，以及一个专注于现实角色扮演的User Role-play Model。该设计确保环境提供适应性训练场景而非不公平对抗。实验表明，SEAD显著优于开源基础模型和闭源商业模型，在任务完成率和对话效率上分别提升了17.6%和11.1%。

服务对话自进化智能体用户建模对话系统

论文涉及Agent在多轮服务对话中的学习策略，但未明确讨论Memory机制。

Code

SWE-Master：通过后训练释放软件工程代理的潜力

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

Huatong Song, Lisheng Huang, Shuang Sun, Jinhao Jiang, Ran Le et al.

5/10 2026-02-03 cs.SE PDF

在本技术报告中，我们提出了SWE-Master，一个开源且可完全复现的后训练框架，用于构建高效的软件工程代理。SWE-Master系统性地探索了完整的代理开发流程，包括教师轨迹合成与数据整理、长时域的监督微调（SFT）、结合真实执行反馈的强化学习（RL）以及推理框架设计。从一个具有有限初始软件工程能力的开源基础模型出发，SWE-Master展示了系统优化方法如何激发强大的长时域软件工程任务解决能力。我们在SWE-bench Verified基准上对SWE-Master进行了评估，该基准是针对现实软件工程任务的标准测试集。在相同的实验设置下，使用Qwen2.5-Coder-32B模型，我们的方法达到了61.4%的解决率，显著优于现有的开源基线。通过进一步结合基于LLM的环境反馈进行测试时扩展（TTS），SWE-Master在TTS@8时达到70.8%，显示出强劲的性能潜力。SWE-Master为推进软件工程代理的可复现研究提供了实用且透明的基础。

软件工程代理后训练强化学习 SWE-bench

论文涉及Agent训练与推理过程，但未明确讨论Memory机制。

Code

CVE-Factory：扩展代码安全漏洞的专家级智能体任务

CVE-Factory: Scaling Expert-Level Agentic Tasks for Code Security Vulnerability

Xianzhen Luo, Jingyuan Zhang, Shiqi Zhou, Rain Huang, Chuan Xiao et al.

5/10 2026-02-03 cs.CR PDF

评估和提升代码智能体的安全能力需要高质量、可执行的漏洞任务。然而现有研究依赖于昂贵且不可扩展的手动复现，并面临数据分布过时的问题。为解决这些问题，我们提出了CVE-Factory，这是首个多智能体框架，能够自动将稀疏的CVE元数据转换为高质量的可执行智能体任务。通过与人工专家复现的交叉验证，CVE-Factory实现了95%的解决方案正确率和96%的环境保真度，证明了其专家级质量。该方法在最新的真实漏洞上也取得了66.2%的验证成功率。自动化还带来了两个下游贡献：首先，构建了LiveCVEBench，这是一个持续更新的基准测试集，包含190个任务，涵盖14种语言和153个仓库，捕捉新兴威胁包括AI工具漏洞；其次，合成了超过1,000个可执行训练环境，首次实现了代码安全领域智能体任务的大规模扩展。微调后的Qwen3-32B模型在LiveCVEBench上的表现从5.3%提升至35.8%，超越了Claude 4.5 Sonnet，且提升效果可推广到Terminal Bench（12.5%至31.3%）。我们开源了CVE-Factory、LiveCVEBench、Abacus-cve（微调模型）、训练数据集和排行榜。所有资源均可在https://github.com/livecvebench/CVE-Factory获取。

代码安全智能体任务生成漏洞检测基准测试

论文涉及Agent任务生成与执行，但未直接探讨Memory机制。

Code

大型语言模型中信念引导的能动性与元认知监控的迹象

Indications of Belief-Guided Agency and Meta-Cognitive Monitoring in Large Language Models

Noam Steinmetz Yalon, Ariel Goldstein, Liad Mudrik, Mor Geva

5/10 2026-02-02 cs.CL PDF

大型语言模型（LLMs）的快速发展引发了关于其是否具备某种意识形式的讨论。本文基于Butlin等人（2023）提出的意识指标，重点评估其中HOT-3指标——即由通用信念形成与行动选择系统引导的能动性，该系统通过元认知监控更新信念。我们将信念视为模型潜在空间中对输入响应而产生的表征，并引入量化其在生成过程中主导性的度量。跨模型与任务的信念动态分析揭示三点发现：(1)外部干预可系统性调节内部信念形成；(2)信念形成因果驱动行动选择；(3)模型能监控并报告自身信念状态。结果为LLMs中存在信念引导的能动性与元认知监控提供了实证支持，并为研究LLMs中能动性、信念与元认知的涌现奠定了方法论基础。

信念表征元认知监控

涉及信念表征与元认知监控，间接关联记忆机制但非核心。

数据分布至关重要：面向大语言模型上下文压缩的数据中心视角

Data Distribution Matters: A Data-Centric Perspective on Context Compression for Large Language Model

Kangtao Lv, Jiwei Tang, Langming Liu, Haibin Chen, Weidong Zhang et al.

5/10 2026-02-02 cs.CL PDF

大语言模型（LLMs）在长上下文场景中的部署受限于计算效率低下和信息冗余。尽管上下文压缩已被广泛采用，但现有研究多聚焦于模型侧改进，忽视了数据分布本身对压缩效果的影响。本文首次从数据中心视角系统探究输入数据与模型内在预训练知识（即内在数据）的分布如何影响压缩质量。通过基于自编码器的框架评估压缩表示的语义完整性，实验发现：（1）编码器测得的输入熵与压缩质量呈负相关，而解码器测得的熵在冻结解码器设置下无显著关联；（2）编码器与解码器内在数据之间的差距显著削弱压缩收益，且难以缓解。基于此，作者提出了优化压缩效果的实用指南。

上下文压缩数据分布

涉及上下文压缩对信息保留的影响，间接关联记忆机制。

当RAG造成损害时：诊断并缓解检索增强型大视觉语言模型中的注意力分散问题

When RAG Hurts: Diagnosing and Mitigating Attention Distraction in Retrieval-Augmented LVLMs

Beidi Zhao, Wenlong Deng, Xinting Liao, Yushu Li, Nazim Shaikh et al.

5/10 2026-01-30 cs.CV PDF

尽管检索增强生成（RAG）是提升大视觉语言模型（LVLMs）在知识型视觉问答任务中表现的主流范式，但近期研究将RAG失败归因于对检索上下文的注意力不足，并建议减少分配给图像标记的注意力。本文识别出一种先前被忽视的失败模式——注意力分散（Attention Distraction, AD）：当检索到的上下文充分时，其文本内容会全局抑制视觉注意力，导致模型对图像中与问题相关区域的关注减弱，从而在原本无需检索即可正确回答的问题上出现错误。为此，作者提出MAD-RAG方法，一种无需训练的干预策略，通过双问题形式解耦视觉定位与上下文整合，并结合注意力混合以保留图像条件证据。在OK-VQA、E-VQA和InfoSeek上的大量实验表明，MAD-RAG在不同模型家族中均显著优于现有基线，最高带来4.76%、9.20%和6.18%的绝对提升，并能修正高达74.68%的失败案例，且计算开销可忽略。

RAG 视觉语言模型

涉及检索增强中的注意力机制，与记忆使用相关但非核心记忆架构研究。

探查大语言模型中推理轨迹的演化路径

Probing the Trajectories of Reasoning Traces in Large Language Models

Marthe Ballon, Brecht Verbeken, Vincent Ginis, Andres Algaba

5/10 2026-01-30 cs.LG PDF

大语言模型（LLMs）常通过生成“推理轨迹”来解决复杂问题，但尚不清楚其准确性与决策确定性如何随推理过程演变，以及中间轨迹是否包含超越长度或风格效应的答案相关信息。本文提出一种系统性探查协议：生成模型推理轨迹，在固定token百分位截断，并将各部分重新注入模型以通过下一token概率评估答案分布。在Qwen3和gpt-oss系列模型上的GPQA Diamond与MMLU-Pro基准测试表明，随着提供推理token比例增加，准确率与决策确定性持续提升，且主要源于生成内容的相关性而非上下文长度或通用“推理风格”。强模型能从错误轨迹中有效回退，而弱模型的答案易被早期错误锚定。该方法可为推理模型的安全高效部署提供诊断依据。

推理轨迹大语言模型决策演化模型诊断

研究推理轨迹中信息演化，间接涉及记忆机制但非核心。

上下文结构重塑语言模型的表征几何

Context Structure Reshapes the Representational Geometry of Language Models

Eghbal A. Hosseini, Yuxuan Li, Yasaman Bahri, Declan Campbell, Andrew Kyle Lampinen

5/10 2026-01-29 cs.CL PDF

大型语言模型（LLMs）在深层网络中将输入序列的表征组织为更“笔直”的神经轨迹，这被认为有助于通过线性外推进行下一词预测。本文结合表征笔直化与上下文学习（ICL）研究，考察ICL过程中上下文内部是否发生表征笔直化。在Gemma 2模型上对多种ICL任务的分析揭示了两种模式：在连续预测任务（如自然语言、网格世界遍历）中，上下文长度增加会提升轨迹笔直度，并与预测性能正相关；而在结构化预测任务（如少样本学习）中，笔直化仅出现在具有显式结构的阶段（如模板重复），其他阶段则消失。结果表明ICL并非单一过程，LLM会根据任务结构动态选择策略，仅部分策略导致表征笔直化。

in-context learning representational geometry

探讨上下文中的表征变化，间接关联记忆机制但非核心。

PersonaCite：基于用户之声的可访谈、可验证的合成AI角色代理系统

PersonaCite: VoC-Grounded Interviewable Agentic Synthetic AI Personas for Verifiable User and Design Research

Mario Truss

Mario Truss (AdobeGermany)

5/10 2026-01-29 cs.HC PDF

基于大语言模型（LLM）和智能体的合成角色日益用于设计与产品决策，但现有研究表明，基于提示的角色常生成具有说服力却不可验证的回应，掩盖其证据基础。本文提出PersonaCite——一种通过检索增强交互将AI角色重构为证据受限研究工具的智能体系统。与依赖提示角色扮演的先前方法不同，PersonaCite在每次对话轮次中检索真实的用户之声（Voice-of-Customer）素材，将回应严格限定于检索到的证据，在证据缺失时明确拒绝回答，并提供逐条回应的来源引用。通过对14位行业专家的半结构化访谈与部署研究，初步识别了其感知优势、有效性疑虑与设计张力，并提出“角色溯源卡”作为人本设计流程中负责任使用AI角色的文档模式。

检索增强生成可验证AI 人本设计合成角色

涉及检索增强机制，与记忆中的信息存储和引用相关，但非核心记忆架构研究。

为何存在注意力模式：一种统一的时序视角分析

Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis

Qingyue Yang, Jie Wang, Xing Li, Yinqi Bai, Xialiang Tong et al.

5/10 2026-01-29 cs.CL PDF

注意力模式在大语言模型（LLMs）的训练与推理中至关重要。以往研究识别出检索头、汇聚头和对角线轨迹等个别模式，但缺乏统一解释。本文提出时序注意力模式可预测性分析（TAPPA），从连续时间视角出发，通过数学形式化统一解释多样注意力模式。TAPPA将注意力模式分为具有明确规律的可预测模式与近似随机的不可预测模式，并揭示该区分源于查询在时序维度上的自相似程度。针对可预测模式，作者结合查询、键与旋转位置编码（RoPE）进行详细数学分析。实验表明，基于TAPPA启发的简单指标在KV缓存压缩与LLM剪枝任务中持续优于基线方法。

注意力机制 KV缓存优化

论文分析注意力模式可预测性，间接关联KV缓存压缩，涉及记忆机制但非核心。

Code

深度递归注意力混合：赋予潜在推理应有的注意力

Depth-Recurrent Attention Mixtures: Giving Latent Reasoning the Attention it Deserves

Jonas Knupp, Jan Hendrik Metzen, Jeremias Bohn, Georg Groh, Kristian Kersting

5/10 2026-01-29 cs.AI PDF

深度递归通过跨深度共享参数促进潜在推理，但现有工作缺乏在FLOP、参数量和内存方面匹配的基线，且因部分固定层堆叠而未能充分利用深度递归，并忽视了恒定隐藏维度对多步潜在推理的瓶颈。为此，我们提出一种模块化框架——深度递归注意力混合（Dreamer），融合序列注意力、深度注意力与稀疏专家注意力。该方法通过沿深度维度的注意力缓解隐藏维度瓶颈，解耦缩放维度，使深度递归模型能高效有效扩展。在语言推理基准上，该模型达到相同准确率所需训练token数仅为匹配基线的1/2至1/8，并以相同训练量超越约2倍规模的最先进模型。此外，我们揭示了不同深度间知识使用的特性，例如专家选择多样性比现有MoE模型高2至11倍。

深度递归注意力机制

涉及深度递归中的隐状态管理，与记忆机制间接相关。

面向深度复合AI系统的文本均衡传播方法

Textual Equilibrium Propagation for Deep Compound AI Systems

Minghui Chen, Wenlong Deng, James Zou, Han Yu, Xiaoxiao Li

5/10 2026-01-28 cs.LG PDF

大语言模型（LLMs）越来越多地被部署于协调多个模块（如检索器、工具、验证器）的复合AI系统中，执行长周期工作流。现有基于全局文本反馈传播的方法（如TextGrad）在系统深度增加时性能下降，表现为“文本梯度爆炸”和“文本梯度消失”两种失效模式。为此，本文提出文本均衡传播（TEP），受能量模型中均衡传播启发，包含自由相（局部LLM批评者迭代优化提示至均衡）和扰动相（通过前向信号而非反向链进行有界提示编辑）。该方法在长程问答和多智能体工具使用任务中优于TextGrad，且随系统深度提升效果更显著，同时保持黑盒LLM组件的实用性。

Agent Memory Compound AI Systems

涉及长程信息传递与上下文压缩，间接关联记忆机制。

ShopSimulator：评估和探索用于购物助手的基于强化学习的LLM代理

ShopSimulator: Evaluating and Exploring RL-Driven LLM Agent for Shopping Assistants

Pei Wang, Yanan Wu, Xiaoshuai Song, Weixun Wang, Gengru Chen et al.

Xiaoshuai Song (Renmin University of China)

5/10 2026-01-26 cs.AI PDF

基于大语言模型（LLM）的代理在电子商务购物中日益普及。为了执行全面且符合用户偏好的产品搜索，代理应能够解释个人偏好、进行多轮对话，并最终检索和区分高度相似的产品。然而，现有研究尚未提供一个统一的模拟环境来全面捕捉这些方面，通常仅关注评估基准而缺乏训练支持。本文介绍了ShopSimulator，一个大规模且具有挑战性的中文购物环境。利用ShopSimulator，我们评估了LLM在各种场景下的表现，发现即使性能最好的模型也仅有不到40%的成功率。错误分析表明，代理在长轨迹中难以进行深度搜索和产品选择，无法平衡个性化线索的使用，也无法有效与用户互动。进一步的训练探索为克服这些弱点提供了实用指导，监督微调（SFT）与强化学习（RL）的结合显著提升了性能。

LLM Agent 强化学习购物助手对话系统个性化推荐

论文涉及LLM Agent在购物助手中的应用，提及对话和个性化偏好，但未明确讨论记忆机制。

Code

MulVul：通过跨模型提示进化实现检索增强的多智能体代码漏洞检测

MulVul: Retrieval-augmented Multi-Agent Code Vulnerability Detection via Cross-Model Prompt Evolution

Zihan Wu, Jie Xu, Yun Peng, Chun Yong Chong, Xiaohua Jia

5/10 2026-01-26 cs.SE PDF

大型语言模型（LLMs）在自动化现实世界中的漏洞检测方面面临两个关键限制：漏洞模式的异质性削弱了单一统一模型的有效性，且对大量弱点类别的手动提示工程不可扩展。为了解决这些挑战，我们提出了MulVul，一种用于精确且广泛覆盖漏洞检测的检索增强型多智能体框架。MulVul采用从粗到细的策略：首先由Router代理预测前k个粗粒度类别，然后将输入转发给专门的Detector代理以识别具体的漏洞类型。两个代理都配备了检索工具，主动从漏洞知识库中获取证据以减少幻觉。关键的是，为了自动生成专用提示，我们设计了Cross-Model Prompt Evolution，这是一种提示优化机制，其中生成器LLM迭代优化候选提示，而不同的执行器LLM验证其有效性。这种解耦减轻了单模型优化中固有的自我校正偏差。在130种CWE类型上评估，MulVul实现了34.79%的Macro-F1，优于最佳基线41.5%。消融研究验证了跨模型提示进化，其性能比手动提示提高了51.6%，有效处理了多样化的漏洞模式。

多智能体系统漏洞检测提示优化检索增强

论文提及检索增强和证据来源，与记忆机制相关，但非核心主题。

ChemNavigator：基于智能体的有机光催化剂设计规则发现

ChemNavigator: Agentic AI Discovery of Design Rules for Organic Photocatalysts

Iman Peivaste, Ahmed Makradi, Salim Belouettar

5/10 2026-01-23 physics.chem-ph PDF

高性能有机光催化剂的设计仍受限于化学空间的广阔性和对分子设计依赖人类直觉。本文提出ChemNavigator，一种基于智能体的人工智能系统，通过假设驱动的方式自主探索有机光催化剂候选物，建立结构-性能关系。该系统结合大语言模型推理与密度泛函紧束缚计算，在多智能体架构中模拟科学方法：提出假设、设计实验、执行计算并通过严格的统计分析验证结果。经过包含200个分子的迭代发现周期，ChemNavigator自主识别出六个统计显著的设计规则，涵盖前线轨道能量调控因素，如醚键、羰基、共轭扩展、氰基、卤素取代基和氨基等。这些规则对应于有机电子结构的已知原理，表明系统能够在无需显式编程的情况下独立推导化学知识。值得注意的是，自主智能体推理从分子库中提取了六个验证规则，而先前机器学习方法仅识别出羰基效应。量化效应大小为合成化学家提供了优先级排序，特征交互分析揭示了策略组合时的边际效益递减，挑战了分子设计中的加性假设。本研究证明了智能体人工智能系统能够自主推导可解释且基于化学原理的设计原则，建立了辅助材料发现的AI框架。

AI Agent 分子设计光催化剂假设驱动智能体系统

论文涉及Agent系统中的自主推理与知识发现，但未直接讨论Memory机制。

TL-GRPO: 基于回合级别的强化学习用于推理引导的迭代优化

TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization

Peiji Li, Linyang Li, Handa Sun, Wenjin Mai, Yongkang Chen et al.

Peiji Li (Fudan University) | Linyang Li (Shanghai AI Laboratory) | Handa Sun (Fudan University)

5/10 2026-01-23 cs.CL PDF

大型语言模型通过工具集成在复杂任务中展现出强大的推理能力，通常被建模为马尔可夫决策过程，并使用轨迹级别的强化学习算法（如GRPO）进行优化。然而，在一类常见的推理任务——迭代优化中，代理需要在多个回合中与同一环境状态交互，轨迹的价值由最佳回合奖励决定，而非累积回报。现有的基于GRPO的方法无法在此类设置中实现细粒度的回合级别优化，而黑盒优化方法则忽略了先验知识和推理能力。为解决这一问题，本文提出了一种轻量级的强化学习算法Turn-Level GRPO（TL-GRPO），通过回合级别的分组采样实现细粒度优化。我们在模拟电路尺寸调整（ACS）任务上评估了TL-GRPO，该任务具有挑战性，需要多次仿真和领域专业知识。结果表明，TL-GRPO在各种规格下均优于标准GRPO和贝叶斯优化方法。此外，使用TL-GRPO训练的30B模型在相同仿真预算下实现了最先进的性能，展示了其良好的泛化能力和实用性。

强化学习迭代优化科学计算 Agent优化

论文涉及Agent在迭代优化任务中的记忆与状态交互，但未直接研究Memory机制。

在测试时学习以发现新方法

Learning to Discover at Test Time

Mert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb et al.

Mert Yuksekgonul (Stanford University) | Xinhao Li (UC San Diego)

5/10 2026-01-22 cs.LG PDF

如何利用AI为科学问题发现新的最先进方法？先前的测试时扩展工作（如AlphaEvolve）通过提示冻结的LLM进行搜索。本文则在测试时进行强化学习，使LLM能够根据特定测试问题的经验继续训练。这种持续学习的目标是生成一个优秀的解决方案，而非平均多个良好方案或泛化到其他问题。因此，其学习目标和搜索子程序优先考虑最有前景的解决方案。我们称此方法为测试时训练以发现（TTT-Discover）。我们关注具有连续奖励的问题，并在数学、GPU内核工程、算法设计和生物学等多个领域报告了结果。TTT-Discover在几乎所有问题上都设定了新的最先进水平。所有结果均使用开源模型OpenAI gpt-oss-120b实现，并可通过公开代码复现。

强化学习测试时训练 LLM优化持续学习科学发现

论文涉及测试时训练与LLM的持续学习，但未直接探讨Agent Memory机制。

解耦Return-to-Go以提高决策变换器的效率

Decoupling Return-to-Go for Efficient Decision Transformer

Yongyi Wang, Hanyu Liu, Lingfeng Li, Bozhou Chen, Ang Li et al.

5/10 2026-01-22 cs.AI PDF

决策变换器（DT）为离线强化学习提供了一种强大的序列建模方法。它通过Return-to-Go（RTG）条件化其动作预测，既用于训练过程中区分轨迹质量，也用于推理时指导动作生成。本文发现该设计中存在关键冗余：将整个RTG序列输入Transformer在理论上是不必要的，因为只有最新的RTG影响动作预测。实验表明这种冗余可能损害DT的性能。为此，我们提出了解耦DT（DDT）。DDT通过仅处理观察和动作序列的Transformer，并利用最新的RTG指导动作预测来简化架构。这种方法不仅提升了性能，还降低了计算成本。实验表明，DDT在多个离线RL任务中显著优于DT，并且与最先进的DT变体具有竞争力。

强化学习决策变换器序列建模 RTG优化

论文涉及RTG在决策过程中的作用，与Agent Memory相关但非核心主题。

角色切换：在解码过程中混合不同的视角

Persona Switch: Mixing Distinct Perspectives in Decoding Time

Junseok Kim, Nakyeong Yang, Kyomin Jung

5/10 2026-01-22 cs.CL PDF

角色扮演提示通过向提示中注入角色信息来引导语言模型的行为，从而提升其零样本推理能力。然而，这种改进在不同任务或实例中表现不一致。这表明零样本提示和角色扮演提示可能具有互补的优势，而非某一种方法普遍更优。基于这一洞察，我们提出了一种新的解码方法Persona Switch，该方法通过逐步比较两种提示策略的输出置信度（以logit gap衡量），动态地选择更优的输出结果。实验表明，Persona Switch在多个广泛使用的大型语言模型上均优于现有基线方法，最高可提升5.13%的准确率。此外，我们还证明了输出置信度可以作为选择更可靠输出的有效指标。

LLM提示工程解码策略角色扮演提示零样本推理

论文探讨了角色扮演提示与零样本提示的结合，涉及解码过程中的动态选择机制，与Agent Memory有一定关联。

ICPO：面向多轮对话的言外之意校准策略优化

ICPO: Illocution-Calibrated Policy Optimization for Multi-Turn Conversation

Zhebo Wang, Xiaohu Mu, Zijie Zhou, Mohan Li, Wenpeng Xing et al.

5/10 2026-01-20 cs.CL PDF

在多轮对话中，大型语言模型（LLMs）常出现“迷失于对话”现象，难以从早期错误假设中恢复，尤其是在用户提供模糊初始指令时。我们发现，标准的后训练技术如基于可验证奖励的强化学习（RLVR）会加剧这一问题，因为它们奖励自信直接的回答，导致模型过度自信并抑制其寻求澄清的行为。为了解决这一问题，我们提出了言外之意校准策略优化（ICPO），一种新的训练框架，使模型对指令模糊性更加敏感。ICPO通过在训练语料中添加不明确的提示，并将奖励信号条件化于用户的言外之意意图，在面对模糊性时奖励模型表达不确定性或请求澄清。实验表明，ICPO促进了适当的谦逊态度，在多轮对话任务中平均提升了75%，同时保持了在单轮基准测试中的稳健性能。我们的工作为构建更稳健、更具协作性的对话AI提供了实用路径，使其能够更好地应对人类交互的细微差别。

对话系统强化学习不确定性建模多轮对话

论文涉及对话中模型对模糊指令的处理，与记忆机制相关但非核心主题。

扩散语言模型在智能体工作流中的苦涩教训：全面现实检验

The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check

Qingyu Lu, Liang Ding, Kanjian Zhang, Jinxia Zhang, Dacheng Tao

Qingyu Lu (School of Automation, Southeast University)

5/10 2026-01-19 cs.CL PDF

为实现实时智能体交互，研究者对基于扩散的大型语言模型（dLLMs）产生了兴趣，以替代自回归主干结构，从而突破序列延迟瓶颈。然而，这种效率提升是否能转化为有效的智能体行为？本文对dLLMs（如LLaDA、Dream）在两种不同的智能体范式中进行了全面评估：具身智能体（需要长期规划）和工具调用智能体（需要精确格式）。与效率宣传相反，我们的结果表明，当前的dLLMs无法作为可靠的智能体主干，经常导致系统性失败。在具身环境中，dLLMs在时间反馈下无法分支；在工具调用环境中，它们在扩散噪声下无法保持符号精度（如严格的JSON模式）。为评估dLLMs在智能体工作流中的潜力，我们引入了DiffuAgent，一个集成dLLMs作为即插即用认知核心的多智能体评估框架。分析显示，dLLMs在非因果角色（如记忆摘要和工具选择）中有效，但要在智能体任务中发挥作用，需要将因果、精确和逻辑基础的推理机制整合到去噪过程中。

Agent Memory dLLMs 智能体评估扩散模型工具调用

论文提及dLLMs在非因果角色中的有效性，如记忆摘要，但未深入探讨Agent Memory机制。

基于证据增强的策略优化与奖励协同进化用于长上下文推理

Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning

Xin Guan, Zijian Li, Shen Huang, Pengjun Xie, Jingren Zhou et al.

5/10 2026-01-15 cs.AI PDF

尽管强化学习（RL）已推动大语言模型（LLM）的推理能力，但在长上下文场景中仍受限于结果奖励的稀疏性，难以惩罚无依据的“幸运猜测”，导致关键的“大海捞针”式证据检索过程缺乏监督。为此，本文提出EAPO（Evidence-Augmented Policy Optimization）。首先确立证据增强推理范式，并通过树状证据采样验证精确证据提取是长上下文推理的决定性瓶颈。EAPO引入一种专用RL算法，由奖励模型计算群体相对证据奖励，提供密集的过程监督以显式提升证据质量。为维持训练过程中监督的准确性，进一步设计自适应奖励-策略协同进化机制，利用结果一致的rollout迭代优化奖励模型，增强其判别能力以确保精准的过程引导。在八个基准上的综合评估表明，EAPO显著优于当前最先进基线。

强化学习长上下文推理

涉及证据检索与长期上下文处理，间接关联记忆机制。

思长远，行简短：面向大型推理模型的稳定序列测试时缩放方法

Thinking Long, but Short: Stable Sequential Test-Time Scaling for Large Reasoning Models

Michael R. Metel, Yufei Cui, Boxing Chen, Prasanna Parthasarathi

5/10 2026-01-14 cs.AI PDF

序列测试时缩放是一种无需训练即可提升大型推理模型准确率的有前景方法，但现有实现存在明显局限：延长推理长度虽可提升准确率，但过度延伸会导致性能下降与模型不稳定。本文提出一种新方法Min-Seek，在广泛推理长度范围内显著提升模型准确率，稳定序列缩放效果，并免除了对推理长度的精细调优。该方法仅在KV缓存中保留一个额外推理步骤的键值对，具备内在高效性。通过定制化KV缓存（存储不含位置编码的键，并在每次生成新推理前动态连续编码），该方法可突破模型最大上下文长度限制，在温和条件下实现线性计算复杂度。

测试时缩放 KV缓存优化

涉及KV缓存管理与上下文扩展，属记忆机制应用层面。

多元文化Spyfall：通过动态多语言社交推理游戏评估LLM

Multicultural Spyfall: Assessing LLMs through Dynamic Multilingual Social Deduction Game

Haryo Akbarianto Wibowo, Alaa Elsetohy, Qinrong Cui, Alham Fikri Aji

5/10 2026-01-13 cs.CL PDF

随着大型语言模型（LLMs）的快速发展，传统的静态基准测试方法已逐渐暴露出数据饱和和泄露的问题。本文提出了一种基于社交推理游戏Spyfall的动态评估框架，用于评估多语言和跨文化能力。在此框架中，模型需要通过战略性对话来识别秘密特工或避免被发现，并利用与文化相关的地点或本地食物等信息。实验结果表明，基于游戏的排名与Chatbot Arena的结果高度一致，但在非英语环境中存在显著性能差距：模型在处理本地特定实体时通常表现较差，并且在非英语语言中常难以遵循规则或保持策略完整性。本文证明了这种基于游戏的方法为传统NLP基准提供了一种可扩展、抗数据泄露且具有文化细微差别的替代方案。

LLM评估多语言社交推理游戏文化差异 Agent能力

论文涉及多语言环境下LLM的评估，与Agent Memory在非英语语境中的表现相关。

Code

面向用户的可扩展多轮对话生成与工具使用

User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale

Jungho Cho, Minbyul Jeong, Sungrae Park

5/10 2026-01-13 cs.CL PDF

随着大型推理模型（LRMs）作为自主代理的范式转变，对复杂、多轮工具使用能力的需求日益增加。然而，现有数据集和生成方法受限于静态预定义工具集，难以满足开放性人机协作的复杂性需求。为此，我们开发了一个自动化任务导向的多轮对话生成框架，利用基于LRM的模拟器动态生成高价值、领域特定的工具以解决指定任务。然而，纯粹的任务导向设计往往导致“仅解决问题”的轨迹，即代理以最少交互完成目标，无法生成现实中常见的高轮次对话。为弥补这一差距，我们转向用户导向的模拟范式，通过将任务生成与模拟人类行为规则的专用用户模拟器解耦，如逐步提出请求和逐轮反馈，从而生成更真实、更长的多轮对话，反映现实问题解决的迭代特性。我们的生成流程作为一个多功能、即插即用模块，能够从任何状态启动生成，确保在生成扩展工具使用数据时具有高度可扩展性。此外，通过在一个轨迹中实现多个任务完成，它产生了一个高密度数据集，反映了现实世界中人机交互的多方面需求。

多轮对话生成工具使用用户模拟人机交互

论文涉及多轮对话生成与工具使用，隐含对记忆机制的需求，但未直接研究Agent Memory。

DIAGPaper: 通过多智能体推理诊断科学论文中有效且具体的弱点

DIAGPaper: Diagnosing Valid and Specific Weaknesses in Scientific Papers via Multi-Agent Reasoning

Zhuoyang Zou, Abolfazl Ansari, Delvin Ce Zhang, Dongwon Lee, Wenpeng Yin

5/10 2026-01-12 cs.AI PDF

利用单智能体或多智能体LLM识别论文弱点的研究日益受到关注，但现有方法存在关键局限。许多多智能体系统仅在表层模拟人类角色，忽略了专家评估论文互补性智力方面的潜在标准。此外，先前方法隐含假设识别的弱点是有效的，忽视了审稿人偏见、误解以及作者反驳在验证评审质量中的关键作用。最后，大多数系统输出未排序的弱点列表，而非优先呈现对用户影响最大的问题。本文提出DIAGPaper，一种新颖的多智能体框架，通过三个紧密集成的模块解决这些挑战。定制器模块模拟人类定义的评审标准，并实例化具有特定标准专业知识的多个审稿人代理。反驳模块引入作者代理，与审稿人代理进行结构化辩论以验证和优化提出的弱点。优先级模块从大规模的人类评审实践中学习，以评估验证后的弱点严重性，并向用户展示最严重的前K个问题。在AAAR和ReviewCritique两个基准上的实验表明，DIAGPaper在生成更有效和更具体于论文的弱点方面显著优于现有方法，并以面向用户的方式优先呈现。

多智能体系统论文评审弱点识别结构化辩论

论文涉及多智能体系统，但未直接讨论Agent Memory机制，相关性有限。

随机混沌：为何确定性推理有害，分布可变性是人工认知的心跳

Stochastic CHAOS: Why Deterministic Inference Kills, and Distributional Variability Is the Heartbeat of Artifical Cognition

Tanmay Joshi, Shourya Aggarwal, Anusa Saha, Aadi Pandey, Shreyash Dhoot et al.

5/10 2026-01-12 cs.AI PDF

在经典软件中，确定性推理是一种理想的范式：相同的程序和输入应始终产生相同的输出。随着大语言模型（LLMs）进入实际部署，这一理想被直接引入到推理栈中。近期来自Thinking Machines Lab的研究详细分析了LLM推理中的非确定性，展示了如何通过批量不变核和确定性注意力实现位精确输出，并将确定性推理视为可重复性和企业可靠性的前提条件。本文持相反立场，认为对于LLMs而言，确定性推理是有害的。它削弱了建模不确定性的能力，抑制了涌现能力，使推理退化为单一脆弱路径，并通过隐藏尾部风险削弱了安全对齐。LLMs实现的是输出的条件分布，而非固定函数。将这些分布压缩为单一规范完成虽然看似令人安心，但会系统性地掩盖人工认知的核心属性。我们主张采用随机混沌（Stochastic CHAOS），将分布可变性视为需要测量和控制的信号。实证研究表明，确定性推理具有系统性误导性。单样本确定性评估低估了能力和脆弱性，掩盖了在同义词替换和噪声下的失败概率。与涌现能力相关的类似相变现象在贪婪解码下消失。当被迫使用确定性主干时，多路径推理性能下降，准确性和诊断洞察力降低。最后，确定性评估低估了安全性风险，因为它隐藏了仅在多样本评估中出现的罕见但危险的行为。

LLM 不确定性建模推理机制安全对齐分布可变性

论文讨论了确定性推理对LLM的影响，间接涉及记忆机制的分布特性与不确定性。

思维的分子结构：映射长链推理的拓扑结构

The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning

Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan et al.

Qiguang Chen (SCIR)

5/10 2026-01-09 cs.CL PDF

大型语言模型（LLMs）通常难以从人类或非长链推理的LLMs中学习有效的长链推理（Long CoT）。为理解这一现象，本文提出有效的长链推理轨迹在统一视角下具有稳定的类似分子结构，由三种交互类型构成：深度推理（类似共价键）、自我反思（类似氢键）和自我探索（类似范德华力）。通过对蒸馏轨迹的分析发现，这些结构来源于长链推理的微调，而非关键词模仿。本文引入有效语义异构体，表明仅能促进快速熵收敛的“键”支持稳定的长链推理学习，而结构竞争会损害训练效果。基于这些发现，本文提出了Mole-Syn方法，通过分布转移图引导有效长链推理结构的合成，在多个基准测试中提升了性能和强化学习的稳定性。

长链推理结构建模语义异构体分布转移图

论文探讨了长链推理的结构，与Agent Memory中的推理轨迹存储和稳定性相关，但非核心主题。

DocDancer：面向基于文档的主动信息检索智能体

DocDancer: Towards Agentic Document-Grounded Information Seeking

Qintong Zhang, Xinjie Lv, Jialong Wu, Baixuan Li, Zhengwei Tao et al.

5/10 2026-01-08 cs.CL PDF

文档问答（DocQA）旨在回答基于给定文档的问题，但现有DocQA智能体缺乏有效的工具利用能力，且多依赖闭源模型。本文提出DocDancer，一个端到端训练的开源文档智能体。我们将DocQA建模为信息检索问题，并设计了一个工具驱动的智能体框架，显式建模文档探索与理解过程。为支持端到端训练，我们提出“探索-合成”数据合成流程，以缓解高质量DocQA训练数据稀缺问题。在MMLongBench-Doc和DocBench两个长上下文文档理解基准上的实验表明，所训练模型具有有效性。进一步分析为智能体工具设计与合成数据提供了有价值的见解。

文档问答智能体工具使用

涉及文档探索与信息整合，隐含短期记忆机制，但未显式研究记忆架构。

ArcAligner：用于RAG中压缩上下文嵌入的自适应递归对齐器

ArcAligner: Adaptive Recursive Aligner for Compressed Context Embeddings in RAG

Jianbo Li, Yi Jiang, Sendong Zhao, Bairui Hu, Haochun Wang et al.

5/10 2026-01-08 cs.CL PDF

检索增强生成（RAG）有助于提升大语言模型的准确性，但将长文档输入提示会显著增加计算开销。为此，研究者提出了多种上下文压缩方法，如词元剪枝、摘要和嵌入压缩等。然而，过度压缩会导致模型难以理解信息。本文提出ArcAligner（自适应递归上下文对齐器），一种轻量级模块，集成于语言模型层中，以提升模型对高度压缩上下文表示的利用能力。其采用自适应“门控”机制，仅在信息复杂时增加计算，兼顾效率与性能。在多个知识密集型问答基准上，ArcAligner在相近压缩率下显著优于现有基线，尤其在多跳推理和长尾场景中表现突出。代码已开源。

RAG 上下文压缩

涉及压缩上下文表示，间接关联Agent记忆机制。

排序:

每页显示: