FlashMem: 通过计算复用提炼内在潜在记忆

Agent Memory LLM Computation Reuse Latent Memory

摘要

大型语言模型的无状态架构本质上缺乏保存动态上下文的机制，迫使代理重复处理历史信息以维持长期自主性。尽管潜在记忆提供了解决方案，但现有方法因架构分离而受限，依赖于将记忆与推理主干解耦的辅助编码器。本文提出FlashMem框架，通过计算复用从瞬时推理状态中提炼内在记忆。利用内部表示唯一编码输入轨迹的特性，FlashMem识别最后一个隐藏状态作为交互历史的充分统计量。这使得共享键值整合器能够直接关注主干的冻结缓存来合成记忆，消除了冗余参数化。此外，一个无需参数的认知监控器利用注意力熵在检测到高认识不确定性时自适应触发整合。实验表明，FlashMem在保持重型基线性能的同时，将推理延迟降低了5倍，有效弥合了效率与持续认知之间的差距。

AI 推荐理由

论文直接针对Agent Memory机制，提出FlashMem框架以优化记忆存储与推理效率。

论文信息

作者 Yubo Hou, Zhisheng Chen, Tao Wan, Zengchang Qin

发布日期 2026-01-09

arXiv ID 2601.05505