摘要
大型语言模型(LLMs)通常被视为无状态的:一旦交互结束,除非显式存储并重新提供信息,否则不会假设任何信息持续存在。本文挑战这一假设,引入了隐式记忆——模型通过在其输出中编码信息,并在后续将这些输出重新输入时恢复信息,从而在独立交互之间携带状态的能力。该机制无需任何显式记忆模块,却在推理请求之间创建了一个持久的信息通道。作为具体案例,我们引入了一类新的时间后门,称为“定时炸弹”。与仅在单个触发输入上激活的传统后门不同,“定时炸弹”只有在满足通过隐式记忆积累的隐藏条件的一系列交互之后才会激活。我们展示了这种行为可以通过简单的提示或微调诱导实现。除了这一案例研究,我们还分析了隐式记忆更广泛的含义,包括隐蔽的智能体间通信、基准污染、定向操控和训练数据中毒等。最后,我们讨论了检测挑战,并概述了压力测试和评估的方向,旨在预测和控制未来的发展。为促进未来研究,我们在https://github.com/microsoft/implicitMemory发布了代码和数据。
AI 推荐理由
论文核心研究LLM中的隐式记忆机制,属于Agent Memory的核心内容。
论文信息