TAME：具有系统基准测试的可信代理记忆测试时进化

Agent Safety Memory Evolution Trustworthy AI Self-Improvement

摘要

代理记忆的测试时进化是通过经验积累增强复杂推理以实现 AGI 的关键范式。然而，即使在良性任务进化中，代理的安全对齐依然脆弱，即“代理记忆误进化”现象。为此，本文构建 Trust-Memevo 基准评估多维可信度，发现其普遍下降。针对该问题，提出 TAME 双记忆进化框架：分别进化执行器记忆以提炼通用方法提升性能，进化评估器记忆以基于历史反馈优化安全与效用评估。通过闭环机制，TAME 在不牺牲效用的前提下保持可信度，实验表明其有效缓解误进化，实现双重提升。

AI 推荐理由

论文核心提出测试时记忆进化框架，解决记忆误进化问题，属自我进化范畴。

研究机构

华东师范大学, 上海, 中国上海人工智能实验室, 上海, 中国华为诺亚方舟实验室, 英国上海交通大学, 上海, 中国

论文信息

作者 Yu Cheng, Jiuan Zhou, Yongkang Hu, Yihang Chen, Huichi Zhou et al.

发布日期 2026-02-03

arXiv ID 2602.03224