Agent Safety Memory Evolution Trustworthy AI Self-Improvement
摘要

代理记忆的测试时进化是通过经验积累增强复杂推理以实现 AGI 的关键范式。然而,即使在良性任务进化中,代理的安全对齐依然脆弱,即“代理记忆误进化”现象。为此,本文构建 Trust-Memevo 基准评估多维可信度,发现其普遍下降。针对该问题,提出 TAME 双记忆进化框架:分别进化执行器记忆以提炼通用方法提升性能,进化评估器记忆以基于历史反馈优化安全与效用评估。通过闭环机制,TAME 在不牺牲效用的前提下保持可信度,实验表明其有效缓解误进化,实现双重提升。

AI 推荐理由

论文核心提出测试时记忆进化框架,解决记忆误进化问题,属自我进化范畴。

研究机构
华东师范大学, 上海, 中国 上海人工智能实验室, 上海, 中国 华为诺亚方舟实验室, 英国 上海交通大学, 上海, 中国
论文信息
作者 Yu Cheng, Jiuan Zhou, Yongkang Hu, Yihang Chen, Huichi Zhou et al.
发布日期 2026-02-03
arXiv ID 2602.03224
相关性评分 9/10 (高度相关)