摘要
代理记忆的测试时进化是通过经验积累增强复杂推理以实现 AGI 的关键范式。然而,即使在良性任务进化中,代理的安全对齐依然脆弱,即“代理记忆误进化”现象。为此,本文构建 Trust-Memevo 基准评估多维可信度,发现其普遍下降。针对该问题,提出 TAME 双记忆进化框架:分别进化执行器记忆以提炼通用方法提升性能,进化评估器记忆以基于历史反馈优化安全与效用评估。通过闭环机制,TAME 在不牺牲效用的前提下保持可信度,实验表明其有效缓解误进化,实现双重提升。
AI 推荐理由
论文核心提出测试时记忆进化框架,解决记忆误进化问题,属自我进化范畴。
研究机构
华东师范大学, 上海, 中国
上海人工智能实验室, 上海, 中国
华为诺亚方舟实验室, 英国
上海交通大学, 上海, 中国
论文信息