摘要
真正的自我进化要求智能体作为终身学习者,将新经验内化以解决未来问题。然而,严格衡量这一基础能力受到两个障碍的限制:先验知识的纠缠,即“新”知识可能出现在预训练数据中;以及推理复杂性的纠缠,即失败可能源于问题难度而非无法回忆已学知识。本文引入SE-Bench,一个诊断环境,通过模糊NumPy库及其API文档为伪新包,并使用随机标识符。智能体被训练以内化该包,并在无文档访问的情况下进行简单编码任务评估,从而创建了一个干净的环境:拥有新API文档的任务对基础模型而言是简单的,而没有文档则不可能完成。研究揭示了三个发现:(1) 开放书籍悖论,使用参考文档训练会抑制保留,需要“闭书训练”来强制知识压缩到权重中;(2) 强化学习差距,标准RL因PPO裁剪和负梯度无法完全内化新知识;(3) 自我博弈对内化的可行性,证明当结合SFT时,模型可以从自生成的噪声任务中学习,但不能通过RL实现。总体而言,SE-Bench建立了用于知识内化自我进化的严格诊断平台。
AI 推荐理由
论文探讨了知识内化与自我进化,涉及记忆机制在长期学习中的作用。
论文信息