摘要
现有工具集成推理模型在处理开放性问题时受限,且缺乏自我优化机制。本文提出 UCT 框架,无需额外训练即可将智能体从工具使用者转化为工具创造者。该方法挖掘推理轨迹中的隐含能力,将其蒸馏为可复用资产,并引入记忆巩固机制维护工具库,支持推理过程中的自适应工具创建与自我更新。实验表明,该范式在数学与科学推理任务中显著提升了模型性能,验证了智能体的自我进化能力。
AI 推荐理由
论文核心提出无训练的自我进化框架,实现从工具使用者到创造者的转变及自我优化。
研究机构
Li Auto
论文信息