摘要
自主机器学习代理已彻底改变了科学发现,但它们仍受限于生成-执行-反馈范式。现有方法因依赖昂贵的物理执行而面临严重执行瓶颈。为克服这些限制,本文借鉴世界模型的思想,将执行先验内化,以即时预测推理替代高成本的运行时检查。本文形式化了数据为中心的解决方案偏好任务,并构建了一个包含18,438对比较的综合语料库。实验表明,在使用经过验证的数据分析报告进行引导后,LLM展现出显著的预测能力,准确率达到61.5%,并具有稳健的置信度校准。最后,本文在FOREAGENT代理中实现了这一框架,采用预测-验证循环,收敛速度提升6倍,且优于基于执行的基线方法6%。
AI 推荐理由
论文涉及预测执行机制,与Agent Memory中的预测和验证机制相关,但非核心主题。
论文信息