摘要
智能体编码需要代理有效地与运行时环境(如命令行界面)交互,以完成诸如解决依赖问题、修复系统问题等任务。然而,如何在大规模上获取此类环境密集型任务以增强代理能力仍是一个未被充分探索的问题。为此,本文基于Dockerfile与智能体任务之间的类比,提出利用代理模拟和探索环境历史,并通过执行反馈进行指导。通过追踪健康环境的历史状态,将其逆向为具有运行时故障的早期状态,从而生成包含错误状态和相应错误信息的任务。通过该方法,名为CLI-Gym的系统共生成了1,655个环境密集型任务,是同类任务的最大集合。此外,结合精心整理的成功轨迹,本文提出的微调模型LiberCoder在Terminal-Bench基准测试中实现了显著的绝对提升(+21.1%,达到46.1%),优于多种强基线模型。据我们所知,这是首个用于可扩展生成环境密集型任务的公开流程。
AI 推荐理由
论文涉及通过环境历史倒推生成任务,与Agent Memory相关但非核心主题。
论文信息