摘要
针对具身 AI 依赖人工调优的瓶颈,本文提出 EmboCoach-Bench 基准,评估 LLM 智能体自主工程化具身策略的能力。该框架涵盖 32 个任务,以可执行代码为接口,构建利用环境反馈进行起草、调试和优化的动态闭环工作流。实验表明,自主智能体成功率超越人工基线 26.5%,且具备通过迭代调试从失败中恢复的自我修正能力,推动了具身智能向自进化范式转变。
AI 推荐理由
论文核心在于智能体通过环境反馈迭代调试、优化策略,实现自我修正与进化。
研究机构
上海交通大学人工智能学院
中国科学院自动化研究所
上海交通大学集成电路学院
北京大学计算机学院
上海交通大学计算机科学与技术学院
论文信息