EmboCoach-Bench：评估 AI 智能体在开发具身机器人方面的能力基准

Embodied AI Self-Evolution LLM Agents Reinforcement Learning Automated Engineering

摘要

针对具身 AI 依赖人工调优的瓶颈，本文提出 EmboCoach-Bench 基准，评估 LLM 智能体自主工程化具身策略的能力。该框架涵盖 32 个任务，以可执行代码为接口，构建利用环境反馈进行起草、调试和优化的动态闭环工作流。实验表明，自主智能体成功率超越人工基线 26.5%，且具备通过迭代调试从失败中恢复的自我修正能力，推动了具身智能向自进化范式转变。

AI 推荐理由

论文核心在于智能体通过环境反馈迭代调试、优化策略，实现自我修正与进化。

研究机构

上海交通大学人工智能学院中国科学院自动化研究所上海交通大学集成电路学院北京大学计算机学院上海交通大学计算机科学与技术学院

论文信息

作者 Zixing Lei, Genjia Liu, Yuanshuo Zhang, Qipeng Liu, Chuan Wen et al.

发布日期 2026-01-29

arXiv ID 2601.21570