摘要
随着高级智能体展现出自主工程师的潜力,亟需能反映真实开发复杂性的评估基准。现有基准往往孤立评估代码或数据能力,与实际场景存在差距。本文提出 CODA-BENCH,首个在数据密集环境中联合评估代码与数据智能的基准。该基准基于 Kaggle 生态构建数据密集型 Linux 沙箱,包含数百个数据集,要求智能体主动探索复杂文件层级以识别资源并生成数据分析代码。评测显示,即便顶尖系统在整合数据发现与代码执行方面仍显不足,成功率仅为 61.1%,揭示了当前能力的显著缺口。
AI 推荐理由
论文核心评估 Agent 在数据密集场景下的工具使用、文件探索及代码生成技能。
研究机构
Renmin University of China
论文信息