Agent Evaluation Data-Intensive Tasks Code Generation Benchmark
摘要

随着高级智能体展现出自主工程师的潜力,亟需能反映真实开发复杂性的评估基准。现有基准往往孤立评估代码或数据能力,与实际场景存在差距。本文提出 CODA-BENCH,首个在数据密集环境中联合评估代码与数据智能的基准。该基准基于 Kaggle 生态构建数据密集型 Linux 沙箱,包含数百个数据集,要求智能体主动探索复杂文件层级以识别资源并生成数据分析代码。评测显示,即便顶尖系统在整合数据发现与代码执行方面仍显不足,成功率仅为 61.1%,揭示了当前能力的显著缺口。

AI 推荐理由

论文核心评估 Agent 在数据密集场景下的工具使用、文件探索及代码生成技能。

研究机构
Renmin University of China
论文信息
作者 Yuxin Zhang, Ju Fan, Meihao Fan, Shaolei Zhang, Xiaoyong Du
发布日期 2026-06-13
arXiv ID 2606.15300
相关性评分 8/10 (高度相关)