CODA-BENCH：代码智能体能否处理数据密集型任务？

Agent Evaluation Data-Intensive Tasks Code Generation Benchmark

摘要

随着高级智能体展现出自主工程师的潜力，亟需能反映真实开发复杂性的评估基准。现有基准往往孤立评估代码或数据能力，与实际场景存在差距。本文提出 CODA-BENCH，首个在数据密集环境中联合评估代码与数据智能的基准。该基准基于 Kaggle 生态构建数据密集型 Linux 沙箱，包含数百个数据集，要求智能体主动探索复杂文件层级以识别资源并生成数据分析代码。评测显示，即便顶尖系统在整合数据发现与代码执行方面仍显不足，成功率仅为 61.1%，揭示了当前能力的显著缺口。

AI 推荐理由

论文核心评估 Agent 在数据密集场景下的工具使用、文件探索及代码生成技能。

研究机构

Renmin University of China

论文信息

作者 Yuxin Zhang, Ju Fan, Meihao Fan, Shaolei Zhang, Xiaoyong Du

发布日期 2026-06-13

arXiv ID 2606.15300