Agent 评估 代码生成 基准测试 工具使用
摘要

通用 Agent(如 OpenClaw)作为自主工具用户日益普及,但其编码能力难以在 SWE-bench 上直接衡量。本文提出 Claw-SWE-Bench,一个多语言基准及适配器协议,使异构 Agent 框架能在公平设置下进行比较。基准包含 350 个跨 8 种语言的 GitHub 问题修复实例。实验表明,适配器设计对发挥 Agent 编码能力至关重要,模型选择与框架选择均显著影响通过率与 API 成本。该研究将框架设计与成本核算视为编码 Agent 评估的核心维度。

AI 推荐理由

论文聚焦代码任务中 Agent 的工具适配与技能评估,核心在于提升编码技能表现。

研究机构
TokenRhythm Technologies Infinitence AI City University of Hong Kong SEE Fund Peking University Shanghai Jiaotong University Beijing Jiaotong University Fanghua University
论文信息
作者 Mengyu Zheng, Kai Han, Boxun Li, Haiyang Xu, Yuchuan Tian et al.
发布日期 2026-06-10
arXiv ID 2606.12344
相关性评分 8/10 (高度相关)