摘要
通用 Agent(如 OpenClaw)作为自主工具用户日益普及,但其编码能力难以在 SWE-bench 上直接衡量。本文提出 Claw-SWE-Bench,一个多语言基准及适配器协议,使异构 Agent 框架能在公平设置下进行比较。基准包含 350 个跨 8 种语言的 GitHub 问题修复实例。实验表明,适配器设计对发挥 Agent 编码能力至关重要,模型选择与框架选择均显著影响通过率与 API 成本。该研究将框架设计与成本核算视为编码 Agent 评估的核心维度。
AI 推荐理由
论文聚焦代码任务中 Agent 的工具适配与技能评估,核心在于提升编码技能表现。
研究机构
TokenRhythm Technologies
Infinitence AI
City University of Hong Kong
SEE Fund
Peking University
Shanghai Jiaotong University
Beijing Jiaotong University
Fanghua University
论文信息