摘要
随着大语言模型(LLMs)在编程任务中的持续进步,LLM驱动的编码系统已从一次性代码生成演变为能够在推理过程中进行迭代改进的复杂系统。然而,现有的代码基准主要强调静态正确性,并隐式假设推理过程中的模型能力是固定的,因此无法捕捉推理时的自我进化过程,如准确性与效率是否随代理逐步优化解决方案而提高。此外,这些基准对资源成本的考量有限,也很少将模型性能与人类程序员进行校准。许多基准还以高资源语言为主,导致跨语言鲁棒性和长尾语言稳定性研究不足。为此,我们提出了EvoCodeBench,一个用于评估跨编程语言的自进化LLM驱动编码系统的基准,并直接与人类表现进行比较。EvoCodeBench跟踪性能动态变化,测量解决方案的正确性以及效率指标,如求解时间、内存消耗和改进算法设计。为了以人类为中心进行评估,我们在相同任务上直接比较模型与人类程序员的表现,从而在人类能力分布范围内进行相对性能评估。此外,EvoCodeBench支持多种编程语言,使跨语言和长尾语言稳定性分析成为可能。我们的结果表明,自进化系统在效率方面表现出可衡量的提升,而相对于人类和多语言分析则提供了仅凭准确率无法获得的见解。EvoCodeBench为评估演化中的LLM驱动系统的编码智能奠定了基础。
AI 推荐理由
论文涉及LLM在编码任务中的迭代改进,与Agent Memory相关但非核心主题。
论文信息