摘要
大型语言模型代理在推动科学研究方面展现出巨大潜力。为加速这一进程,我们引入了AIRS-Bench(人工智能科学研究基准),该基准包含20个来自最新机器学习论文的任务,涵盖语言建模、数学、生物信息学和时间序列预测等多个领域。这些任务评估代理在整个研究生命周期中的能力,包括想法生成、实验分析和迭代优化,且不提供基线代码。AIRS-Bench任务格式灵活,便于新任务的集成和不同代理框架之间的严格比较。我们使用前沿模型结合顺序和并行框架建立了基线。结果显示,代理在四个任务中超越了人类最先进水平,但在其他十六个任务中未能达到。即使代理超过人类基准,它们也未达到相关任务的理论性能上限。这些发现表明,AIRS-Bench仍有很大改进空间。我们开源了AIRS-Bench任务定义和评估代码,以促进自主科学研究的进一步发展。
AI 推荐理由
论文涉及Agent能力评估,但未明确讨论Memory机制或系统。
论文信息