LLM Agent Benchmark Dynamic Environment Reinforcement Learning
摘要

我们引入了Gaia2,这是一个用于评估大型语言模型代理在真实、异步环境中的基准。与以往的静态或同步评估不同,Gaia2引入了环境独立于代理动作演变的场景,要求代理在时间约束下运行,适应噪声和动态事件,解决歧义,并与其他代理协作。每个场景都配有一个写操作验证器,实现细粒度的动作级评估,使Gaia2可以直接用于基于可验证奖励的强化学习。我们对最先进的专有和开源模型进行了评估,结果显示没有一个模型在所有能力上占优:GPT-5(高)以42%的pass@1获得最强总体得分,但在时间敏感任务中失败;Claude-4 Sonnet以准确性和速度换取成本;Kimi-K2在开源模型中领先,pass@1为21%。这些结果突显了推理、效率和鲁棒性之间的根本权衡,并揭示了缩小“sim2real”差距的挑战。Gaia2建立在消费者环境之上,使用开源的Agents Research Environments平台构建,并设计为易于扩展。通过与基础ARE框架一起发布Gaia2,我们旨在为社区提供一个灵活的基础设施,用于开发、基准测试和训练下一代实用代理系统。

AI 推荐理由

论文涉及Agent在动态环境中的行为评估,与记忆相关但非核心主题。

论文信息
作者 Romain Froger, Pierre Andrews, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral et al.
发布日期 2026-02-12
arXiv ID 2602.11964
相关性评分 6/10 (相关)