摘要
大型语言模型(LLMs)在执行长期、现实任务方面的能力不断增强。然而,随着上下文长度的增加,其可靠性往往会下降,这种现象被称为“上下文腐化”。现有的长上下文基准主要关注单步设置,评估模型从长片段中检索信息的能力。但在实际场景中,LLMs通常需要作为代理,在动态增长的上下文中探索环境、遵循指令和计划、提取有用信息并预测正确操作。为此,我们引入了LOCA-bench(用于长上下文代理的基准)。给定一个任务提示,LOCA-bench利用对环境状态的自动化和可扩展控制来调节代理的上下文长度。该设计使LOCA-bench能够在受控方式下将上下文长度潜在地扩展到无限,同时保持底层任务语义不变。LOCA-bench评估语言代理,包括模型和辅助结构的组合,涵盖各种上下文管理策略。尽管随着环境状态变得复杂,代理性能通常会下降,但先进的上下文管理技术可以显著提高整体成功率。我们开源了LOCA-bench,以提供一个平台,用于评估长上下文、代理场景中的模型和辅助结构。
AI 推荐理由
论文聚焦于长上下文场景下的Agent性能评估,涉及上下文管理策略,与Agent Memory机制密切相关。
论文信息