LLM 规划 推理 知识图谱 基准测试
摘要

本文介绍了LLM-Wikirace,一个用于评估大型语言模型(LLMs)规划、推理和世界知识能力的基准测试。在LLM-Wikirace中,模型必须逐步高效地通过维基百科超链接从给定源页面导航到目标页面,这需要前瞻规划和对现实世界中概念连接关系的推理能力。我们评估了包括Gemini-3、GPT-5和Claude Opus 4.5在内的多种开源和闭源模型,这些模型在任务的简单级别上表现优异,但在困难级别上性能显著下降。分析表明,世界知识是成功的关键因素之一,但超过一定阈值后,规划和长时程推理能力成为主导因素。轨迹级分析进一步揭示,即使是最强的模型在失败后也难以重新规划,常陷入循环而非恢复。LLM-Wikirace是一个简单的基准测试,揭示了当前推理系统的明显局限性,为具备规划能力的LLMs提供了一个开放的竞技场。

AI 推荐理由

论文涉及长期规划和推理,与Agent Memory相关,但非核心主题。

论文信息
作者 Juliusz Ziomek, William Bankes, Lorenz Wolf, Shyam Sundhar Ramesh, Xiaohang Tang et al.
发布日期 2026-02-18
arXiv ID 2602.16902
相关性评分 6/10 (相关)