Mil-SCORE：基准测试大语言模型的长上下文地理空间推理与规划能力

Long-Context Geospatial Reasoning Military Planning Benchmark

摘要

随着大语言模型应用于更长更复杂的任务，亟需能整合多模态信息的真实长上下文基准。本文提出 Mil-SCORE，这是首个基于专家撰写的复杂模拟军事规划场景的数据集，旨在评估高风险决策与规划能力。该基准通过七类问题探测模型结合战术与空间推理、处理长程地理丰富上下文的能力。评估结果显示当前系统在真实场景级长上下文规划方面仍存在显著不足，为未来研究提供了极具挑战性的测试平台。

AI 推荐理由

论文核心聚焦于评估 LLM 在复杂军事场景下的长程地理空间规划与多步推理能力。

研究机构

马里兰大学学院公园分校，美国南佛罗里达大学工程研究实验室，美国约翰·霍普金斯大学贝赫普克实验室，美国

论文信息

作者 Aadi Palnitkar, Mingyang Mao, Nicholas Waytowich, Vinicius G. Goecks, Xiaomin Lin

发布日期 2026-01-29

arXiv ID 2601.21826