摘要
近年来,大型语言模型(LLMs)在代理系统中展现出巨大潜力,其长期规划和决策能力成为适应多样化场景的关键。实时战略(RTS)游戏是评估这些能力的理想测试平台,但现有环境计算需求高或缺乏文本观察支持。为此,本文提出TowerMind,一个基于塔防(TD)子类的RTS游戏环境,具有低计算需求和多模态观测空间(像素、文本和结构化状态)。该环境支持模型幻觉评估和高度定制性,并设计了五个基准关卡来测试多个常用LLM在不同输入设置下的表现。实验结果显示LLM在能力和幻觉维度上与人类专家存在显著差距,并揭示了LLM行为中的关键限制,如规划验证不足、决策缺乏多目标性和动作使用效率低。此外,还评估了两种经典强化学习算法。TowerMind通过轻量级和多模态设计,补充了现有RTS环境,并为AI代理领域引入了新基准。
AI 推荐理由
论文涉及LLM作为Agent在游戏环境中的决策与规划,间接关联记忆机制,但非核心主题。
论文信息