Agent Memory Cooperative Reasoning LLM Hanabi Context Engineering Working Memory
摘要

在不完全信息下的合作推理对人类和多智能体系统都是挑战。纸牌游戏Hanabi体现了这一挑战,需要心智理论推理和战略沟通。本文在2-5人游戏中评估了17种最先进的LLM代理,并研究了不同模型规模(4B到600B+)下上下文工程的影响,以理解持续的协调失败和对脚手架的鲁棒性。从仅包含显式卡片细节的最小提示(Watson设置),到基于程序化、贝叶斯动机的推断的脚手架(Sherlock设置),再到通过工作记忆进行多轮状态跟踪(Mycroft设置)。结果显示,(1)代理可以维持内部工作记忆用于状态跟踪;(2)不同LLM之间的跨玩性能随着模型强度平滑插值。在Sherlock设置中,最强的推理模型在平均得分上超过15分,但仍落后于经验丰富的玩家和专业Hanabi代理,后者得分均超过20分。我们发布了第一个公开的Hanabi数据集,包含注释轨迹和移动效用:(1)HanabiLogs,包含1,520个完整游戏日志用于指令调整;(2)HanabiRewards,包含560个带有密集移动级价值注释的游戏。使用我们的数据集对一个4B开源权重模型(Qwen3-Instruct)进行监督和强化学习微调,使合作Hanabi游戏表现分别提高了21%和156%,接近一个强大的专有推理模型(o4-mini)并超越最佳非推理模型(GPT-4.1)52%。进一步微调的HanabiRewards模型还超出了Hanabi任务,在合作组猜测基准上提升了11%,在EventQA的时间推理上提升了6.4%,在IFBench-800K的指令遵循上提升了1.7 Pass@10,并匹配AIME 2025数学推理的Pass@10。

AI 推荐理由

论文涉及LLM在合作推理中的工作记忆机制,但核心是战略通信与协调。

论文信息
作者 Mahesh Ramesh, Kaousheik Jayakumar, Aswinkumar Ramkumar, Pavan Thodima, Aniket Rege
发布日期 2026-01-26
arXiv ID 2601.18077
相关性评分 7/10 (相关)