Game Theory Tool Use Strategic Reasoning Poker
摘要

随着大语言模型应用于高风险领域,其在不确定性下的战略推理能力至关重要。本文系统评估了 LLM 在扑克任务中的表现,发现其存在依赖启发式、事实误解及“知行差距”等缺陷。针对这些局限,作者提出了 ToolPoker 框架,该框架结合外部求解器生成符合博弈论最优策略的行动,并提供专业的推理解释。实验表明,ToolPoker 不仅实现了最先进的游戏水平,其生成的推理轨迹也紧密反映了博弈论原则。

AI 推荐理由

论文核心研究 LLM 在不确定性下的博弈论推理能力,提出工具增强框架以解决推理与行动脱节问题。

研究机构
宾夕法尼亚州立大学 清华大学 微软
论文信息
作者 Minhua Lin, Enyan Dai, Hui Liu, Xianfeng Tang, Yuliang Yan et al.
发布日期 2026-01-31
arXiv ID 2602.00528
相关性评分 9/10 (高度相关)