摘要
随着大语言模型应用于高风险领域,其在不确定性下的战略推理能力至关重要。本文系统评估了 LLM 在扑克任务中的表现,发现其存在依赖启发式、事实误解及“知行差距”等缺陷。针对这些局限,作者提出了 ToolPoker 框架,该框架结合外部求解器生成符合博弈论最优策略的行动,并提供专业的推理解释。实验表明,ToolPoker 不仅实现了最先进的游戏水平,其生成的推理轨迹也紧密反映了博弈论原则。
AI 推荐理由
论文核心研究 LLM 在不确定性下的博弈论推理能力,提出工具增强框架以解决推理与行动脱节问题。
研究机构
宾夕法尼亚州立大学
清华大学
微软
论文信息