信息抽取 状态维护 LLM评估 多轮对话 博弈论
摘要

评估大型语言模型(LLMs)的战略推理能力需要超越静态基准,转向动态、多轮交互。我们引入了AIDG(对抗性信息推断游戏),一个博弈论框架,用于探测对话中信息抽取(主动推断)与信息包含(状态维护)之间的不对称性。我们提出了两个互补任务:AIDG-I,测量社交推断中的实用策略;AIDG-II,测量结构化“20个问题”设置中的约束满足。在439场游戏中,使用六种前沿LLM进行测试,观察到明显的能力建设不对称性:模型在信息包含方面表现显著优于信息推断,防御方面具有350 ELO的优势(Cohen's d = 5.47)。我们识别出导致这一差距的两个瓶颈:(1)信息动态,其中确认策略比盲目推断有效7.75倍(p < 0.00001),以及(2)约束遵循,在对话负载下指令遵循能力下降,占推断失败的41.3%。这些发现表明,尽管LLMs在局部防御一致性方面表现出色,但在战略调查所需的全局状态跟踪方面存在困难。

AI 推荐理由

论文探讨了对话中信息提取与信息保持的不对称性,涉及状态维护,与Agent Memory相关。

论文信息
作者 Adib Sakhawat, Fardeen Sadab, Rakin Shahriar
发布日期 2026-02-19
arXiv ID 2602.17443
相关性评分 6/10 (相关)