摘要
针对深度学习代理缺乏对底层因果游戏机制理解的问题,本文研究了大语言模型(LLM)的因果归纳能力,即从观测数据中推断支配规律。任务设定为让 LLM 根据游戏轨迹逆向工程视频游戏描述语言(VGDL)规则。研究对比了直接代码生成与基于结构因果模型(SCM)的两阶段方法。结果表明,SCM 方法生成的规则更接近真实情况,逻辑不一致性更少,在盲测中偏好胜率高达 81%。该方法可应用于因果强化学习及可解释代理等领域。
AI 推荐理由
核心研究利用 LLM 进行因果归纳与逻辑推理,从数据中推断游戏规则。
研究机构
莱布尼茨信息处理研究所,汉诺威大学,德国
SDU Metaverse 实验室,南丹麦大学,丹麦
论文信息