主动因果实验员 (ACE)：通过直接偏好优化学习干预策略

Causal Discovery Sequential Decision Making Direct Preference Optimization Active Learning

摘要

发现因果关系需受控实验，但实验者面临序列决策难题：每次干预揭示的信息应指导后续尝试。传统方法孤立处理决策，无法从经验中学习自适应策略。本文提出主动因果实验员（ACE），将实验设计建模为序列策略。针对绝对信息增益递减导致价值型强化学习不稳定的问题，ACE 利用直接偏好优化，通过成对干预比较而非非平稳奖励幅度进行学习。实验表明，ACE 在同等预算下较基线提升 70-71%，并能自主发现针对碰撞机制的理论驱动策略。

AI 推荐理由

论文核心研究智能体在因果发现中的序列决策与自适应干预策略规划。

研究机构

美国科罗拉多大学博尔德分校

论文信息

作者 Patrick Cooper, Alvaro Velasquez

发布日期 2026-02-02

arXiv ID 2602.02451