通过身份桥打破自回归语言模型中的反转诅咒

reversal curse logical reasoning implicit bias data recipe

摘要

自回归大语言模型虽在复杂任务中表现优异，却在“反转诅咒”等简单逻辑推理上失效，即无法从正向知识推导逆向关系。现有研究认为这是因果模型的固有局限。本文挑战该观点，提出一种名为“身份桥”的正则化数据策略（形式为 A→A），仅需微调训练数据即可缓解此问题。理论证明即使单层 Transformer 也能借此打破反转诅咒；实验显示，经该策略微调的 1B 模型在反转任务上的成功率达 40%，远超仅用正向数据训练的近乎零成功率。

AI 推荐理由

论文核心解决自回归模型在简单逻辑推理（反转诅咒）中的失败，提出新机制提升推理能力。

研究机构

加州大学伯克利分校

论文信息

作者 Xutao Ma, Yixiao Huang, Hanlin Zhu, Somayeh Sojoudi

发布日期 2026-02-02

arXiv ID 2602.02470