摘要
大型语言模型常表现出意外错误。本研究通过合成算术任务训练 Transformer,发现其未按人类顺序规则构建技能组合,而是逆序或并行习得,导致分布偏移下出现混合错误,即“破碎的组合性”。证据表明,这种动态源于对训练数据的相关性匹配而非因果组合。该现象在现代 LLM 中持续存在,且无法通过单纯扩大模型规模或基于草稿纸的推理缓解,揭示了模型学习与期望技能组合间的根本错位,影响推理可靠性与对齐。
AI 推荐理由
核心研究 Transformer 在算术推理中的技能组合机制与学习动态,揭示推理可靠性问题。
研究机构
威斯康星大学麦迪逊分校
论文信息