程序预训练：用抽象数据预热语言模型

pretraining logical reasoning structured data model efficiency

摘要

本文提出一种替代大规模网页语料预训练的范式，即先让模型接触由形式语言生成的抽象程序数据，以模拟人类先学习逻辑再掌握高阶知识的过程。研究发现，仅需 0.1% 的程序数据即可显著提升模型在上下文回忆等算法任务上的表现，并加速预训练收敛。机制分析表明，该方法在注意力层和 MLP 层注入了结构化特征，有效解耦了知识获取与推理能力的学习，为提升大模型推理性能提供了轻量级方案。

AI 推荐理由

论文核心研究通过抽象程序数据预训练提升模型逻辑与算法推理能力。

研究机构

艾弗尔研究机构 (IEFFL) 澳大利亚机器学习研究所 (AIML)，阿德莱德大学

论文信息

作者 Liangze Jiang, Zachary Shinnick, Anton van den Hengel, Hemanth Saratchandran, Damien Teney

发布日期 2026-01-29

arXiv ID 2601.21725