自我改进预训练：利用后训练模型来预训练出更好的模型

Self-Improvement Pretraining Reinforcement Learning Model Safety Factuality

摘要

确保大语言模型生成的安全性、事实性及整体质量至关重要。现有方法依赖昂贵的数据集和多阶段微调，却难以修正预训练中习得的不良模式。本文提出一种新的预训练方法，通过流式文档和强化学习逐步优化生成的令牌。该方法利用强大的后训练模型作为评判者，对候选生成内容进行质量、安全性和事实性评估。实验表明，该方法在事实性和安全性上分别提升了 36.2% 和 18.5%，整体生成质量胜率提升高达 86.3%，实现了从底层构建更优质模型的目标。

AI 推荐理由

论文提出利用后训练模型通过强化学习在预训练阶段自我改进，核心聚焦于模型的自我进化与质量提升机制。

研究机构