Self-Improvement Pretraining Reinforcement Learning Model Safety Factuality
摘要

确保大语言模型生成的安全性、事实性及整体质量至关重要。现有方法依赖昂贵的数据集和多阶段微调,却难以修正预训练中习得的不良模式。本文提出一种新的预训练方法,通过流式文档和强化学习逐步优化生成的令牌。该方法利用强大的后训练模型作为评判者,对候选生成内容进行质量、安全性和事实性评估。实验表明,该方法在事实性和安全性上分别提升了 36.2% 和 18.5%,整体生成质量胜率提升高达 86.3%,实现了从底层构建更优质模型的目标。

AI 推荐理由

论文提出利用后训练模型通过强化学习在预训练阶段自我改进,核心聚焦于模型的自我进化与质量提升机制。

研究机构
Meta
论文信息
作者 Ellen Xiaoqing Tan, Shehzaad Dhuliawala, Jing Xu, Ping Yu, Sainbayar Sukhbaatar et al.
发布日期 2026-01-29
arXiv ID 2601.21343
相关性评分 9/10 (高度相关)