摘要
基于偏好的对齐对于训练大型推理模型至关重要,但标准方法(如 DPO)通常均匀处理所有偏好对,忽视了训练实例效用的演变。这种静态方法常导致优化低效或不稳定。为此,本文提出 SAGE(稳定性感知梯度效率),一种通过最大化策略更新信噪比来增强对齐可靠性的动态框架。SAGE 结合了基于模型能力的粗粒度课程机制与细粒度的稳定性感知评分函数,优先选择信息丰富且置信的错误样本,过滤不稳定样本。实验表明,SAGE 在多个数学推理基准上显著加速收敛并优于静态基线。
AI 推荐理由
论文核心针对推理模型的对齐优化,提出动态框架提升数学推理能力。
研究机构
航空航天信息研究院
百度公司
中国科学院大学
多伦多大学计算机科学系
北京大学智能科学与技术学院
论文信息