并非所有偏好都生而平等：面向推理模型的稳定性感知与梯度高效对齐

Preference Alignment Mathematical Reasoning DPO Curriculum Learning

摘要

基于偏好的对齐对于训练大型推理模型至关重要，但标准方法（如 DPO）通常均匀处理所有偏好对，忽视了训练实例效用的演变。这种静态方法常导致优化低效或不稳定。为此，本文提出 SAGE（稳定性感知梯度效率），一种通过最大化策略更新信噪比来增强对齐可靠性的动态框架。SAGE 结合了基于模型能力的粗粒度课程机制与细粒度的稳定性感知评分函数，优先选择信息丰富且置信的错误样本，过滤不稳定样本。实验表明，SAGE 在多个数学推理基准上显著加速收敛并优于静态基线。

AI 推荐理由

论文核心针对推理模型的对齐优化，提出动态框架提升数学推理能力。

研究机构

航空航天信息研究院百度公司中国科学院大学多伦多大学计算机科学系北京大学智能科学与技术学院

论文信息

作者 Hui Wu, Hengyi Cai, Jinman Zhao, Xinran Chen, Ziheng Li et al.

发布日期 2026-02-01

arXiv ID 2602.01207