Mathematical Reasoning DPO Alignment Exploration Strategy
摘要

迭代直接偏好优化已成为大语言模型推理任务对齐的最先进范式。标准实现依赖大规模采样挖掘黄金轨迹。本文挑战该缩放假设,揭示在数学推理中激进探索会导致收益递减甚至策略崩溃。理论证明扩大采样会放大验证噪声并引发有害分布偏移。为此,作者提出 PACE 方法,以基于生成的修正策略替代暴力挖掘,仅需极小预算即可合成高保真偏好对。实验表明,PACE 在仅用约五分之一算力的情况下优于大规模采样基线,展现出更强的鲁棒性。

AI 推荐理由

论文核心解决数学推理任务中的对齐问题,提出新算法提升推理能力。

研究机构
Harbin Institute of Technology, Shenzhen, China Huawei Large Model Data Technology Lab Department of Statistics and Data Science Tsinghua University, Beijing, China
论文信息
作者 Jun Rao, Zixiong Yu, Xuebo Liu, Guhan Chen, Jing Li et al.
发布日期 2026-02-05
arXiv ID 2602.05370
相关性评分 9/10 (高度相关)