连续效用直接偏好优化

Direct Preference Optimization Mathematical Reasoning Fine-grained Alignment

摘要

大型语言模型的推理常被视为单一能力，依赖二元偏好监督，难以捕捉部分进展或细粒度推理质量。本文提出连续效用直接偏好优化（CU-DPO）框架，用反映细粒度推理质量的连续分数替代二元标签，使模型与基于提示的认知策略组合对齐。理论证明该方法是熵正则化效用最大化策略。提出的两阶段训练流程包括策略选择和执行细化。在数学推理基准测试中，CU-DPO 将策略选择准确率从 35-46% 提升至 68-78%，并在分布内数据集上获得高达 6.6 分的推理增益，且能有效迁移至分布外任务。

AI 推荐理由

论文核心提出 CU-DPO 框架，通过细粒度评分优化数学推理质量与策略选择，显著提升推理能力。

研究机构

未提供单位

论文信息

作者 Muhammad Ahmed Mohsin, Muhammad Umer, Ahsan Bilal, Zihao He, Muhammad Usman Rafique et al.

发布日期 2026-01-31

arXiv ID 2602.00931