摘要
大型语言模型的推理常被视为单一能力,依赖二元偏好监督,难以捕捉部分进展或细粒度推理质量。本文提出连续效用直接偏好优化(CU-DPO)框架,用反映细粒度推理质量的连续分数替代二元标签,使模型与基于提示的认知策略组合对齐。理论证明该方法是熵正则化效用最大化策略。提出的两阶段训练流程包括策略选择和执行细化。在数学推理基准测试中,CU-DPO 将策略选择准确率从 35-46% 提升至 68-78%,并在分布内数据集上获得高达 6.6 分的推理增益,且能有效迁移至分布外任务。
AI 推荐理由
论文核心提出 CU-DPO 框架,通过细粒度评分优化数学推理质量与策略选择,显著提升推理能力。
研究机构
未提供单位
论文信息