摘要
大型推理模型(LRM)受益于竞赛级难题的训练,但现有自动合成方法缺乏精确的难度控制且成本高昂。本文提出 CoDiQ 框架,利用测试时扩展实现细粒度难度控制并确保可解性。研究发现了推理令牌预算与难度及可解性间的权衡关系,并开发了基于 Qwen3-8B 的生成器以突破生成上限。构建的包含 4.4 万题目的 CoDiQ 语料库经评估显著优于现有基准,且在该数据上训练的模型推理性能大幅提升,验证了可控难度训练对推理能力的增强作用。
AI 推荐理由
论文核心在于通过生成可控难度的竞赛级问题来增强大模型的推理能力,直接针对推理性能提升。
研究机构
复旦大学
上海创新研究院
M-A-P
论文信息