摘要
大型语言模型(LLM)结合思维链(CoT)虽表现优异,但常伴随冗余推理过程。本文提出一种基于激活引导的自采样框架,旨在赋予 LLM 类似人类系统 1 的快速推理模式。该方法无需教师指导即可从目标模型中生成风格一致且长度可变的推理轨迹,缓解了监督微调对高质量数据的依赖。通过引入类人双认知系统及渐进式压缩课程,并在无黄金答案支持下探索自我进化机制,实验表明该方法在数学及医学跨域任务中均显著提升了通用及 R1 风格模型的推理效率与性能。
AI 推荐理由
论文核心研究通过自采样和激活引导优化思维链(CoT),实现高效推理,直接针对推理能力。
研究机构
哈尔滨工业大学
新加坡国立大学
论文信息