大型语言模型高效推理时调度的预测性调度

推理优化计算效率动态预算分配思维链

摘要

大型语言模型通过生成多条思维链轨迹在复杂推理任务中达到最先进水平，但固定令牌预算导致简单输入过计算、困难输入欠计算。本文提出预测性调度框架，利用轻量级预测器（基于中间隐藏状态的 MLP 或原始文本的 LoRA 分类器）预估查询的最佳推理长度或难度。贪婪批量分配器动态分配固定总令牌预算以最大化预期准确率。在 GSM8K 基准测试中，该方法在相同令牌成本下比均匀预算提高高达 7.9% 的绝对准确率，缩小了与完美预言机超过 50% 的差距。

AI 推荐理由

论文核心研究通过预测调度优化推理时的计算预算分配，直接提升复杂推理任务效率。

研究机构

哈佛大学哈佛大学SEAS

论文信息

作者 Katrina Brown, Aneesh Muppidi, Rana Shahout

发布日期 2026-02-01

arXiv ID 2602.01237