打破过缩放诅咒：在并行思考之前先思考并行度

Parallel Thinking Reasoning Efficiency Adaptive Computation Cost Optimization

摘要

并行思维通过多路径采样与聚合增强大语言模型的推理能力。然而，系统级统一分配的大规模并行度导致简单样本存在预算冗余，形成“过缩放诅咒”。本文形式化并量化了该现象，分析其触发机制，并提出轻量级方法 T2。该方法利用潜在表示在解码前估计每个样本的最佳并行度。实验表明，T2 在保持性能相当的同时显著降低了成本，实现了更高效的并行推理。

AI 推荐理由

论文核心研究通过并行思维优化 LLM 推理效率，解决过缩放问题。

研究机构

中国科学院

论文信息

作者 Yiming Wang, Zhuosheng Zhang, Rui Wang

发布日期 2026-01-29

arXiv ID 2601.21619