Parallel Thinking Reasoning Efficiency Adaptive Computation Cost Optimization
摘要

并行思维通过多路径采样与聚合增强大语言模型的推理能力。然而,系统级统一分配的大规模并行度导致简单样本存在预算冗余,形成“过缩放诅咒”。本文形式化并量化了该现象,分析其触发机制,并提出轻量级方法 T2。该方法利用潜在表示在解码前估计每个样本的最佳并行度。实验表明,T2 在保持性能相当的同时显著降低了成本,实现了更高效的并行推理。

AI 推荐理由

论文核心研究通过并行思维优化 LLM 推理效率,解决过缩放问题。

研究机构
中国科学院
论文信息
作者 Yiming Wang, Zhuosheng Zhang, Rui Wang
发布日期 2026-01-29
arXiv ID 2601.21619
相关性评分 9/10 (高度相关)