Self-Consistency Inference Efficiency Reasoning Trajectories Prefix Clustering
摘要

大语言模型虽具备强大推理能力,但自一致性等推断策略计算成本高昂。本文提出 PoLR,一种利用前缀一致性实现高效推理的推断时方法。该方法通过聚类推理轨迹的短前缀,识别主导簇并仅扩展该簇内路径,在保持自一致性精度优势的同时,显著降低令牌用量与延迟。理论与实验表明,PoLR 在多个基准测试中表现优异,可减少高达 60% 的令牌使用及 50% 的延迟,且无需微调即可作为现有方法的预过滤器。

AI 推荐理由

论文提出利用前缀一致性引导推理轨迹,核心解决 LLM 推理效率与准确性平衡问题。

研究机构
富士通研究印度 三星印度研究院
论文信息
作者 Ishan Jindal, Sai Prashanth Akuthota, Jayant Taneja, Sachin Dev Sharma
发布日期 2026-01-29
arXiv ID 2601.21494
相关性评分 9/10 (高度相关)