摘要
基于采样的解码是大语言模型复杂推理的基础,但现有方法仅关注令牌概率,忽略了嵌入空间中令牌间的细粒度关系。本文发现“嵌入空间拥挤”现象,即下一令牌分布的概率质量集中在几何上相近的令牌处,并证实该现象与数学推理成功率统计相关。为此,作者提出 CraEG,一种即插即用的无训练采样方法,通过几何引导的重加权机制缓解拥挤。实验表明,该方法在多个模型和基准测试中显著提升了生成的鲁棒性和多样性。
AI 推荐理由
论文提出几何解码策略以缓解嵌入空间拥挤,直接提升复杂推理任务表现。
研究机构
State Key Laboratory of Multimedia Information Processing, School of Computer Science, Peking University
论文信息