摘要
测试时扩展(TTS)是提升大语言模型推理性能的有效范式,但现有方法往往平等对待推理轨迹或令牌,易受轨迹质量波动和局部逻辑失败影响。本文提出 Chronos,一种轻量级即插即用的时序推理评分器,将每条轨迹建模为时间序列。Chronos 学习捕捉令牌概率的轨迹特征并分配质量分数,进而采用加权投票机制。实验表明,该方法在多种模型上均显著提升域内及域外基准测试性能,且计算开销极小。
AI 推荐理由
论文核心提出时序推理评分机制,直接优化 LLM 推理链质量与测试时扩展性能。
研究机构
中国科学技术大学
论文信息