摘要
大型推理模型(LRM)虽性能强劲但推理成本高且冗余,小型语言模型(SLM)高效却难胜任多步推理。现有协作方法常导致盲目模仿而非纠错。本文提出 MentorCollab,一种推理时协作方法,让 LRM 选择性且稀疏地引导 SLM。通过在随机 token 位置探测分歧并利用轻量验证器,决定 SLM 是跟随导师的短前瞻片段还是独立生成。实验表明,该方法在仅使用 18.4% 的高成本导师生成 token 的情况下,显著提升了多个领域的推理性能,有效恢复了大模型的推理能力且无重大开销。
AI 推荐理由
论文核心研究利用大模型引导小模型进行高效推理的机制,直接提升推理能力。
研究机构
UIUC
University of Washington
Allen Institute for Artificial Intelligence
论文信息