Efficient Reasoning Model Collaboration Inference-time Guidance
摘要

大型推理模型(LRM)虽性能强劲但推理成本高且冗余,小型语言模型(SLM)高效却难胜任多步推理。现有协作方法常导致盲目模仿而非纠错。本文提出 MentorCollab,一种推理时协作方法,让 LRM 选择性且稀疏地引导 SLM。通过在随机 token 位置探测分歧并利用轻量验证器,决定 SLM 是跟随导师的短前瞻片段还是独立生成。实验表明,该方法在仅使用 18.4% 的高成本导师生成 token 的情况下,显著提升了多个领域的推理性能,有效恢复了大模型的推理能力且无重大开销。

AI 推荐理由

论文核心研究利用大模型引导小模型进行高效推理的机制,直接提升推理能力。

研究机构
UIUC University of Washington Allen Institute for Artificial Intelligence
论文信息
作者 Haojin Wang, Yike Wang, Shangbin Feng, Hannaneh Hajishirzi, Yulia Tsvetkov
发布日期 2026-02-05
arXiv ID 2602.05307
相关性评分 9/10 (高度相关)