摘要
针对现有 LLM 路由方法忽略输出长度对质量与成本影响的问题,本文提出 R2-Router。该方法将输出长度预算视为可控变量,联合优化最佳 LLM 选择与长度约束,通过长度受限指令强制执行预算。研究构建了首个捕捉不同长度预算下 LLM 行为的路由数据集 R2-Bench。实验表明,R2-Router 在成本降低 4-5 倍的同时实现了最先进性能,开创了“路由即推理”的新方向,使路由器从被动选择器演变为主动推理者。
AI 推荐理由
论文提出“路由即推理”新范式,核心在于让路由器进行深思熟虑的推理以选择模型和预算。
研究机构
中国
论文信息