摘要
大型语言模型(LLM)路由通过动态选择模型和推理策略,有效利用多模型互补优势。近期基于强化学习的路由方法虽提升了质量,但在异构任务中仍难提供可比的学习信号。现有方法将多目标聚合为单一标量奖励,导致信用分配模糊及优化信号冲突,且奖励波动引发优化偏差。为此,本文提出 ReCal 框架,引入分层奖励分解与组件优势估计机制,并提出分布感知优化策略,通过方差感知重加权和数据集归一化校准优化变异性。实验表明,ReCal 在七个数据集上均显著提升了路由性能与训练稳定性。
AI 推荐理由
论文聚焦动态选择推理策略与模型,优化路由以提升推理效果,属推理能力关键支撑。
研究机构
Zhejiang University
Ant Group
论文信息