ReCal：基于强化学习的 LLM 路由奖励校准

LLM Routing Reinforcement Learning Reward Calibration Reasoning Strategy Selection

摘要

大型语言模型（LLM）路由通过动态选择模型和推理策略，有效利用多模型互补优势。近期基于强化学习的路由方法虽提升了质量，但在异构任务中仍难提供可比的学习信号。现有方法将多目标聚合为单一标量奖励，导致信用分配模糊及优化信号冲突，且奖励波动引发优化偏差。为此，本文提出 ReCal 框架，引入分层奖励分解与组件优势估计机制，并提出分布感知优化策略，通过方差感知重加权和数据集归一化校准优化变异性。实验表明，ReCal 在七个数据集上均显著提升了路由性能与训练稳定性。

AI 推荐理由

论文聚焦动态选择推理策略与模型，优化路由以提升推理效果，属推理能力关键支撑。

研究机构

Zhejiang University Ant Group

论文信息

作者 Qihang Yu, Hanwen Tong, Zhengqi Zhang, Bo Zheng, Feng Wei et al.

发布日期 2026-06-10

arXiv ID 2606.12479