Reinforcement Learning Multi-Task Learning LLM Reasoning GRPO
摘要

基于强化学习的 GRPO 后训练常用于提升大语言模型在单一推理任务上的表现,但实际部署需兼顾多样任务的可靠性。直接的多任务适配常导致优化失衡,部分任务主导而其余停滞,且零优势提示频率差异进一步扭曲优化信号。为此,本文提出多任务 GRPO(MT-GRPO)算法:一是动态调整任务权重以优化最差任务表现并促进均衡进步;二是引入比例保持采样器,确保策略梯度反映适配权重。实验表明,MT-GRPO 在最差任务准确率上显著优于基线,同时保持竞争力的平均准确率,并大幅减少达到目标性能所需的训练步数。

AI 推荐理由

论文核心提出多任务 GRPO 算法,旨在解决 LLM 跨任务推理性能不平衡问题,显著提升推理可靠性。

研究机构
UCL Department of EEE UCL Centre for AI 华为诺亚方舟实验室 UNIST研究生院人工智能学院 爱丁堡大学
论文信息
作者 Shyam Sundhar Ramesh, Xiaotong Ji, Matthieu Zimmer, Sangwoong Yoon, Zhiyong Wang et al.
发布日期 2026-02-05
arXiv ID 2602.05547
相关性评分 9/10 (高度相关)