摘要
基于强化学习的 GRPO 后训练常用于提升大语言模型在单一推理任务上的表现,但实际部署需兼顾多样任务的可靠性。直接的多任务适配常导致优化失衡,部分任务主导而其余停滞,且零优势提示频率差异进一步扭曲优化信号。为此,本文提出多任务 GRPO(MT-GRPO)算法:一是动态调整任务权重以优化最差任务表现并促进均衡进步;二是引入比例保持采样器,确保策略梯度反映适配权重。实验表明,MT-GRPO 在最差任务准确率上显著优于基线,同时保持竞争力的平均准确率,并大幅减少达到目标性能所需的训练步数。
AI 推荐理由
论文核心提出多任务 GRPO 算法,旨在解决 LLM 跨任务推理性能不平衡问题,显著提升推理可靠性。
研究机构
UCL Department of EEE
UCL Centre for AI
华为诺亚方舟实验室
UNIST研究生院人工智能学院
爱丁堡大学
论文信息