摘要
针对大语言模型在多轮工具调用中面临的奖励稀疏与探索昂贵问题,现有 SFT 加 GRPO 方法常因组内奖励差异低而导致更新失效。本文提出 RC-GRPO 方法,将探索视为可控引导问题。首先利用注入奖励目标标记的混合质量轨迹微调策略模型,使其能按需生成不同质量轨迹;随后在强化学习阶段,通过在组内采样多样奖励标记并条件化滚动,显著提升组内多样性与优势增益。实验表明该方法在 BFCLv4 基准上优于基线,甚至超越闭源模型。
AI 推荐理由
论文核心解决多轮工具调用难题,提出新强化学习算法直接提升 Agent 技能表现。
研究机构
中国科学院大学
中国科学院自动化研究所
论文信息