RC-GRPO：面向多轮工具调用智能体的奖励条件群组相对策略优化

Tool Calling Reinforcement Learning GRPO Agent Skills

摘要

针对大语言模型在多轮工具调用中面临的奖励稀疏与探索昂贵问题，现有 SFT 加 GRPO 方法常因组内奖励差异低而导致更新失效。本文提出 RC-GRPO 方法，将探索视为可控引导问题。首先利用注入奖励目标标记的混合质量轨迹微调策略模型，使其能按需生成不同质量轨迹；随后在强化学习阶段，通过在组内采样多样奖励标记并条件化滚动，显著提升组内多样性与优势增益。实验表明该方法在 BFCLv4 基准上优于基线，甚至超越闭源模型。

AI 推荐理由

论文核心解决多轮工具调用难题，提出新强化学习算法直接提升 Agent 技能表现。

研究机构

中国科学院大学中国科学院自动化研究所

论文信息

作者 Haitian Zhong, Jixiu Zhai, Lei Song, Jiang Bian, Qiang Liu et al.

发布日期 2026-02-03

arXiv ID 2602.03025