Tool Calling Reinforcement Learning GRPO Agent Skills
摘要

针对大语言模型在多轮工具调用中面临的奖励稀疏与探索昂贵问题,现有 SFT 加 GRPO 方法常因组内奖励差异低而导致更新失效。本文提出 RC-GRPO 方法,将探索视为可控引导问题。首先利用注入奖励目标标记的混合质量轨迹微调策略模型,使其能按需生成不同质量轨迹;随后在强化学习阶段,通过在组内采样多样奖励标记并条件化滚动,显著提升组内多样性与优势增益。实验表明该方法在 BFCLv4 基准上优于基线,甚至超越闭源模型。

AI 推荐理由

论文核心解决多轮工具调用难题,提出新强化学习算法直接提升 Agent 技能表现。

研究机构
中国科学院大学 中国科学院自动化研究所
论文信息
作者 Haitian Zhong, Jixiu Zhai, Lei Song, Jiang Bian, Qiang Liu et al.
发布日期 2026-02-03
arXiv ID 2602.03025
相关性评分 9/10 (高度相关)