Reinforcement Learning Tool-Integrated Reasoning Policy Optimization LLM Agents
摘要

多轮工具集成推理使大语言模型能通过迭代检索解决复杂任务。然而,现有强化学习框架依赖稀疏的结果级奖励,导致“双重同质化困境”:一是过程同质化,忽略生成中的思维与工具使用;二是组内同质化,粗粒度奖励导致优势估计低效。为此,本文提出轮次感知策略优化(TSPO),引入首次出现潜在奖励机制,将部分奖励分配给真值答案首次出现的步骤,从而保留过程信号并增加组内奖励方差,无需外部奖励模型或标注。实验表明,TSPO 在 Qwen2.5-3B 和 7B 模型上分别平均提升 24% 和 13.6%,显著优于最先进基线。

AI 推荐理由

论文核心解决多轮工具集成推理中的奖励稀疏问题,提出新优化机制显著提升推理性能。

研究机构
中国科学技术大学 天池实验室,蚂蚁集团
论文信息
作者 Shichao Ma, Zhiyuan Ma, Ming Yang, Xiaofan Li, Xing Wu et al.
发布日期 2026-01-30
arXiv ID 2601.22776
相关性评分 9/10 (高度相关)