TSPO：打破多轮搜索策略优化中的双重同质化困境

Reinforcement Learning Tool-Integrated Reasoning Policy Optimization LLM Agents

摘要

多轮工具集成推理使大语言模型能通过迭代检索解决复杂任务。然而，现有强化学习框架依赖稀疏的结果级奖励，导致“双重同质化困境”：一是过程同质化，忽略生成中的思维与工具使用；二是组内同质化，粗粒度奖励导致优势估计低效。为此，本文提出轮次感知策略优化（TSPO），引入首次出现潜在奖励机制，将部分奖励分配给真值答案首次出现的步骤，从而保留过程信号并增加组内奖励方差，无需外部奖励模型或标注。实验表明，TSPO 在 Qwen2.5-3B 和 7B 模型上分别平均提升 24% 和 13.6%，显著优于最先进基线。

AI 推荐理由

论文核心解决多轮工具集成推理中的奖励稀疏问题，提出新优化机制显著提升推理性能。

研究机构

中国科学技术大学天池实验室，蚂蚁集团

论文信息

作者 Shichao Ma, Zhiyuan Ma, Ming Yang, Xiaofan Li, Xing Wu et al.

发布日期 2026-01-30

arXiv ID 2601.22776