摘要
多轮工具集成推理使大语言模型能通过迭代检索解决复杂任务。然而,现有强化学习框架依赖稀疏的结果级奖励,导致“双重同质化困境”:一是过程同质化,忽略生成中的思维与工具使用;二是组内同质化,粗粒度奖励导致优势估计低效。为此,本文提出轮次感知策略优化(TSPO),引入首次出现潜在奖励机制,将部分奖励分配给真值答案首次出现的步骤,从而保留过程信号并增加组内奖励方差,无需外部奖励模型或标注。实验表明,TSPO 在 Qwen2.5-3B 和 7B 模型上分别平均提升 24% 和 13.6%,显著优于最先进基线。
AI 推荐理由
论文核心解决多轮工具集成推理中的奖励稀疏问题,提出新优化机制显著提升推理性能。
研究机构
中国科学技术大学
天池实验室,蚂蚁集团
论文信息