摘要
组相对策略优化(GRPO)是提升大语言模型推理能力的关键技术,但其在不同领域排序策略下的表现尚不明确。本文首次系统分析了数学、科学、逻辑和谜题任务中的训练顺序效应。研究发现:单领域泛化具有高度非对称性;跨领域交互强烈依赖顺序,逆序训练会导致性能显著下降;多领域训练中无单一最优策略,顺序不当会造成巨大性能差距。结果表明,GRPO 在多领域设置下表现出显著的不对称性、顺序敏感性和策略依赖性,强调了领域感知与顺序感知训练设计的必要性。
AI 推荐理由
论文核心研究多领域训练顺序对数学、逻辑等推理任务性能的影响机制。
研究机构
未注明单位
论文信息