当领域交互时：强化学习推理中的非对称与顺序敏感跨领域效应

Reinforcement Learning Cross-Domain Transfer Reasoning GRPO Training Strategy

摘要

组相对策略优化（GRPO）是提升大语言模型推理能力的关键技术，但其在不同领域排序策略下的表现尚不明确。本文首次系统分析了数学、科学、逻辑和谜题任务中的训练顺序效应。研究发现：单领域泛化具有高度非对称性；跨领域交互强烈依赖顺序，逆序训练会导致性能显著下降；多领域训练中无单一最优策略，顺序不当会造成巨大性能差距。结果表明，GRPO 在多领域设置下表现出显著的不对称性、顺序敏感性和策略依赖性，强调了领域感知与顺序感知训练设计的必要性。

AI 推荐理由

论文核心研究多领域训练顺序对数学、逻辑等推理任务性能的影响机制。

研究机构

未注明单位

论文信息

作者 Wang Yang, Shouren Wang, Chaoda Song, Chuang Ma, Xinpeng Li et al.

发布日期 2026-02-01

arXiv ID 2602.01365