Reinforcement Learning Agent Post-training Self-Improvement Process Reward Model
摘要

针对大语言模型智能体处理长程任务时后训练的挑战,本文提出关键步优化(CSO)方法。该方法聚焦于经证实的关键决策点,即改变动作可扭转任务结果的步骤。CSO 从失败轨迹出发,利用过程奖励模型识别候选步骤,生成高质量替代方案并验证其能否由策略模型成功执行至任务完成,从而构建细粒度、可验证的 DPO 训练数据。实验表明,CSO 在 GAIA 和 XBench 数据集上显著优于基线及其他后训练方法,且仅需少量步骤监督,证明了基于选择性验证学习的有效性。

AI 推荐理由

论文提出 CSO 方法,通过自我反思和验证关键步骤优化策略,属于 Agent 自我进化核心研究。

研究机构
腾讯AI实验室 香港大学 东北大学
论文信息
作者 Mukai Li, Qingcheng Zeng, Tianqing Fang, Zhenwen Liang, Linfeng Song et al.
发布日期 2026-02-03
arXiv ID 2602.03412
相关性评分 9/10 (高度相关)