面向大语言模型智能体的已验证关键步优化

Reinforcement Learning Agent Post-training Self-Improvement Process Reward Model

摘要

针对大语言模型智能体处理长程任务时后训练的挑战，本文提出关键步优化（CSO）方法。该方法聚焦于经证实的关键决策点，即改变动作可扭转任务结果的步骤。CSO 从失败轨迹出发，利用过程奖励模型识别候选步骤，生成高质量替代方案并验证其能否由策略模型成功执行至任务完成，从而构建细粒度、可验证的 DPO 训练数据。实验表明，CSO 在 GAIA 和 XBench 数据集上显著优于基线及其他后训练方法，且仅需少量步骤监督，证明了基于选择性验证学习的有效性。

AI 推荐理由

论文提出 CSO 方法，通过自我反思和验证关键步骤优化策略，属于 Agent 自我进化核心研究。

研究机构

腾讯AI实验室香港大学东北大学

论文信息

作者 Mukai Li, Qingcheng Zeng, Tianqing Fang, Zhenwen Liang, Linfeng Song et al.

发布日期 2026-02-03

arXiv ID 2602.03412