强化学习 智能体工程 异步训练 代码生成
摘要

我们提出了GLM-5,这是一种下一代基础模型,旨在将氛围编码的范式转变为智能体工程。在继承前代模型在智能体、推理和编码(ARC)能力的基础上,GLM-5采用DSA方法显著降低训练和推理成本,同时保持长上下文的准确性。为了推进模型对齐和自主性,我们实现了一种新的异步强化学习基础设施,通过解耦生成与训练过程,大幅提升了后训练效率。此外,我们还提出了新颖的异步智能体强化学习算法,进一步提高了RL质量,使模型能够更有效地从复杂、长时域的交互中学习。通过这些创新,GLM-5在主要开放基准测试中取得了最先进的性能。最关键的是,GLM-5在现实世界的编码任务中表现出前所未有的能力,在处理端到端软件工程挑战方面超越了之前的基线模型。

AI 推荐理由

论文提及Agent相关能力,但未明确讨论Memory机制或系统。

论文信息
作者 GLM-5 Team, :, Aohan Zeng, Xin Lv, Zhenyu Hou et al.
发布日期 2026-02-17
arXiv ID 2602.15763
相关性评分 6/10 (相关)