摘要
大型语言模型通过工具集成在复杂任务中展现出强大的推理能力,通常被建模为马尔可夫决策过程,并使用轨迹级别的强化学习算法(如GRPO)进行优化。然而,在一类常见的推理任务——迭代优化中,代理需要在多个回合中与同一环境状态交互,轨迹的价值由最佳回合奖励决定,而非累积回报。现有的基于GRPO的方法无法在此类设置中实现细粒度的回合级别优化,而黑盒优化方法则忽略了先验知识和推理能力。为解决这一问题,本文提出了一种轻量级的强化学习算法Turn-Level GRPO(TL-GRPO),通过回合级别的分组采样实现细粒度优化。我们在模拟电路尺寸调整(ACS)任务上评估了TL-GRPO,该任务具有挑战性,需要多次仿真和领域专业知识。结果表明,TL-GRPO在各种规格下均优于标准GRPO和贝叶斯优化方法。此外,使用TL-GRPO训练的30B模型在相同仿真预算下实现了最先进的性能,展示了其良好的泛化能力和实用性。
AI 推荐理由
论文涉及Agent在迭代优化任务中的记忆与状态交互,但未直接研究Memory机制。
论文信息