摘要
基于可验证奖励的强化学习是训练智能代理的有力范式,但现有方法通常采用二元奖励,忽略了相同结果轨迹间的质量差异。受网球“甜蜜点”概念启发,本文提出甜蜜点学习(SSL)框架,旨在为代理优化提供差异化指导。SSL 遵循渐进放大、分层奖励的原则,引导策略趋向解空间的优质区域。理论证明该方法保留了最优解排序并增强了梯度信噪比。在 GUI 感知、规划及复杂推理等 12 个基准测试中,SSL 相比强基线显著提升,样本效率最高达 2.5 倍,确立了其作为训练强大鲁棒代理的通用原则。
AI 推荐理由
提出 SSL 框架通过分层奖励机制优化 Agent 策略,属于自我进化与自适应学习的核心研究。
研究机构
南京大学
南京理工大学自动化学院
论文信息