Reinforcement Learning Agent Optimization Differentiated Guidance Sample Efficiency
摘要

基于可验证奖励的强化学习是训练智能代理的有力范式,但现有方法通常采用二元奖励,忽略了相同结果轨迹间的质量差异。受网球“甜蜜点”概念启发,本文提出甜蜜点学习(SSL)框架,旨在为代理优化提供差异化指导。SSL 遵循渐进放大、分层奖励的原则,引导策略趋向解空间的优质区域。理论证明该方法保留了最优解排序并增强了梯度信噪比。在 GUI 感知、规划及复杂推理等 12 个基准测试中,SSL 相比强基线显著提升,样本效率最高达 2.5 倍,确立了其作为训练强大鲁棒代理的通用原则。

AI 推荐理由

提出 SSL 框架通过分层奖励机制优化 Agent 策略,属于自我进化与自适应学习的核心研究。

研究机构
南京大学 南京理工大学自动化学院
论文信息
作者 Jinyang Wu, Changpeng Yang, Yuhao Shen, Fangzhi Xu, Bolin Ni et al.
发布日期 2026-01-30
arXiv ID 2601.22491
相关性评分 9/10 (高度相关)