持续学习 强化学习 自动评估 环境适应
摘要

现实世界的数字环境高度多样且动态,这使得代理经常遇到未见过的场景和分布变化,因此在特定环境中进行持续学习对计算机使用代理(CUAs)至关重要。然而,一个关键挑战在于如何在不依赖昂贵的人工标注的情况下获取高质量且基于环境的代理数据。本文提出ACuRL,一种自主课程强化学习框架,能够在零人工数据的情况下使代理持续适应特定环境。代理首先探索目标环境以获取初始经验,在后续迭代训练中,课程任务生成器利用这些经验以及前一轮的反馈来合成适合代理当前能力的新任务。为了提供可靠的奖励信号,我们引入了CUAJudge,一种鲁棒的自动评估器,其与人类判断的一致性达到93%。实验表明,该方法有效实现了环境内和跨环境的持续学习,在现有环境中没有灾难性遗忘的情况下性能提升了4-22%。进一步分析显示更新非常稀疏(例如20%参数),这有助于解释其有效的适应能力。

AI 推荐理由

论文涉及持续学习和适应环境,与Agent Memory相关但非核心主题。

论文信息
作者 Tianci Xue, Zeyi Liao, Tianneng Shi, Zilu Wang, Kai Zhang et al.
发布日期 2026-02-10
arXiv ID 2602.10356
相关性评分 6/10 (相关)