摘要
在多智能体强化学习中,实现自利智能体之间的合作仍是一个基本挑战。近期研究表明,能够考虑并塑造共玩家学习动态的“学习感知”智能体可以诱导相互合作。然而,现有方法通常依赖于硬编码且常不一致的共玩家学习规则假设,或严格区分“天真学习者”和“元学习者”。本文表明,序列模型的上下文学习能力可以在无需硬编码假设或显式时间尺度分离的情况下实现共玩家学习感知。我们发现,对多样化的共玩家进行训练可自然诱导出上下文最佳响应策略,这些策略在快速的单次回合时间尺度上有效地充当了学习算法。我们发现,先前工作中识别的合作机制——即对勒索的脆弱性驱动相互塑造——在此设置中自然出现:上下文适应使智能体易受勒索,而由此产生的相互压力促使它们学习对手的上下文学习动态,最终演化为合作行为。我们的结果表明,结合序列模型的标准去中心化强化学习与共玩家多样性,为学习合作行为提供了一条可扩展的路径。
AI 推荐理由
论文涉及基于上下文的协同学习机制,与Agent Memory中的动态适应和学习过程相关。
论文信息