摘要
本文提出 OMAR 框架,利用多轮多智能体对话自博弈强化学习,使单一模型通过扮演所有角色发展社会智能。不同于静态单轮优化,该方法让模型在动态交互中直接学习长期目标与复杂社会规范。为确保长对话训练稳定,引入了分层优势估计机制。在 SOTOPIA 社交环境及狼人杀游戏中的评估表明,模型涌现出共情、说服等细粒度社会智能,证明了在无监督下协作学习的有效性。
AI 推荐理由
论文核心是通过多智能体自博弈强化学习实现模型社会智能的自我进化与涌现。
研究机构
微软公司
南卡罗来纳大学
宾夕法尼亚州立大学
论文信息