摘要
针对多智能体系统中个体因盲从误导同伴而缺乏鲁棒性的问题,本文指出其根源在于阿谀奉承及评估同伴可靠性的能力不足。为此,我们形式化了历史感知参考的学习问题,引入同伴历史交互作为输入,使智能体能据此估计可靠性并向可信同伴学习。我们提出了认知上下文学习(ECL)框架,通过显式构建的同伴画像来条件化预测,并利用辅助奖励的强化学习进行优化。实验表明,ECL 使小模型能准确识别可靠同伴,性能超越大八倍的基线模型,并将前沿模型性能提升至近完美水平。
AI 推荐理由
提出基于历史交互的推理框架,核心在于提升多智能体系统的可靠性评估与推理质量。
研究机构
新加坡国立大学
南京大学
马萨诸塞大学波士顿分校
论文信息