Multi-Agent Systems Trust Modeling Reliability Estimation Reinforcement Learning
摘要

针对多智能体系统中个体因盲从误导同伴而缺乏鲁棒性的问题,本文指出其根源在于阿谀奉承及评估同伴可靠性的能力不足。为此,我们形式化了历史感知参考的学习问题,引入同伴历史交互作为输入,使智能体能据此估计可靠性并向可信同伴学习。我们提出了认知上下文学习(ECL)框架,通过显式构建的同伴画像来条件化预测,并利用辅助奖励的强化学习进行优化。实验表明,ECL 使小模型能准确识别可靠同伴,性能超越大八倍的基线模型,并将前沿模型性能提升至近完美水平。

AI 推荐理由

提出基于历史交互的推理框架,核心在于提升多智能体系统的可靠性评估与推理质量。

研究机构
新加坡国立大学 南京大学 马萨诸塞大学波士顿分校
论文信息
作者 Ruiwen Zhou, Maojia Song, Xiaobao Wu, Sitao Cheng, Xunjian Yin et al.
发布日期 2026-01-29
arXiv ID 2601.21742
相关性评分 9/10 (高度相关)