Multi-agent Systems Confidence Calibration Debate Protocols Reliability
摘要

本文针对多智能体系统缺乏整体输出置信度评估的问题,提出三种协议。通过转换原始置信度信号使其跨模型可比,并利用软投票或贝叶斯融合进行聚合。实验表明,该方法生成的聚合置信度在判别性上显著优于单智能体及标准辩论基线,同时在模糊任务中恢复了多智能体辩论损失的准确率。研究涵盖了多种模型组合、基准测试及校准方法,验证了其在提升系统可靠性方面的有效性。

AI 推荐理由

论文聚焦多智能体辩论中的置信度聚合,旨在提升系统输出的可靠性与判别力,属于推理优化范畴。

研究机构
University of Illinois Chicago
论文信息
作者 Ali Elahi, Barbara Di Eugenio
发布日期 2026-06-11
arXiv ID 2606.13591
相关性评分 8/10 (高度相关)