摘要
多智能体辩论(MAD)常用于通过测试时扩展提升大语言模型(LLM)性能,但近期研究表明,普通MAD在计算成本更高的情况下仍可能不如简单多数投票。研究发现,在同质化代理和统一信念更新的条件下,辩论无法可靠地改善结果。借鉴人类讨论和集体决策的研究成果,本文识别出普通MAD中缺失的两个关键机制:初始观点的多样性以及显式的、校准的置信度沟通。为此,作者提出了两种轻量级干预措施:一种是多样性感知的初始化方法,选择更具多样性的候选答案池,提高辩论开始时包含正确假设的可能性;另一种是基于置信度调节的辩论协议,使代理表达校准后的置信度,并根据他人的置信度进行更新。理论分析表明,多样性感知初始化可提高MAD成功的先验概率,而置信度调节更新则能系统性地引导辩论趋向正确假设。实验证明,六种推理导向的问答基准测试中,所提方法始终优于普通MAD和多数投票。
AI 推荐理由
论文涉及多智能体辩论中的信息传递与更新机制,间接关联记忆机制。
论文信息