摘要
本文利用真实会议论文投稿数据,研究了大型语言模型(LLM)代理评审员在Elo排名评审系统中的动态行为。多个具有不同角色的LLM代理评审员在领域主席的协调下进行多轮评审互动。我们比较了基线设置与包含Elo评分和评审员记忆条件的设置。模拟结果展示了若干有趣的发现,包括引入Elo评分如何提高领域主席决策准确性,以及评审员如何利用Elo系统调整策略而不提升评审努力程度。代码可在https://github.com/hsiangwei0903/EloReview获取。
AI 推荐理由
论文提及了评审员记忆机制,但核心研究重点在Elo评分系统与评审动态。
论文信息