LLM代理 Elo评分 评审系统 记忆机制
摘要

本文利用真实会议论文投稿数据,研究了大型语言模型(LLM)代理评审员在Elo排名评审系统中的动态行为。多个具有不同角色的LLM代理评审员在领域主席的协调下进行多轮评审互动。我们比较了基线设置与包含Elo评分和评审员记忆条件的设置。模拟结果展示了若干有趣的发现,包括引入Elo评分如何提高领域主席决策准确性,以及评审员如何利用Elo系统调整策略而不提升评审努力程度。代码可在https://github.com/hsiangwei0903/EloReview获取。

AI 推荐理由

论文提及了评审员记忆机制,但核心研究重点在Elo评分系统与评审动态。

论文信息
作者 Hsiang-Wei Huang, Junbin Lu, Kuang-Ming Chen, Jenq-Neng Hwang
发布日期 2026-01-13
arXiv ID 2601.08829
相关性评分 6/10 (相关)