摘要
利用单智能体或多智能体LLM识别论文弱点的研究日益受到关注,但现有方法存在关键局限。许多多智能体系统仅在表层模拟人类角色,忽略了专家评估论文互补性智力方面的潜在标准。此外,先前方法隐含假设识别的弱点是有效的,忽视了审稿人偏见、误解以及作者反驳在验证评审质量中的关键作用。最后,大多数系统输出未排序的弱点列表,而非优先呈现对用户影响最大的问题。本文提出DIAGPaper,一种新颖的多智能体框架,通过三个紧密集成的模块解决这些挑战。定制器模块模拟人类定义的评审标准,并实例化具有特定标准专业知识的多个审稿人代理。反驳模块引入作者代理,与审稿人代理进行结构化辩论以验证和优化提出的弱点。优先级模块从大规模的人类评审实践中学习,以评估验证后的弱点严重性,并向用户展示最严重的前K个问题。在AAAR和ReviewCritique两个基准上的实验表明,DIAGPaper在生成更有效和更具体于论文的弱点方面显著优于现有方法,并以面向用户的方式优先呈现。
AI 推荐理由
论文涉及多智能体系统,但未直接讨论Agent Memory机制,相关性有限。
论文信息