摘要
本文介绍了VILLAIN,一种基于提示的多智能体协作的多模态事实核查系统,用于验证图像-文本声明。针对AVerImaTeC共享任务,VILLAIN在事实核查的不同阶段使用了视觉语言模型代理。从通过额外网络收集丰富知识库中检索出的文本和视觉证据,模态特定和跨模态代理生成分析报告。随后,根据这些报告生成问题-答案对。最后,判决预测代理基于图像-文本声明和生成的问题-答案对得出验证结果。我们的系统在所有评估指标中均排名第一。源代码可在https://github.com/ssu-humane/VILLAIN公开获取。
AI 推荐理由
论文涉及多智能体协作中的信息检索与存储,但未明确聚焦于Agent Memory机制本身。
论文信息