利用思维链监督调整强化学习以实现可解释的仇恨与宣传模因检测

Multimodal LLM Chain-of-Thought Reinforcement Learning Explainable AI Meme Detection

摘要

针对仇恨与宣传模因利用图文交互传达有害意图的问题，本文提出一种基于强化学习的后训练方法。该方法利用任务特定奖励和组相对策略优化（GRPO），结合弱监督思维链（CoT）理由，共同优化多模态大模型的分类准确率与解释质量。实验表明，该方法在多个基准测试中显著提升了性能，并能生成自然的语言解释，实现了可解释的内容审核。

AI 推荐理由

论文核心利用思维链（CoT）进行推理监督，通过强化学习优化模型的解释性推理能力。

研究机构

Qatar Computing Research Institute, Doha, Qatar Qatar University, Doha, Qatar Blackbird AI, New York, NY, USA

论文信息

作者 Mohamed Bayan Kmainasi, Mucahid Kutlu, Ali Ezzat Shahroor, Abul Hasnat, Firoj Alam

发布日期 2026-06-13

arXiv ID 2606.15307