摘要
针对仇恨与宣传模因利用图文交互传达有害意图的问题,本文提出一种基于强化学习的后训练方法。该方法利用任务特定奖励和组相对策略优化(GRPO),结合弱监督思维链(CoT)理由,共同优化多模态大模型的分类准确率与解释质量。实验表明,该方法在多个基准测试中显著提升了性能,并能生成自然的语言解释,实现了可解释的内容审核。
AI 推荐理由
论文核心利用思维链(CoT)进行推理监督,通过强化学习优化模型的解释性推理能力。
研究机构
Qatar Computing Research Institute, Doha, Qatar
Qatar University, Doha, Qatar
Blackbird AI, New York, NY, USA
论文信息