Video MLLM Hallucination Mitigation Contrastive Decoding Compositional Reasoning
摘要

当前视频幻觉缓解研究多关注孤立错误,忽视了时空因素交互引发的组合性幻觉。本文提出 OmniVCHall 基准,系统评估孤立与组合性幻觉,涵盖多样领域及新型相机幻觉类型。针对现有模型性能下降问题,提出 TriCD 对比解码框架,包含自适应扰动控制器和显著性引导增强模块,通过强化学习优化以抑制组合性幻觉。实验表明,该方法在多个骨干网络上平均准确率提升超 10%。

AI 推荐理由

论文聚焦组合性幻觉,核心解决多因素交互下的错误推理问题,提出对比解码框架。

研究机构
中国科学院自动化研究所 中国科学院大学
论文信息
作者 Wenbin Xing, Quanxing Zha, Lizheng Zu, Mengran Li, Ming Li et al.
发布日期 2026-01-31
arXiv ID 2602.00559
相关性评分 9/10 (高度相关)