摘要
当前视频幻觉缓解研究多关注孤立错误,忽视了时空因素交互引发的组合性幻觉。本文提出 OmniVCHall 基准,系统评估孤立与组合性幻觉,涵盖多样领域及新型相机幻觉类型。针对现有模型性能下降问题,提出 TriCD 对比解码框架,包含自适应扰动控制器和显著性引导增强模块,通过强化学习优化以抑制组合性幻觉。实验表明,该方法在多个骨干网络上平均准确率提升超 10%。
AI 推荐理由
论文聚焦组合性幻觉,核心解决多因素交互下的错误推理问题,提出对比解码框架。
研究机构
中国科学院自动化研究所
中国科学院大学
论文信息