摘要
自一致性方法通过重复采样和投票提升多模态大语言模型的推理可靠性,但现有方法局限于固定范式,无法复用历史推理信息以动态纠正错误。受人类反复验证行为的启发,本文提出 H-GIVR 框架。该框架在迭代推理中多次观察图像,并将先前生成的答案作为后续步骤的参考,实现错误的动态修正。在五个数据集和三个模型上的实验表明,该方法显著提升了跨模态推理准确率且计算成本低廉。
AI 推荐理由
论文核心提出迭代视觉推理框架,利用历史引导和自我修正提升多模态推理可靠性。
研究机构
Nanjing University of Aeronautics and Astronautics
论文信息