摘要
自一致性方法是提升多模态大语言模型(MLLMs)推理可靠性的核心技术。通过重复采样生成多个推理结果,并通过投票选择最佳答案,在跨模态任务中发挥重要作用。然而,现有自一致性方法大多局限于固定的“重复采样和投票”范式,未能复用历史推理信息,导致模型难以主动纠正视觉理解错误并动态调整推理过程。受人类反复验证和动态纠错推理行为的启发,本文提出H-GIVR框架。在迭代推理过程中,MLLM多次观察图像,并以前生成的答案作为后续步骤的参考,实现动态纠错并提高答案准确性。我们在五个数据集和三个模型上进行了全面实验,结果表明H-GIVR框架能显著提升跨模态推理准确率,同时保持较低的计算成本。例如,在ScienceQA数据集上使用Llama3.2-vision:11b模型,平均每题需要2.57次响应即可达到78.90%的准确率,比基线提升了107%。
AI 推荐理由
论文提出利用历史推理信息进行动态修正,与Agent Memory相关但非唯一主题。
论文信息