多模态学习 自一致性方法 视觉推理 历史信息复用 动态纠错
摘要

自一致性方法是提升多模态大语言模型(MLLMs)推理可靠性的核心技术。通过重复采样生成多个推理结果,并通过投票选择最佳答案,在跨模态任务中发挥重要作用。然而,现有自一致性方法大多局限于固定的“重复采样和投票”范式,未能复用历史推理信息,导致模型难以主动纠正视觉理解错误并动态调整推理过程。受人类反复验证和动态纠错推理行为的启发,本文提出H-GIVR框架。在迭代推理过程中,MLLM多次观察图像,并以前生成的答案作为后续步骤的参考,实现动态纠错并提高答案准确性。我们在五个数据集和三个模型上进行了全面实验,结果表明H-GIVR框架能显著提升跨模态推理准确率,同时保持较低的计算成本。例如,在ScienceQA数据集上使用Llama3.2-vision:11b模型,平均每题需要2.57次响应即可达到78.90%的准确率,比基线提升了107%。

AI 推荐理由

论文提出利用历史推理信息进行动态修正,与Agent Memory相关但非唯一主题。

论文信息
作者 Xinglong Yang, Zhilin Peng, Zhanzhan Liu, Haochen Shi, Sheng-Jun Huang
发布日期 2026-02-04
arXiv ID 2602.04413
相关性评分 7/10 (相关)