基于历史引导的迭代视觉推理与自我修正

多模态学习自一致性方法视觉推理历史信息复用动态纠错

摘要

自一致性方法是提升多模态大语言模型（MLLMs）推理可靠性的核心技术。通过重复采样生成多个推理结果，并通过投票选择最佳答案，在跨模态任务中发挥重要作用。然而，现有自一致性方法大多局限于固定的“重复采样和投票”范式，未能复用历史推理信息，导致模型难以主动纠正视觉理解错误并动态调整推理过程。受人类反复验证和动态纠错推理行为的启发，本文提出H-GIVR框架。在迭代推理过程中，MLLM多次观察图像，并以前生成的答案作为后续步骤的参考，实现动态纠错并提高答案准确性。我们在五个数据集和三个模型上进行了全面实验，结果表明H-GIVR框架能显著提升跨模态推理准确率，同时保持较低的计算成本。例如，在ScienceQA数据集上使用Llama3.2-vision:11b模型，平均每题需要2.57次响应即可达到78.90%的准确率，比基线提升了107%。

AI 推荐理由

论文提出利用历史推理信息进行动态修正，与Agent Memory相关但非唯一主题。

论文信息

作者 Xinglong Yang, Zhilin Peng, Zhanzhan Liu, Haochen Shi, Sheng-Jun Huang

发布日期 2026-02-04

arXiv ID 2602.04413