摘要
近期研究表明,大型多模态模型(LMMs)可以通过自我博弈和内在反馈从未标记数据中自我提升。然而现有自演化框架主要奖励最终结果,而忽视了中间推理过程的重要性。本文提出iReasoner,一种通过显式引导链式推理(CoT)并奖励其内部一致性来增强LMM隐式推理能力的自演化框架。在未标记图像上的提议者-求解者循环中,iReasoner将结果级别的内在奖励与基于中间推理步骤的轨迹感知信号相结合,在无真实标签或外部评判者的前提下,提供区分导致相同答案的不同推理路径的学习信号。从Qwen2.5-VL-7B出发,iReasoner在完全无监督的后训练中,在多种多模态推理基准测试中提升了高达+2.1分。希望本工作能为纯无监督环境下LMM的推理感知型自我改进奠定基础。
AI 推荐理由
论文涉及Agent在自我演化过程中对中间推理路径的显式建模,与记忆机制相关。
论文信息