摘要
自回归与扩散模型代表两种互补的生成范式。前者擅长序列规划但缺乏空间 grounding,后者具备丰富空间结构却缺失逐步逻辑控制。本文提出“协同思维”统一框架,通过闭环交互实现两者联合推理与生成:自回归模型负责结构化规划与约束管理,扩散模型将约束实例化为中间视觉思维,视觉批评模块评估其是否满足物理要求并反馈迭代。该机制有效缓解跨模态误差传播,显著提升了空间推理的可靠性与生成的可控性。
AI 推荐理由
论文提出自回归与扩散模型协作框架,核心旨在提升空间推理可靠性及逻辑控制能力。
研究机构
香港中文大学
香港科技大学
清华大学
论文信息