基于自回归 - 扩散协同思维的推理

Collaborative Thoughts Spatial Reasoning Multi-modal Generation

摘要

自回归与扩散模型代表两种互补的生成范式。前者擅长序列规划但缺乏空间 grounding，后者具备丰富空间结构却缺失逐步逻辑控制。本文提出“协同思维”统一框架，通过闭环交互实现两者联合推理与生成：自回归模型负责结构化规划与约束管理，扩散模型将约束实例化为中间视觉思维，视觉批评模块评估其是否满足物理要求并反馈迭代。该机制有效缓解跨模态误差传播，显著提升了空间推理的可靠性与生成的可控性。

AI 推荐理由

论文提出自回归与扩散模型协作框架，核心旨在提升空间推理可靠性及逻辑控制能力。

研究机构

香港中文大学香港科技大学清华大学

论文信息

作者 Mu Yuan, Liekang Zeng, Guoliang Xing, Lan Zhang, Yunhao Liu

发布日期 2026-02-02

arXiv ID 2602.01608