Visual Reasoning Diffusion Models Interpretability Holistic Reasoning
摘要

本文提出 TACIT,一种用于可解释视觉推理的基于扩散的 Transformer。与语言推理系统不同,TACIT 利用整流流在像素空间运行,直接可视化每一步推理过程。在迷宫求解任务中,模型学习将未解迷宫图像转化为解法。定量分析揭示了显著的相变现象:解法在大部分过程中不可见,随后突然涌现。这种“尤里卡时刻”模式平行于人类认知中的顿悟现象,为理解神经网络如何发展前语言的隐式推理策略提供了基础。

AI 推荐理由

论文核心研究基于扩散模型的视觉推理机制,揭示整体性推理现象。

研究机构
独立研究员
论文信息
作者 Daniel Nobrega
发布日期 2026-02-05
arXiv ID 2602.07061
相关性评分 9/10 (高度相关)