Diffusion Language Models Reasoning Robustness Chain-of-Thought GSM8K
摘要

自回归语言模型强制固定的从左到右生成顺序,导致在输出结构与自然推理冲突时(如需先输出答案),模型被迫过早承诺。掩码扩散语言模型(MDLM)通过并行迭代优化所有令牌,实现了计算顺序与输出结构的解耦。实验表明,当提示要求先回答后推理时,自回归模型准确率大幅下降,而 MDLM 保持稳定,展现出“顺序鲁棒性”。研究证实,MDLM 通过在扩散过程中优先稳定简单推理令牌,使其在最终答案确定前完成推理,从而克服了传统模型的局限。

AI 推荐理由

核心研究扩散模型如何解耦输出顺序与推理顺序,显著提升复杂推理任务的鲁棒性。

研究机构
美国加利福尼亚州里弗赛德市加州大学河滨分校计算机科学系
论文信息
作者 Longxuan Yu, Yu Fu, Shaorong Zhang, Hui Liu, Mukund Varma T et al.
发布日期 2026-01-29
arXiv ID 2601.22035
相关性评分 9/10 (高度相关)