DiffuSpeech：通过统一语音 - 文本扩散实现静默思考与口语回答

Speech LLM Diffusion Model Chain of Thought Multimodal Generation

摘要

当前语音语言模型直接生成回答，缺乏显式推理导致错误不可修正。本文提出“静默思考，口语回答”范式，使模型在生成语音同时产生内部文本推理轨迹。为此，我们推出了 DiffuSpeech，这是首个基于扩散的语音 - 文本语言模型，在单一掩码扩散框架下统一离散文本与令牌化语音。该方法通过迭代去噪联合生成推理痕迹与语音令牌。实验表明，其在语音问答准确率上达到最先进水平，显著优于基线，同时保持了优异的语音合成质量与语言理解能力。

AI 推荐理由

论文核心提出“静默思考”范式，通过生成内部文本推理轨迹提升语音回答质量，直接聚焦推理机制。

研究机构

National University of Singapore Tencent

论文信息

作者 Yuxuan Lou, Ziming Wu, Yaochen Wang, Yong Liu, Yingxuan Ren et al.

发布日期 2026-01-30

arXiv ID 2601.22889