Speech LLM Diffusion Model Chain of Thought Multimodal Generation
摘要

当前语音语言模型直接生成回答,缺乏显式推理导致错误不可修正。本文提出“静默思考,口语回答”范式,使模型在生成语音同时产生内部文本推理轨迹。为此,我们推出了 DiffuSpeech,这是首个基于扩散的语音 - 文本语言模型,在单一掩码扩散框架下统一离散文本与令牌化语音。该方法通过迭代去噪联合生成推理痕迹与语音令牌。实验表明,其在语音问答准确率上达到最先进水平,显著优于基线,同时保持了优异的语音合成质量与语言理解能力。

AI 推荐理由

论文核心提出“静默思考”范式,通过生成内部文本推理轨迹提升语音回答质量,直接聚焦推理机制。

研究机构
National University of Singapore Tencent
论文信息
作者 Yuxuan Lou, Ziming Wu, Yaochen Wang, Yong Liu, Yingxuan Ren et al.
发布日期 2026-01-30
arXiv ID 2601.22889
相关性评分 9/10 (高度相关)