LTS-VoiceAgent：一种通过语义触发和增量推理实现高效流式语音交互的Listen-Think-Speak框架

摘要

实时语音代理面临一个困境：端到端模型通常缺乏深度推理能力，而级联流水线则因严格按顺序执行ASR、LLM推理和TTS而产生高延迟，这与人类对话中听者在说话人结束前就开始思考的方式不同。由于级联架构仍是复杂任务的主流选择，现有的流式策略尝试通过机械分割（如固定块、基于VAD的分割）或推测生成来减少延迟，但这些方法常导致语义单元断裂或浪费计算资源于必须回滚的预测上。为了解决这些问题，本文提出LTS-VoiceAgent框架，该框架显式地将何时思考与如何逐步推理分离。它包含一个动态语义触发器以检测有意义的前缀，并引入双角色流式协调器，协调后台的Thinker（用于状态维护）和前台的Speaker（用于推测性求解）。这种并行设计实现了“边说边想”的功能而不阻塞响应。此外，我们还引入了一个包含自然不流畅性的Pause-and-Repair基准测试集，以对流式处理的鲁棒性进行压力测试。实验结果表明，LTS-VoiceAgent在VERA、Spoken-MQA、BigBenchAudio以及我们的基准测试中，相较于串行级联基线和现有流式策略，在准确率、延迟和效率之间取得了更优的平衡。

AI 推荐理由

论文涉及流式语音交互中的推理与响应机制，隐含记忆管理逻辑，但非核心主题。

论文信息

作者 Wenhao Zou, Yuwei Miao, Zhanyu Ma, Jun Xu, Jiuchong Gao et al.

发布日期 2026-01-26

arXiv ID 2601.19952