音频推理 Chain-of-Thought 代理系统 可解释性 多模态分析
摘要

近期的大规模音频语言模型(LALMs)在理解能力上表现出色,但在推理过程中往往缺乏透明性。为解决这一“黑箱”问题,我们在Interspeech 2026组织了音频推理挑战赛,这是首个专门用于评估音频领域推理链质量的共享任务。该挑战引入了MMAR-Rubrics,一种新颖的实例级协议,用于评估推理链的事实性和逻辑性。比赛设有单模型和代理两个赛道,吸引了来自18个国家和地区的156支队伍参与。结果显示,当前代理系统在推理质量方面处于领先地位,利用了迭代工具协调和跨模态分析。此外,单模型通过强化学习和复杂的数据管道迅速发展。我们详细介绍了挑战的设计、方法,并对最先进的系统进行了全面分析,为可解释的音频智能提供了新的见解。

AI 推荐理由

论文涉及Agent在音频推理中的表现,提及工具协调和跨模态分析,与记忆相关但非核心。

论文信息
作者 Ziyang Ma, Ruiyang Xu, Yinghao Ma, Chao-Han Huck Yang, Bohan Li et al.
发布日期 2026-02-15
arXiv ID 2602.14224
相关性评分 6/10 (相关)