Audio LM Music Understanding Benchmark Semantic Reasoning
摘要

音乐理解是一项复杂任务,通常需要对音频的结构和语义元素进行推理。本文提出 BASS 基准,旨在评估音频语言模型在结构分割、歌词转录、音乐学分析及艺术家协作四类任务中的理解与推理能力。该基准包含 2658 个问题、1993 首独特歌曲及超 138 小时多流派音乐数据。对 14 个模型的评估显示,现有模型虽能有效利用语言先验,但在高层推理任务(如结构分割)上表现欠佳,揭示了当前技术在音乐结构与属性推理上的局限。

AI 推荐理由

论文核心评估音频大模型在音乐结构与语义层面的推理能力,构建基准测试。

研究机构
华盛顿大学 俄亥俄州立大学 艾伦人工智能研究所
论文信息
作者 Min Jang, Orevaoghene Ahia, Nazif Tamer, Sachin Kumar, Yulia Tsvetkov et al.
发布日期 2026-02-03
arXiv ID 2602.04085
相关性评分 9/10 (高度相关)