BASS：评估音频语言模型在音乐结构与语义推理方面的能力

Audio LM Music Understanding Benchmark Semantic Reasoning

摘要

音乐理解是一项复杂任务，通常需要对音频的结构和语义元素进行推理。本文提出 BASS 基准，旨在评估音频语言模型在结构分割、歌词转录、音乐学分析及艺术家协作四类任务中的理解与推理能力。该基准包含 2658 个问题、1993 首独特歌曲及超 138 小时多流派音乐数据。对 14 个模型的评估显示，现有模型虽能有效利用语言先验，但在高层推理任务（如结构分割）上表现欠佳，揭示了当前技术在音乐结构与属性推理上的局限。

AI 推荐理由

论文核心评估音频大模型在音乐结构与语义层面的推理能力，构建基准测试。

研究机构

华盛顿大学俄亥俄州立大学艾伦人工智能研究所

论文信息

作者 Min Jang, Orevaoghene Ahia, Nazif Tamer, Sachin Kumar, Yulia Tsvetkov et al.

发布日期 2026-02-03

arXiv ID 2602.04085