摘要
音乐理解是一项复杂任务,通常需要对音频的结构和语义元素进行推理。本文提出 BASS 基准,旨在评估音频语言模型在结构分割、歌词转录、音乐学分析及艺术家协作四类任务中的理解与推理能力。该基准包含 2658 个问题、1993 首独特歌曲及超 138 小时多流派音乐数据。对 14 个模型的评估显示,现有模型虽能有效利用语言先验,但在高层推理任务(如结构分割)上表现欠佳,揭示了当前技术在音乐结构与属性推理上的局限。
AI 推荐理由
论文核心评估音频大模型在音乐结构与语义层面的推理能力,构建基准测试。
研究机构
华盛顿大学
俄亥俄州立大学
艾伦人工智能研究所
论文信息