CCMusic: 用于MIR研究的中国音乐数据库建设
2019-07-19李子晋耿瑜曼钱文琪高永伟
李子晋, 于 帅, 肖 畅, 耿瑜曼, 钱文琪, 高永伟, 李 伟
(1.中国音乐学院 音乐科技系,北京 100101; 2.复旦大学 计算机科学技术学院,上海 201203; 3.新加坡国立大学 计算机学院,新加坡 117417)
1 基础介绍
1.1 背景介绍
随着计算机技术的发展,人类信息化程度日益提高,海量音乐数据层出不穷.大量的音乐资源需要被检索、分类、理解及分析,这促进了音乐信息检索技术的发展及应用.同时也吸引了越来越多的来自各个领域的科研工作者投身于这一领域的研究.数据库是音乐信息检索研究的基础,丰富的数据库能够提高音乐信息检索领域算法的准确性,对于算法的改进具有重要的意义.此外,随着研究的深入,学术界对于数据库所选音乐片段的质量要求不断增加,这要求在制作、收集数据库素材方面,需要专业音乐学习者对基础音乐片段进行筛选与判断,从而保证数据库音乐的严谨性与专业性.
1.2 相关工作
20年来,很多研究者已经在数据采集方面做出了努力.音乐信息检索(Music Information Retrieval, MIR)领域常用的数据库有RWC(Real World Computing)[1]、MSD(Million Song Dataset)[2]等,包括带标注的音乐数据库、乐器音响数据库、乐谱数据库等,分别用于音高、节奏、和弦、调式、旋律信息的提取等用途.
由于在音乐信息检索领域缺乏质量较高的研究用音乐数据库,因此RWC工作组组建了仅供研究使用,价格合理的RWC数据库.该数据库是世界上第1个专门为研究目的而编制的大型数据库,涵盖了流行音乐数据库、爵士音乐数据库、音乐流派数据库等6项内容.仅以流行音乐数据库为例,其包含了日本流行歌曲、西方流行风格歌曲在内的多个子集.此外,RWC制作者为数据库内315首歌曲都准备了GS格式的MIDI(SMF)文件和独立的歌词文档,及对应数据库样本的单声道16bit、采样率44.1kHz、RIFFWAVE格式的CD与DVD.目前,RWC数据库是MIR领域使用频率较高的数据库之一.
MSD数据库是免费提供百万首当代流行音乐曲目音频特征和元数据(与音乐相关的数据,例如音乐家姓名、发行版本、曲目标号等)的音乐数据库.该数据集的核心是The Echo Nest(http:∥the.echonest.com)提供的百万首歌曲的特征分析与元数据,当中每个文件都包含1首歌,1份发行版本以及1名艺术家名称.MSD数据库不包含任何音频内容,但可以过7 digital(https:∥www.7digital.com)网站等方式预览歌曲.
LFM-1b[3]数据库收集了Last.fm(https:∥www.last.fm)平台超过十亿的用户的音乐记录,每个记录都标记了音乐家、专辑、曲目名称及确切时间戳.LFM-1b数据库的特别之处在于具有用户听音行为的详细信息,例如,描述听众音乐偏好和消费行为的额外信息,这些信息可以用于探讨不同国家文化和经济差异和艺术家审美偏好的关联性研究.
QBT[4]数据库工作组从60名用户中收集了51首歌曲,这其中包含了时间印记和音高信息,可用于检索旋律轮廓.DUNYA[5]音乐语料库包含380h音频和1900首录音,其目前的主要内容为南印度传统音乐《Carnatic》(https:∥en.wikipedia.org/wiki/Carnatic_music),未来将扩展到其他类型的音乐.该数据库既提供庞大的音乐数据,包括作曲家名称、录音等,还可分析同一主题音乐之间的相关性.MusicBrainz(https:∥musicbrainz.org)是开放的音乐信息查询网站,它包含了录音版本、作曲家名称、曲目编号在内的音乐元数据,供广大研究者免费使用.APL(Automatic Practice Logging)[6]数据库中收集了600多首独奏钢琴片段,用于评估自动练习记录系统.Discogs网站(https:∥www.discogs.com)包含了大量pop、jazz在内的流行音乐数据,为音乐学家研究提供了专业广泛的数据.
CCMusic和其他数据库的标注统计数据见表1.
表1 CCMusic数据库和现有数据库的比较
1.3 CCMusic的贡献
1.3.1 高质量的音频
目前的数据库很多都是由非专业人士的歌声或演奏作为样本数据,对于音响指标、演奏技巧等处理的过于业余,比如MIR-1K[7]等数据库由于演唱者为计算机专业的学生,演唱者缺乏专业的训练,加之录音时对录音环境及设备也没有详细的要求和限定,录制的音频存在背景噪声较大、歌曲的音高节奏准确度不高的缺陷.CCMusic数据库对录音环境、录音设备以及录音人员、流程等方面进行了专业的限定,力求避免各种噪声的干扰,获得高质量的音频素材.
1.3.2 歌声与伴奏分离
将歌声和伴奏分轨录制,有助于研究在理想情况下的MIR诸多任务.目前常用的数据库中将歌声与伴奏按不同音轨录制的并不多见,只有iKala[8]、medleyDB[9]、dsd100(https:∥sisec.inria.fr/home/2016-professionally-produced-music-recordings)等少数几个数据库有分轨录制的音频,但由于歌声与伴奏分离在人声分离算法上具有重要意义,一些数据库的拥有者认为其具有商业价值,开始逐渐取消了音频的公开,如iKala数据库已于2017年12月停止公开音频,这给研究者带来了极大的不便.CCMusic数据库的音频按照将旋律声部与伴奏声部分两轨独立录制,为研究者提供方便.在主旋律检测(在流行歌曲中很多时候为歌声)、歌声信息处理里的歌手识别[10]、歌唱评价[11]、歌词识别[12]、歌声合成[13]、歌声与歌词的同步[14]等研究中,伴奏经常会起干扰作用导致AI算法性能下降[15].在对单旋律的歌唱评价中,如果没有伴奏的人声声部会更有助于专家对歌手水平进行判断[16];在歌手识别中,伴奏声部也会影响机器对演唱者的识别[10];在主旋律提取中,伴奏的音符会影响歌声主旋律的判断[17];在歌词识别中,歌词的识别本身就比语音识别更难,用人耳听也未必听清楚,带有伴奏会更加干扰其识别的准确率[18];在按照乐谱和歌词进行歌声合成时,可以与歌声音轨的录音进行音高、时长、技巧(颤音,滑音等)、音色等的比较,评价合成歌声的自然度、可懂度及艺术性.歌声与歌词的时间域对齐,伴奏也会起阻碍作用.反之,进行常规意义上的乐器识别(歌声除外),那么歌声也会起干扰作用.在CCMusic数据库中用纯粹的歌声来进行试验,定量比较伴奏的影响,这对研究具有重要意义.
1.3.3 详细的标注
目前的数据库中大部分的标注信息不全,多数的研究需要在已有的音频数据上重新做标注.比如,ISMIR2004TEMPO[19]、ACMMIR_UM[20]、Hainsworth[21]数据库仅标记节奏信息,McGill-Billbroad[22]、Zanoni-Giorgi[23]数据库仅标记和弦信息,ODB(https:∥grfia.dlsi.ua.es/cm/projects/prosemus/database.php)、Onsetleveau[24]数据库仅标记起始时间.进行MIR的研究时会根据不同课题下载不同的数据库,过程繁琐.CCMusic数据库将尽量搜集流行音乐、民族音乐及数百种民族乐器的音响素材,并进行全面的标注,建成1个供MIR领域研究者使用的多用途的音乐数据库,希望在数据库里进行尽可能多的标注,满足用户的一站式数据需求.
1.3.4 版权清晰
音频数据库若采用已有的商业歌曲可能会涉及版权信息,无法公开数据,影响算法设计与比较.由研究者自行录制的数据库通常会由于学生音乐素养不够或录音环境及设备较差等原因导致数据库质量不高.CCMusic数据库由音乐学院专门录制,录制者具有较高的音乐素养,录制环境及技术专业,录音质量高,无商品版权问题,录制的音频免费公开,并方便大规模扩展.
2 数据采集标准
2.1 录音棚声场标准
录音对录音房的长、宽、高推荐比例为1.9∶1.4∶1.0,对录音空间尺寸要求为: 面积不小于25m2,体积为(100±30) m3,混响时间应尽量控制在0.30~0.65s(250~4000Hz),偏离度不大于25%,环境的本底噪声控制在30dB(A)以下,室内温度控制在20~25℃,湿度控制在50%~75%.
2.2 采录器材标准
2.2.1 录音设备方案
使用计算机+数字音频接口+外置专业传声器设备方案,采用16bit、44.1kHz音频记录格式.备选方案为专业数字录音机+外置专业传声器,使用16bit、44.1kHz以上的音频记录格式.
2.2.2 传声器标准
使用专业测量传声器,频响范围在20Hz~20kHz(±1dB)之间,全指向(无指向),最大声压级不小于136dB(<1%THD),供电为48V或200V幻象电源,开路灵敏度大于等于12.5mV/Pa,本底噪声小于等于22dB SPL(A).
2.2.3 监听设备标准
扬声器类型尽量使用两分频有源近场监听扬声器,频率响应为20Hz~20kHz(±3dB),扬声器响度在1m处音乐信号最大峰值大于等于108dB.扬声器功率的低音单元大于等于40W,高音单元大于等于40W.监听耳机参数的频率响应范围应处于20Hz~20kHz,标称阻抗大于等于60Ohm.
2.3 采录操作标准
2.3.1 传声器使用方法
录音过程中使用双声道拾音方式,使用话筒架来安放传声器.录音棚环境传声器的位置摆放既要符合常规声学测量的工业标准,同时还要考察音乐的声学特点以及真实听感.
2.3.2 输入电平调整
选择曲目中音量最大部分作为测试声音,调整输入电平大小.调整输入电平应在录音正式开始前完成.保证录音设备的音量无过载,预留8dB峰值余量为最佳.
2.3.3 参考音高录制
使用音叉或校音器播放a1音(440Hz),并将其录制于一声轨.参考音高应记录于歌曲开始之前.
2.3.4 参考声压级的录制
将声级计和传声器放置在同一位置,对1kHz,85dB的音频信号进行声压级记录,以便后期对乐器的实际声压级进行校准.
2.4 采录内容
2.4.1 半音阶
哼唱规定被试音域范围内的半音阶,哼唱每个音之前用钢琴提示音高(钢琴以十二平均律调律,标准A=440Hz),要求演唱者演唱至发不出声音、出现破音或嘶哑的声音时停止录音,要求录制之前被测者保持气息均匀,避免出现口鼻堵塞的现象.要求哼唱清晰,速度控制在慢速=46(以四分音符为1拍,每分钟46拍),录制前提供预备拍和提示音.共采录3遍: 第1遍要求演唱者从小字一组c1向下依次哼唱半音阶,第2遍演唱者由小字二组c2向上依次哼唱半音阶,第3遍要求演唱者由小字一组c1向下哼唱半音阶.
2.4.2 歌曲及录制
要求录制前演唱者需要练习歌曲演唱,伴奏单独录制单声道,随返送到耳麦的乐曲伴奏录制人声,在工程文件中分轨录制伴奏及人声,最后生成3个*.wav文件,即人声的单声道、伴奏的单声道以及人声与伴奏的混音文件.
3 CCMusic数据库的构成
3.1 数据库概览
目前,CCMusic数据库共包含7首歌曲(更多音乐数据正在标注中),全部为中国流行音乐.我们提供独奏人声轨道和每首歌曲的伴奏声轨.图1为歌曲《告白气球》的人声轨道、伴奏声轨和混合声轨频谱图.声乐轨道在中国音乐学院录音室由音乐专业的学生进行录制.对每首歌曲,标注信息被分为4类: 元信息、专家主观评价(Subjective evaluation)、人声轨道标注信息、伴奏轨道标注信息.标注信息详见表2.
图1 歌曲《告白气球》的频谱图Fig.1 Spectrograms of song Confession Ballon
标注类别标注信息标注样例元信息歌曲名称Confession Balloon歌手名称Ziwan Deng歌手性别Female歌曲长度3∶29∶00歌曲速度90歌曲语言Chinese歌曲节拍4/4歌曲调号bE人声轨标注信息歌曲唱法流行歌曲音色浑厚、沙哑、有力等歌声歌词同步0'24.640~0'27.082塞纳河畔,左岸的咖啡节拍时间起始点(以s为单位)7.35,8.01,8.71,9.38小节线起止时间(以s为单位)23.37,26.06语言Chinese每小节第1个音的时间戳(以s为单位)26.06每小节第1个音的频率1019Hz
(续表)
3.2 歌曲元信息的标注
CCMusic数据库元信息包括: 歌曲名称、歌手姓名、歌手性别、歌曲长度、歌曲速度、歌曲语言、歌曲节拍、歌曲调号.对于旋律提取、歌声识别定位、歌手识别、歌手性别,音调识别、音乐节奏分析等歌声相关的任务,通常认为消除伴奏将歌声部分分离出来会有更好的效果,因此录入数据库的歌曲均采用歌声与伴奏分离的录制并分别存储.
3.3 人声轨信息标注
数据库人声轨标注包括: 歌曲唱法、歌曲音色、歌声与歌词同步、节拍时间起始点(以s为单位)、小节线起止时间(以s为单位)、语言、每小节第1个音的时间戳(以s为单位)、每小节第1个音的频率(以Hz为单位).
歌曲唱法被标注为3类: 美声、民族、通俗.可以用于曲风分类(Genre classification)任务.歌曲的音色被标注为6类: 浑厚、沙哑、有力、甜美、空灵、高亢,可以用于音色识别任务.歌声与歌词同步标注一句歌词对应哪个时间段的音频歌声,可以用于歌词定位等任务.标注节拍时间起始点、小节线起始位置、语言、每小节第1个音的信息可以用于旋律提取、歌声识别、音乐节奏分析等任务.
3.4 主观高级评价标注
主观高级评价标注包括: 感情是否饱满(Y/N)、音域是否合适(Y/N)、真假声是否无缝转换(Y/N)、气息是否充沛音(Y/N)、音色是否具有辨识度(Y/N)、吐字是否清晰准确(Y/N).
主观高级评价属于二分类标注任务,可以用于演唱辅助评价、乐器演奏辅助评价等.
3.5 伴奏声轨信息标注
图2 CCMusic中的音乐伴奏使用的乐器的分布Fig.2 Distribution of instruments used in music accompaniment in CCMusic
伴奏声轨信息标注包括: 节拍时间点、小节线、和弦、每小节第1个音的时间(以s为单位)、使用乐器.CCMusic数据库中的音乐伴奏使用的乐器的分布如图2所示.
标注节拍时间点、小节线可以用于音乐节奏的分析.标注和弦信息可以用于和弦的识别.标注使用乐器可以在实际的流行歌曲中识别乐器的种类,并进行主乐器识别.除此之外,标注乐器可以有以下应用: (1) 智能乐器识别(Intelligent Instrument Recognition, IIR)任务,即给1个声音片段,判断是何种乐器.(2) 辅助曲风分类: 西方音乐(pop、rock、jazz、blues等)以管弦乐器为主,东方音乐中的多用二胡、唢呐、琵琶、古筝等,而民族音乐,如蒙古族用马头琴.(3) 辅助音乐情感计算: 二胡往往感情较为悲伤,萨克斯、唢呐、小号感情较为激昂.(4) 按主乐器(Predominant instrument)进行音乐搜索及推荐: 比如搜索或推荐钢琴曲、萨克斯曲、小提琴曲、吉他曲、二胡曲、葫芦丝曲、唢呐曲等.
4 结 语
本文提出了1个新的音乐数据库——CCMusic Database.该数据库对录音环境、录音设备以及录音人员、流程等方面进行专业的限定.数据库将歌声与伴奏分离,对音乐信息检索的研究有重要的意义.CCMusic数据库搜集流行音乐、民族音乐及数百种民族乐器的音响素材,并进行全面的标注,构成1个供MIR研究者使用的多用途的音乐数据库.本数据库是由音乐学院学生录制,版权清晰,录制的音频免费公开.未来,我们将会搜集更多的音乐素材进行录制和详细的标注.