APP下载

音乐信息检索技术:音乐与人工智能的融合

2018-10-26伟高智辉

艺术探索 2018年5期
关键词:音高音符音频

李 伟高智辉

(1.复旦大学 计算机科学技术学院,上海 201203;2.复旦大学 信息科学与工程学院,上海 200433)

一、音乐科技概况

早在20世纪50年代,计算机刚刚产生,美国的一位化学博士就开始尝试运用计算机处理音乐。随后几十年,欧美各国相继建立了多个大型音乐科技研究机构,如1975年建立的美国斯坦福大学的音乐及声学计算机研究中心(Center for Computer Research in Music and Acoustics,CCRMA)、1977 年建立的法国巴黎的声学与音乐研究与协调研究所(Institute for Research and Coordination Acoustic/Music,IRCAM)、1994年建立的西班牙巴塞罗那庞培法布拉(UPF)大学的音乐科技研究组(Music Technology Group,MTG)、2001年建立的英国伦敦女王大学数字音乐研究中心(Centrefor Digital Music,C4DM)等。此外,在亚洲的日本、中国台湾等国家和地区也有多个该领域的公司(如雅马哈)和科研院所。欧洲由于其浓厚的人文和艺术气息成了音乐科技的世界中心。

图1 音乐科技各领域关系图

音乐科技是一个典型的交叉学科领域,分为艺术部分和科技部分。(图1)艺术部分主要偏向使用各种音频软件及硬件进行音乐创作,科技部分主要进行底层计算机技术的研发,为艺术创作提供技术支撑,也叫做声音与音乐计算(Sound and Music Computing,SMC)。SMC主要包括音频信号处理(Audio Signal Processing)及计算机听觉(Computer Audition,CA),音乐信息检索技术(Music Information Retrieval,MIR)属于计算机听觉中专门分析理解音乐内容的部分。

近20年来,互联网上出现了海量的数字音乐。音频大数据与人工智能(Article Intelligence,AI)相结合,产生了MIR,成为音乐科技领域的重要组成部分。MIR以音乐声学为基础,基于音频信号处理提取音频特征,后端大量采用AI中的各种机器学习技术。目前,MIR已成为一个很大的科学研究领域,国内外主要的学术会议有ISMIR(音乐信息检索国际会议)、ICMC(计算机音乐国际会议)、CSMT(中国声音与音乐技术会议)、ICASSP(声学、语言、信号处理国际会议)等。

二、MIR领域科研情况介绍

MIR领域包含数十个研究课题,这些课题按照与各音乐要素的密切程度可划分为核心层MIR研究和应用层MIR研究。(图2)

(一)核心层MIR研究

1.音高与旋律(Pitch and Melody)[1]1-5

音乐中每个音符都有一定的音高,而音高由声波的频率决定。音高检测的手段大概分为三种:(1)时域检测,即在时间上对声波进行分析,具体有过零率法、自相关法(如YIN算法)、最大似然法、自适应滤波器法、超分辨率法等;(2)频域检测,如对信号进行短时傅里叶变换(STFT),由周期性信号在基频整数倍处有不同峰值的原理得到该时间段的基频,从而得到音高;(3)基于听觉模型检测,即通过模拟人类感知音高的生理过程,使用耳蜗模型对每一个通道进行独立的自相关运算,综合所有通道信息得到相对的音高。

旋律是经过艺术构思,按照节奏及和声形成的反映音乐主旨的音符序列。旋律提取指的是从多声部/多音音乐(Polyphonic Music)信号提取单声部(Monophonic)旋律的过程,典型方法有音高重要性法、歌声分离法、数据驱动的音符分类法等三种,可应用在音乐搜索、抄袭检测、歌唱评价、作曲家风格分析等方面。

更进一步,音乐识谱(Music Transcription)是识别音乐中每个时刻发声的各个音符并形成乐谱的过程。通常首先基于矩阵分解技术进行歌声和各种伴奏乐器声音的分离;接下来在各个音源上寻找每一个音符的起始点并进行分割;随后进行多音高/多基频(f0)估计,提取每个音符的基频,根据MIDI音符表转换为音符的音名;最后利用音乐领域知识或规则进行后处理纠错。

2.音乐节奏(Music Rhythm)[2]159-171

音符起始点检测(Node Onset Detection)的目的是检测音乐中某一音符开始的时间,是各种音乐节奏分析的预处理步骤。一个音符在波形上可以体现为Onset(音符起始点)/Attack(音符上升段)/Transient(音符持续段)/Decay(音符衰减段)等几个部分。弹拨类乐器为Hard Onset(硬音符起始点),典型算法由子带分解、检测各子带能量峰值、合并后挑选结果等几个步骤组成;弦乐器吹奏类乐器为Soft Onset(软音符起始点),可通过检测和弦突变点求解。

图2 MIR领域包含的研究课题

节拍跟踪(Beat Tracking)是用计算机模拟人们在听音乐时无意识地踮脚或拍手现象的过程,是理解音乐节奏的基础,也是很多MIR任务的重要步骤。其一般依赖于音符起始点检测、打击乐或其他时间局域化时间检测。如果音乐偏重抒情没有打击乐器或者不明显,则可采用和弦改变点作为候选节拍点。

速度检测(Tempo Detection)通常与节拍跟踪同时进行,用于判断音乐进行的快慢,通常以BMP(Beats per Minute)表示。其可以应用于音乐情感分析,或者帮助帕金森病人恢复行走能力。一个经典方法是用带通滤波器计算每个子带幅度包络线,与一组事先定义好的梳状滤波器卷积,并对所有子带上的能量进行求和,最高峰值即为速度。

拍子检测(Meter Detection)、小节线检测(BarLine/Measure Detection)、强拍估计(Downbeat Estimation)的技术路线类似,通常基于节拍相似性矩阵、节拍跟踪和基于音乐知识的启发式规则。节奏型检测(Rhythmic Pattern Detection)基于模板匹配方法或者机器学习的节奏型标注,可用于音乐流派分析和音乐教学等。

3.音乐和声(Music Harmony)[3]1280-1289

自18世纪后半叶至今,主调音乐(Homophony)已经逐渐取代了复调音乐(Polyphony),而和声正是主调音乐最重要的要素之一。

和弦识别(Chord Detection)中最重要的音频特征为半音类(PCP[Pitch Class Profiles],或称 Chroma),即在12个半音类上与八度无关的谱能量的聚集。识别模型有模板匹配、隐形马尔科夫模型(Hidden Markov Model,HMM)、条件随机场(Conditional Random Fields,CRF)、支持向量机(Support Vector Machine,SVM)、递归神经网络(Recurrent Neural Network,RNN)等。

调检测(Key Detection)通过PCP特征来描述对调的感知,还可用调高分类器平滑减少音高的波动。其可用于音乐识谱、和弦检测、音乐感情计算、音乐结构分析等。

4.歌声信息处理(Singing Information Processing)[4]57-60

歌声检测(Vocal/Singing Voice Detection)是判定整首歌曲中哪些部分是歌声,哪些部分是纯乐器伴奏的过程。一般通过音频分帧,提取能够有效区分歌声和伴奏的音频特征(梅尔频率倒谱系数[Mel-Frequency Cepstral Coefficients,MFCC]、谱特征、颤音等),然后进行机器学习分类,最后使用平滑后处理去除奇异点。

歌声分离(Vocal/Singing Voice Separation)是指将歌声与背景音乐伴奏进行分离的过程。对立体声录音,假设歌声位于中央信道,可利用声源的空间差异性来定位和分离;对单声道录音,可采用基于音高推理(Pitch-based Inference)获得歌声泛音结构,或基于矩阵分解技术,或基于计算听觉场景分析CASA(Computational Auditory Scene Analysis)的方法。其可应用于在歌手识别、哼唱/歌唱检索、卡拉OK伴奏等。

歌手识别(Singer/Artist Identification)判断一个歌曲是由集合中的哪个歌手演唱的,框架类似于说话人识别/声纹识别。歌声与语音之间存在巨大差异,技术上更困难。其可用于按歌手分类管理大量歌曲、模仿秀。

歌唱评价(Singing Evaluation)含两部分。基础评价包括计算两段歌声各种音频特征如音量、音高、节奏、旋律、颤音等之间的相似度,高级评价包括感情、音域、声音质量、音色辨识度、歌唱技巧等。

歌词识别(Lyrics Recognition/Transcription)与语音识别技术框架类似,区别在于:歌词非匀速进行且音高变化范围大;歌唱根据旋律和节奏的进行、颤音和转音等技巧来控制声带的发声方式、发声时间和气息稳定性;同一个人歌唱和说话音色有很大不同;歌词具有一定艺术性需要押韵;等等。其可应用于歌曲检索、歌曲分类、歌词与音频或口型对齐等。

(二)应用层MIR研究

1.音乐搜索(Music Retrieval)[5]231-236

音乐识别(Music Identification)录制一个音乐片段作为查询片段,计算音频指纹后与后台指纹库进行匹配,将最相似记录的歌曲名、词曲作者、演唱者、歌词等元数据返回,其核心是音频指纹技术(Audio Fingerprinting)。

哼唱及歌唱检索(Query by Humming/Singing)录制一段哼唱或歌唱声音作为查询片段,计算音频特征后在数据库中进行相似性匹配,并按匹配程度高低返回结果列表,难度比音乐识别更大。一般使用旋律编码特征(音高轮廓、音程、音长、音高变化、音长变化)等进行旋律匹配,匹配手段有字符串近似匹配、动态时间规整、编辑距离、隐形马尔科夫模型等。[4]57-60

多版本音乐识别或翻唱识别(Cover Song Identification)用于判断两首音乐是否具有同样的本源。特点是主旋律基本相同但音乐结构、音调、节奏、配曲、演唱者性别、语言等可能会发生巨大变化。一般提取稳定的音乐中高层特征,在各个版本的整首音乐或音乐片段间进行匹配。

敲击检索(Query by Tapping)根据输入的节拍信息,从数据库中返回按节拍相似度高低排序的音乐列表,没有利用音高信息。一般提取音符持续时间向量作为特征,归一化处理后动态规划比对并排序返回。

音乐借用(Music Borrowing)检测不同歌曲之间旋律相似的部分。与音乐识别相比,音乐借用也检测相似短片段,但后者不知道该片段在歌曲中的起始位置及长度。其可用于抄袭检测。

2.音乐情感识别(Music Emotion Recognition,MER)[6]227-244

音乐情感识别涉及心理学、音乐学、AI技术。其有两种技术路线:一是利用Hevner或Thayer情感模型将MER归结为单标签或多标签分类问题;二是归结为基于Arousal和Valence(AV)值的二维AV情感空间回归预测问题。MER广泛应用于音乐选择、影视制作、音乐推荐、音乐治疗等场景。

3.音乐流派 /曲风分类(Music Genre Classification)[7]282-289

通过音频特征提取和统计分类对音乐内容进行分析,可将音乐分为流行、摇滚、爵士、乡村、经典、蓝调、嘻哈、迪斯科等类别。

4.作曲家分类(Music Composer Classification)

读取一段音乐,通过音频特征和统计分类器(如决策树、SVM)等方式分析音频数据内在的风格,可识别出相应的作曲家信息,常用于音乐理论分析。

5.智能乐器识别(Intelligent Instrument Recognition)

识别多声部/多音音乐中的各种乐器/主乐器。传统技术框架为音频特征提取(如LPC[Linear Predictive Coding,线性预测编码]、MFCC、常数 Q 变换倒谱系数、基于频谱图时域分析的音色特征、基于稀疏特征学习得到的特征)和统计分类器GMM(Gaussian Mixture Model,高斯混合模型)、SVM、贝叶斯决策等,近十年又发展了基于深度学习(Deep Learning)的新方法。

6.音乐结构分析(Music Structure Analysis)[8]625-636

通过自相似矩阵、递归图、子空间聚类等方式把音频流分割为一系列具有音乐意义的时间区域,如前奏、主歌、副歌、桥段和结尾,常用于音乐理解、多版本音乐检索、乐句划分、音乐摘要、音频水印等。

7.音乐摘要 /缩略图(Music Summary/Thumbnail)

通过初步的音乐结构分析寻找最合适的片段作为摘要,一般以副歌和附近乐句为主,可应用在彩铃、浏览、搜索中。

8.音乐推荐(Music Recommendation)[9]1366-1367

分为基于用户历史行为的个性化音乐主动推荐,基于情感的推荐和基于场景(如工作、睡觉、运动)的推荐等。音乐推荐一般使用三种技术框架,即协同过滤推荐(相似偏好用户群喜好的音乐)、基于内容的推荐技术(根据音乐间的元数据或声学特征的相似性推荐),以及混合型推荐(多模态数据)。

9.音乐标注(Music Annotation/Tagging/Labelling)

应用于复杂的音乐发现、建立语义相似的歌唱播放列表、音效库管理、音乐推荐等场景。首先进行人工标注,给音乐和音频赋予描述性的关键字或标签;之后采用机器学习模型学习音频内容与标签之间的关系并进行自动标注。困难之处在于实际待标注的标签内容本身无法确定,且难以客观评价标注质量。

10.歌声与歌词同步

音乐电视节目的理想情况是歌声、口型、歌词三者精准同步。这是一个典型的结合音频、视频、文本三种媒体的多模态研究。截至目前,尚未发现关于三者同步的研究,仅有少量关于歌声和歌词同步的研究。

三、与MIR相关的其他音乐科技研究课题介绍

在传统的MIR技术中,并不包括算法作曲、歌声合成、音频水印、音视频结合等内容。考虑到这些技术也属于音乐科技中十分重要的方面,这里也进行简要介绍。

(一)自动/算法/AI作曲(Automated/Algorithmic/AI Composition)

指在音乐创作时部分或全部使用计算机技术,减轻人(或作曲家)的介入程度。用编程的方式来生成音乐,一般用语法表示、概率方法、人工神经网络、基于符号规则的系统、约束规划和进化算法、马尔克夫链、随机过程、基于音乐规则的知识库系统、深度递归神经网络等对时间域旋律进行预测。

(二)歌声合成技术(Singing Voice Synthesis,SVS)

通过共振峰参数合成法、采样合成/波形拼接合成等方式,将歌词按照乐谱合成为歌声,应用于虚拟歌手、玩具、练唱、音色转换等多个场景。由西班牙MTG提供核心技术,日本雅马哈公司商业化的“初音未来”即是一个最典型的代表。

(三)数字音频水印技术(Audio Watermarking)[10]100-111

数字音频水印[10]100-111是在不影响原始音频质量的条件下向其中嵌入具有特定意义且易于提取信息的技术,嵌入的水印能够经受各种时域频域的音频信号失真及同步失真。该技术可用于保护版权、广播监控、盗版追踪、内容标注等。

脆弱/半脆弱音频水印用于数字音频作品的真实性和完整性保护。脆弱水印用于检测宿主数据发生的任何变化,半脆弱水印融合鲁棒水印与脆弱水印的特性,能够抵抗有损压缩、噪声等常规音频信号失真,以及对剪切、替换、恶意篡改等非法操作敏感。

音频取证(Audio Forensics)包括被动音频认证,基本方式包括听觉测试、频谱图/频谱分析等,高级方式包括特征提取和统计分类。

(四)音视频结合

人类感知的本能告诉我们,应大力开展融合音视频的跨媒体科技研发。典型应用有音乐可视化、基于视频速度和音乐情感进行的电影情感事件检测等。

四、总结与展望

当前的MIR技术发展仍然面临诸多困难。从数据角度看,很多数字音乐涉及版权无法公开,各种音频数据都源自特定场合和物体,难以搜集和标注;从信号角度看,音乐中各种乐器和歌声在音高上形成和声,在时间上形成节奏,耦合成多层次的复杂音频流,难以甚至无法分离处理,从而影响后续各个应用。

由于国内教育体制原因,艺术界与科技界割裂严重。20世纪90年代时开始,各音乐院校逐渐开始设立音乐科技/音乐工程系。但是直到现在,音乐科技仍然严重依赖引进设备、软件进行艺术创作,重实践轻理论的观念根深蒂固,没有底层计算机软硬件核心技术的研发能力。在理工科领域里进行音乐科技研发的团队和相关公司近十几年刚刚起步,目前整体力量还不够强大。

随着中国经济的快速发展,近五年来,社会对音乐科技类的计算机软硬件、互联网产品的需求急剧增加。可喜的是,从小接受过音乐训练的理工科大学生数量越来越多,为该领域未来的发展提供了潜在的人力资源。2013年由复旦大学和清华大学创办的全国声音与音乐技术(Conference on Sound and Music Technology,CSMT)会议及交流平台也对整个领域的发展起到了巨大的推进作用。

总体来讲,在当代社会,艺术与科技相融合是大势所趋。无论从科技还是文化角度来讲,音乐科技领域都具有很强的理论、应用、文化及社会价值。在不久的将来,音乐科技一定会迎来它发展的辉煌时期。

猜你喜欢

音高音符音频
乔治·克拉姆《螺旋的银河系》的镜像世界
里盖蒂《小提琴协奏曲》中的“双律制音高组织”研究
论高平钢琴奏鸣曲《浮影》中纵向音高组织的逻辑运用
美妙音符
春天的音符
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
基于Daubechies(dbN)的飞行器音频特征提取
改进音高轮廓创建和选择的旋律提取算法
音频分析仪中低失真音频信号的发生方法
Pro Tools音频剪辑及修正