乐音识别技术的应用研究

2021-11-07孙梦青

消费电子 2021年4期

孙梦青

1.相关概念

乐音（musical tone），发音物体有规律地振动而产生的具有固定音高的音称乐音。乐音是音乐中所使用的最主要、最基本的材料，音乐中的旋律、和声等均由乐音构成。从声学分析角度，乐音有三个要素：音调（音高）、响度（音强）、音色，也可以用基频、振幅和倍频来表示。

音量，即声音强弱，跟发声体的振幅大小有关。

音色/音品（Tone），由声音波形的谐波频率和包络决定，包括基频所产生的基音和各次谐波的微小振动产生的泛音。音色通常代表人类对声音的感觉特性。泛音的不同决定了音色的不同。

音符（Note），是用来记录不同长短的音的进行符号，它是乐音的最基本表示单位，是音乐的最基本要素。音乐中的一个音符，表示在音乐中某一时刻发出了什么声音，以及声音的持续长度。

音符的识别主要包括音高估计和时值估计。

基频/主频（Fundamental Frequency），是基音频率的简称，即物理学上的本征频率，通常是指声音中使得声音达到最强的那个最低频率。基频决定了声音的基础音调。

时值（Note Values），指一个音符持续的时间，本质上是发声体发生振动的持续时间。

全音符（Whole Note），是一种音符时值基准。确定了一个全音符时间长度，就可以以此为基础，定义其它音符的时值。

复调（polyphony），指由几个声部构成的多声部音乐，即同一时刻存在多个旋律同时发音，与单声音乐相对。

基音检测/提取（pitch exaction），即对基音频率的估计，采用技术手段得到声源体振动的基音频率轮廓图。

音乐特征识别。从音高、音色等基本特征，节奏、旋律等复杂特征，曲式结构、音乐风格等整体特征三个维度进行信息提取和识别。

音频信息检索，是指从音频资源中找到满足用户所需信息的匹配、定位过程。具体实现的途径包括基于文本标注的检索和基于内容的检索等。

自动音乐标注技术，也称自动音乐记谱或乐谱自动识别，广义上讲，指将音乐演奏的声学信号所对应的乐谱信息自动翻译出来，即将音乐数据的表示形式从其他形式转换成乐谱形式。自动音乐标注技术主要包括音符识别与音高估计、节拍与节奏识别、旋律与和声提取以及多基频估计等几个方面。

2.乐音识别技术的应用

乐音识别领域的相关技术蓬勃发展。业内出现了ISMIR（音乐信息检索国际会议）、ICMC（计算机音乐国际会议）、CSMT（中国声音与音乐技术会议）、ICASSP（声学、语言、信号处理国际会议）等国内外高水准学术会议，Computer Music Journal、Journal of New Music Research等期刊持续发表高水准研究成果。技术的进展为乐音识别的广泛应用提供了技术。

20世纪90年代以来互联网的高速发展，使得用户可以接触到海量的数字音乐资源。传统的资源分类和管理依靠文字标签实现分类，不能满足用户基于音乐本身信息检索和运用的旺盛需求。这就为乐音识别的广泛应用创造了市场条件。

乐音识别技术的应用领域涉及声学、音频信号处理、人机交互、软件工程、作曲编曲及音乐制作等多个学科，体现了多学科门类交叉融合的特点。

乐音识别技术成功的在以下几个方向实现了工程化应用。

2.1音乐识别系统（Music Recognition System）。伦敦大学推进的OMRAS项目衍生出音乐可视化软件Sonic Visualiser，可以实现音乐的音高、节奏和音量信息的识别与提取。中国科学院声学研究所在该领域也推出了高水准的专业平台产品。当前的音乐识别系统对音乐片段开展识别匹配，计算Chroma、节奏直方图、节拍、MFCC峰值等音乐特性，而后与音乐数据库中记录进行匹配。网易云音乐、ACRCloud等商业机构都实现了基于人声、音频的音乐识别功能，在PC端和移动端实现高效识别和与海量音乐声纹库的匹配。

2.2音乐信息检索（Music Information Retrieval）。音乐信息检索包括音乐流派风格识别、音乐情感识别、作曲家信息识别、音乐结构分析等。本文仅以音乐流派风格识别为例进行介绍。

音乐流派风格的识别起源于20世纪90年代，业内试图通过音乐专家开展人工筛选，將音乐区分为不同类型，这就是Music Genome Project（音乐染色体工程）。但是面对海量音乐数据，人工分类效果不佳。美国研究人员试图通过音乐数据的计算均值、方差、自相关系数等参数的提取，结合乐音基本特征来进行筛选。进入21世纪，G.Tzanetakis等人开展了基于乐音结构的提取实验，对歌曲的一小部分随机取样，用于学习歌曲的特定特征，然后使用训练好的分类器对整个歌曲进行分类和分割，借此区分音乐的流派和风格。Lin等人利用小波和SVM技术改进的乐音分类方法，对音频数据进行精确分类，将分类误差从8.1%降低到3.0%左右。2017年，王芳等人针对音乐流派和中国传统乐器识别分类问题，研究并改进了基于深度置信网络的音乐流派识别分类算法，对GTZAN库的十大音乐流派进行识别分类的准确率最高达75.8%，对自建中国传统乐器音乐库的六种乐器进行识别分类的准确率最高达99.2%。

2.3计算机音乐生成。计算机音乐生成也称自动作曲或算法作曲（Algorithmic Composition），最早始于1957年。Mozer于1994年开发了CONCERT系统，运用人工神经网络来生成音乐。2009年，Nierhaus等人出版专著《Algorithmic composition： paradigms of automated music generation》，介绍算法作曲的数学原理和范例。2015年，Nayebi等人通过实验比较了基于字符级长短期记忆网络（LSTM）和递归神经网络在音乐生成中的效果，最终确认了LSTM算法在计算机音乐生成中的优势。2017年，王程等人实现了基于LSTM网络的计算机音乐生成方法，并分析了其不同网络结构在计算机音乐生成的效果，实现端到端训练。

至此，应用领域已经可以通过给定的要求让计算机产生相对完整的乐音旋律，并且对已有乐音部分进行内容接续创作。尽管人们对其艺术效果、水平的评价各有差异，但是计算机音乐生成已经具备了初步的生产力和生命力，这一点是毋庸置疑的。

2.4数字音频的版权保护。

数字时代，音乐产品的市场容量十分巨大。随之而来的，是盗版下载、未授权播放、扒流（stream-ripping）等行为给音乐生产方带来的巨大损失。据测算，《Divide》等三张随意挑选统计的专辑，在2019年7月一个月内被非法下载了超过100万次，给音乐制作行业和音乐零售商造成1000万美元的损失。

数字音频作品的版权保护主要通过鲁棒数字音频水印（Robust Audio Watermarking，RAW）和音频指纹技术（Audio Fingerprinting）。常见的频域鲁棒数字音频水印是在人类听觉最敏感的中低频段内嵌入水印，在保证人耳无法识别的情况下为机器识别和判断提供便利;音频指纹则是首先提取音乐文件时域和频域的特征信息，通过特定模型获得指纹，而盗版、翻录的音频片段的失真会造成音频指纹匹配失败。

乐音识别技术的应用，虽然不能完全杜绝盗版等行为的发生，但是为非法行为的甄别锁定创造了技术条件。

3.乐音识别技术的应用发展趋势

经过多年发展，乐音识别技术的发展体系浙成，日益完备。单音及其要素的识别提取手段丰富，多音、复调识别运用方面不断取得突破。

乐音识别技术的应用场景广泛，其发展和应用出现了“普及化”和“专业化”两极并举的趋势。一方面，随着硬件性能的提升和算法的不断成熟完善，乐音识别技术已经开始与移动互联网络与终端结合，进入普通用户的生活，在听歌识曲、哼唱检索、翻唱检索、音乐分类及推荐、卡拉OK应用等场景下发挥了越来越重要的技术支撑作用。另一方面，在音乐工业级的伴奏生成、自动配乐、音乐内容标注、音乐合成及转换、智能作曲、数字乐器、音乐编辑制作等专业方面，乐音识别也发挥着越来越重要的作用。

在本质上，都是由于乐音识别技术可以极大的减轻人力认知、识别音乐的成本和难度，从而涌现出巨大的研究价值和商业价值。相比之下，围绕乐音识别技术及其应用的相关问题，国内研究力量起步較晚，研究工作的连续性不足，同时兼具音乐理论基础和工程技术能力的团队不多，艺术和科技领域的融合有待进一步加强。中国的移动互联网产业已经走在世界前列，数字音乐资源几近极大丰富。如何更好的研究、发展和运用乐音识别技术，仍然是一个非常有价值的问题，值得更多的同志关注。