基于声学特征的乐器研究
2017-11-06金山
金山
【摘 要】论文基于声学特征的乐器研究,将从乐器的基础知识入手,结合特征抽取研究,对乐器音频信号的声学特征展开论述。最后,提出乐器分类的具体方法。希望此研究能为音频与音乐信号研究分析提供参考性建议。
【Abstract】The research of musical instruments based on acoustic characteristics will begin with the basic knowledge of musical instruments. And combining with the research of feature extraction, this paper discusses the acoustic characteristics of musical instruments audio signals. Finally, the concrete method of musical instrument classification is put forward. It is hoped that this study can provide reference for the research and analysis of audio and music signals.
【关键词】声学特征;乐器识别;乐器分类;倒谱参数
【Keywords】acoustic characteristics; musical instrument recognition; musical instrument classification; cepstrum parameters
【中图分类号】O14 【文献标志码】A 【文章编号】1673-1069(2017)10-0120-02
1 引言
乐器,是指可以用不同方法奏出声音的工具,在主要研究的西方乐器中,按照声学特征分类,可将其分为木管乐器、弦乐器和铜管乐器。同类的乐器在音色上是类似的,人的听觉系统不好进行区分,如长号和圆号。在机器识别中,也会面临这样的问题。基于此,本文针对声学特征的乐器识别领域展开研究。
2 乐器的基础知识
乐器会产生整数倍频率的声波,此频率为泛音。其中,与乐器音色相关的参数是基频。除基频以外,谐波部分的比例决定着音色,不同乐器的识别度来源于音色。比如,同样频率的声音,强度相同,由于不同的音色,人的听觉系统能够分辨出声音来自何种乐器。乐器的音频是对声音进行数字化处理后的结果,可分为物理样本层、最高语义层、声学特征层。其中,声学特征层是乐器研究的关键层。另外,音频的常用格式包括Wav格式、MIDI格式、MP3格式等。
3 特征抽取研究
对于不同音乐片段,或者不同乐器独奏表演,基于不同声学特征进行识别,其识别结果不同。为了能够在识别乐器时表现出突出特征,必须以找到良好声学特征作为前提。因此,加强对声学特征的乐器研究具有重要意义[1]。抽取的特征可分为五大类,其中,时域特征是将乐器音频作为整体计算,能量特征包括和声、噪声等能量。波谱特征是基于信号的傅里叶变换特征,和声特征是基于信号声模式的计算特征,感知特征是利用人类听觉过程模型进行计算的特征。
4 乐器音频信号的声学特征
4.1倒谱系数
在倒谱系数中,共振峰是音质的决定性因素,也是语音识别的必要信息,处于声音频谱中能量较为集中的区域,能够充分反应声道物理特征[2]。倒谱系数就是共振峰的表现形式,其定义为:c(n)=F-1{log {F[y(n)]}}。其中,F代表离散傅里叶变换,结合同态处理方法,针对语音信號进行变换,以此提高特征参数稳定性。但是,倒谱系数由于计算效率低,在实际的乐器识别中应用很少。
4.2 MFCC系数
基于人耳听觉特征,Mel频率被提出。而MFCC就是利用Mel频率与赫兹频率的非线性对应关系,得到的频谱特征。目前,该系数已经广泛应用在语音的识别领域中。但是由于两个频率之间的对应关系,导致该系数计算精度下降。因此,在实际的应用中,只使用低频MFCC[3]。MFCC系数的提取,首先是经过预滤波,然后经过模数变换进行预加重,再经过分帧和分窗进行傅里叶变换等。
4.3 线性预测倒谱参数
线性预测分析,是基于声道短管级联模型,根据系统传递相关函数形式,对信号线性组合进行估计的过程。其倒谱参数能够反应声道的响应,几十个倒谱系数,就能够具有较明显的共振峰特性,适应于语音识别,在乐器识别中也得到了应用[4]。线性预测的计算方法有很多,包括格型法、自相关法等,其提取包括两个重要过程,一是求解线性预测LCP,根据LCP分析阶数,求解线性预测系数。二是求LCP的倒谱系数LPCC。
4.4 振幅包络特征
乐器的声音是一种压力波,具有音调、振幅、音量等特征。声音的变化过程,主要分为两个阶段,即上升阶段和衰变阶段。上升过程,主要是指从上升趋势开始,一直到声音振幅最大的过程。乐器发出声音时,乐器上升过程时间和振幅具有差异性,以此达到识别乐器的目的[5]。衰变过程即为相反,就是声波从最大一直衰减到无声状态所需要的时间,其形成的特性为“振幅包络”。另外,振幅调制特征中,RMS能量计算可以用来抽取振幅调制属性,首先,使用低通滤波计算包络,通过强度和试探强度,对颤音频率和强度进行表示。
4.5 波谱质心
波谱质心具有简单和有用特性,是基于声音的“刺耳”、“活泼”提出的。通过短时声谱频率的对数,对SC的平均值进行计算,将其标准差值作为特征进行乐器识别。但是,由于音乐和声波谱的难预测特性,在对滤波器输出计算后,可以稳健得到SC,其计算波谱质心的等式为f=Σ■■p(k)f(k)/Σ■■p(k)。其中,K是滤波器通道序列,B为总通道数,中心频率为f(k),均方根值为p(k)。endprint
4.6 其他特征
除了以上特征以外,还有许多其他的声学特征,比如常量Q系数、MPG7谱平整度等,常量Q系数的频率衍生,可以应用在有效识别乐器当中。MPG7谱平整度是基于许多频谱段计算出来的,该特征在乐器识别中具有一定的用处,能够精准的描述出频谱平整度。另外,还有上升异步性特征等,通过正弦包,对不同和声整体包络进行计算。
5 乐器分类方法
基于以上对乐器音频信号声学特征的分析,提出乐器的几种常见分类方法如下:
①最近邻。最近邻的分类算法,在理论上较为成熟,是在机器识别乐器中的最简单的学习算法之一。其思路为:找出特征空间最相似的样本。在KNN算法中,基于极限定理,选择好正确分类对象邻居,在定类上依据最邻近的样本类别进行分配。
②决策树。决策树是监督分类算法的一种,广泛应用于机器的学习模式识别中。在树型结的流程图中,树的内部节点表示对象属性,其分支为对象数据分割,每条分支路径表示某个属性值,树中叶节点表示的是对象值,整个决策树能够反映对象属性与对象值。
③支持向量机。基于统计学习理论的VC理论下,支持向量机方法被提出。根据特定训练样本的学习精度及血虚能力,在二者之间寻求最佳的折衷,进而实现较强的推广能力。支持向量机方法根据样本的不同,可分为线性最优分类超平面、线性不可分情况、多类分类问题和函数及选择问题。
④高斯混合模型。高斯混合模型,是对多个N维高斯分布概率密度函数的组合,可以对概率空间的分布进行描述。在无监督的训练方式下,该模型能够得到实现。因此,所需存储空间及运算是系统实现的必然前提。尤其是对于不同模式的初分类而言,高斯混合模型在说话者识别上,以及语音识别上得到广泛使用。同样,高斯混合模型也适用于乐器的识别。
6 结论
乐器识别技术及音乐处理技术,在未来会成为很有前途的研究方向。对此,本文以声学特征的乐器为研究对象,在乐器基本知识基础上,结合特征抽取研究,对乐器音频信号的声学特征进行了深入分析,主要包括倒谱系数、MFCC系数、线性预测倒谱参数、振幅包络特征、波谱质心、其他特征等重点内容。最后,得出以下乐器分类的几种方法:第一,最近邻法;第二,决策树;第三,支持向量机法;第四,高斯混合模型法。希望本文的研究,能为音频与音乐信号研究分析提供借鉴,进而加深音乐爱好者对乐器的认识。
【参考文献】
【1】张有川.民族低音拉弦改良乐器的音响结构特征[J].演艺科技,2017,28(05):7-10.
【2】格桑曲杰.再探藏族“囊玛”艺術的起源与称谓——西藏聂拉木县充堆民间音乐实地考察与分析[J].西藏大学学报(社会科学版),2017,32(01):58-77.
【3】秦丽丽,苗媛媛,刘镇波.泡桐木材主要物理特征及化学组分对其声学振动性能的影响[J].森林工程,2017,33(04):34-39.
【4】庄严,于凤芹.结合节拍语义和MFCC声学特征的音乐流派分类[J].计算机工程与应用,2015,35(03):197-201.
【5】周和明,铁梅,罗兆麟.新型低音弓弦乐器桥琴的音效提高研究[J].沈阳师范大学学报(社会科学版),2015,35(04):169-170.endprint