VMD与PSO的乐器声音识别

2018-06-01黄英来任田丽赵鹏

哈尔滨理工大学学报 2018年2期

黄英来任田丽赵鹏

摘要：针对乐器音频信号的识别率低的问题，提出了一种变分模态分解（ VMD）和被粒子群算法（PSO）优化的支持向量机（SVM）的乐器音频信号识别的方法。采用VMD将乐器音频信号分解成一系列平稳的窄带分量（IMF），并根据相关系数重构信号，采用小波去除残余的噪声。最后，在分析传统的声音特征提取方法基础上，提取梅尔频率倒谱系数（MFCC），用经PSO寻优参数的SVM进行音频信号的分类。实验结果表明，本文算法的去噪效果明显优于经验模态分解（EMD）和集合经验模态分解（EEMD）的分析结果；PSO优化后的SVM有效的提高了噪声环境下音频信号分类的正确率。

关键词：变分模态分解；小波去噪；梅尔频率倒谱系数；粒子群算法；支持向量机

DOI：10.15938/j.jhust.2018.02.002

中图分类号： TP391

文献标志码： A

文章编号： 1007-2683（2018）02-0006-06

Abstract：Proposing the method that based on the variational mode decomposition （VMD）and particle swarm optimization （PSO）optimized support vector machine （SVM）are used to recognize the audio signals of the musical instruments aiming at the problem of the low recognition rate of musical instruments audio signals. In this paper， firstly， the instrument audio signals are decomposed into a series of stable narrowband components （IMF）by VMD. After decomposition， according to the correlation coefficient we reconstruct the signals， then using the wavelet to remove the residual noises. Finally， based on the analysis of the traditional sound features extraction method， extracting the Mel frequency cepstral coefficients （MFCC）and then SVM whose parameters are optimized by PSO is used to recognize the audio signals. This expserimental results show that the denoising effect of the proposed algorithm in this paper is better than that of empirical mode decomposition （EMD）and ensemble empirical mode decomposition （EEMD）； SVM optimized by PSO effectively improve the accuracy of audio signals classification in noisy environment.

Keywords：variational mode decomposition；wavelet denoising； Mel frequency cepstral coefficients； particle swarm optimization； support vector machine

0 引言

乐器的分类识别[1]是指对待识别音频信号的音色进行分析，进而识别出乐器种类。乐器识别[2]在音频的自动检索和分类的方面发挥着较大的作用，此工作对于具有较强的音乐功底的人来说较容易较高的识别率，但是大部分的人没有较强的音乐功底，所以必须教会计算机如何自动识别乐器音频种类，从而达到准确识别乐器音频信号的种类和省时省力的目的。

在声音产生、处理、传输过程中都或多或少的掺杂着不同的噪声，几乎不存在纯净的噪声，所以，一般声音识别[3]系统需要对充满复杂多样的噪声以及信噪比多变得声音进行去噪[4]、提取特征[5]、分类[6]。

近年来，国内外众多专家学者对声音去噪采取了很多方法：小波变换、经验模态分解（empirical mode decomposition ， EMD）、独立分量分析（independent component analysis， ICA）、集合经验模态分解（ensemble empirical mode decomposition， EEMD）等。其中，传统的ICA[7]具有相位、幅值、输出顺序不确定性；小波變换存在时域分辨率低；EMD[8]存在模态混叠和端点效应；EEMD[9]是优化后的EMD，虽然其成功解决了EMD的模态混叠，但是增加了计算量且不能完全去除高斯白噪声，依然存在端点效应。针对这些算法的各种问题，本文提出了一种基于变分模态分解（variational mode decomposition， VMD）与小波变换相结合的声音去噪算法。VMD[10]是由 Dragomiretskiy K提出的克服EMD的模态混叠的一种完全非递归的去噪算法，其运算效率高而且去噪效果更令人满意。然而VMD无法一步到位的完全实现对声音信号与噪声信号的分离，所以根据经VMD分解后的各分量与原始声音信号的相关系数来重构信号，之后再用小波变换继续去除剩余的噪声。

目前，最常用的特征参数主要有线性预测倒谱系数（ linear prediction cepstral coefficent，LPCC ）和梅尔频率倒谱系数（mel frequency cepstrum coefficent，MFCC）。LPCC[11]不能很好地区分清音和浊音。而且LPCC 对噪声敏感，在外界存在干扰时，识别率会大大降低。MFCC[12]主要描述的是声音信号在频率域上的能量分布，其能够较好地模拟人耳听觉系统的感知能力。因此，本文在对声音信号去噪后提取声音特征MFCC。

支持向量机（support vector machine，SVM）在解决小样本、非线性及高维模式识别中表现出许多特有的优势。一般常用的用于优化SVM[13]参数从而提高识别率的算法有遗传算法（genetic algorithm，GA）与粒子群算法（particle swarm optimization，PSO）。PSO与GA都致力于在自然特性的基础上来模拟个体种群的适应性，均利用一定的变换规则通过搜索空间来求最优解。然而，PSO[14]没有GA的交叉和变异操作，而是根据自己的速度阿里决定搜索；PSO有记忆，GA[15]没有记忆；在GA算法中，染色体之间相互共享信息，PSO[16]算法中的粒子仅仅通过当前搜索到最优点进行共享信息。所以，在大多数情况下，PSO[17]可能比GA更快地收敛于最优解。本文采用PSO优化SVM的参数，从而提高乐器音频信号分类的正确率。

1 VMD算法

VMD是一种自适应的时频分析算法，算法不复杂，计算量小。其假设分解后的每个分量IMF具有不同的中心频率，其通过不断迭代来更新各个有限带宽以及其相应的中心频率，从而得到若干个时域的模态分量。VMD自适应地分解声音信号为若干个分量的过程主要是由变分问题的构造与求解组成。

1.1 变分问题的构造

1）每个模态经过Hilbert变换计算相应的解析信号，从而得到其单边频谱如式（1）所示：

3）计算以上解调信号的梯度的二范数，从而对各个模态的带宽进行估计，得到一个变分约束问题如式（3）：

1.2 变分问题的求解

1）为了有效的求解上述变分约束问题的最优解，VMD算法引入了二次惩罚因子α和拉格朗日乘法算子λt，来把约束性变分问题变为非约束性变分问题。构成的增广拉格朗日表达式如式（4）所示：

2 基于VMD和小波去噪的算法

为了减少混合声音中的有用的乐器音频信号的损失，经过VMD算法重构的声音是含有少量噪声的声音信号。所以，本文提出了基于VMD和小波去噪的算法，从而有效的保留有用的声音信号，去除噪声。具体的去噪步骤如下所示：

1）采用VMD算法对含有噪声的乐器音频信号进行分解，得到一系列的IMF。

2）计算各个IMF与纯净乐器音频信号的相关系数，根据相关系数最大准则选择含有少量噪声的IMF作为主分量，并用主分量重构信号。

3）采用小波[18]对重构的乐器音频信号进行后续去噪。其中，本文选择VisuaShrink阈值准则的软阈值函数的小波进行去噪。每个分解尺度采用不同的阈值，阈值T求解公式如式（9）所示：

3 PSO算法

PSO算法的基本思想是通过群体中个体之间的相互协作和共享信息来搜索最优解的。在搜索最优解的过程中，全局搜索能力与局部搜索能力的平衡关系对于成功求解最优解起着至关重要的作用。

4 实验结果与分析

本实验选用二胡、钢琴、古筝、唢呐等4种乐器作为乐器识别的种类。本实验将每个乐器音频文件切分成长度为1s的音频文件，本文分别采集这4种乐器各250个样本。

在预处理过程中，声音信号加窗处理时采用汉明窗，帧长设置为256个样本点，帧移设置为128个样本点。在小波去噪过程中，本实验采用sym8小波基作为小波分解的基函数，分解层数为5层。本文提取12维的MFCC特征。本文采用5折交叉验证的SVM对特征参数进行训练与识别，其中，SVM采用径向基核函数作为核函数。

4.1 实验一：去噪

从二胡、唢呐、钢琴、古筝的音频样本中随机取出一个音频样本，这个被选择的音频样本如图1中的源音频信号所示，向该音频信号里加入-5dB的高斯白噪声，图1中的纯净音频对应的混合音频信号如2所示。图1和图2的横坐标均为时间，纵坐标均为幅值。从图1、2中可以看出，图1与图2相差甚远；当原始声音信号与高斯白噪声混合在一起时，原始音频信号完全被高斯白噪声污染了，混合音频信号的时域波形严重失真了。

为了验证VMD[19]算法去噪性能的优越性，所以本文分别应用EMD算法，EEMD算法、VMD算法进行该混合音频信号的去噪实验。由于EMD算法与EEMD算法都无法确定分解的模态分量的数量，所以本文只展示它们的前8阶IMF的时域波形图。

图3是EMD处理本文的混合信号的前4阶IMF时域波形图，图4是EMD处理本文的混合信号的5～8阶IMF时域波形图。从图3、4可以看出，通过EMD分解的前8阶IMF对噪声较为敏感，在分解过程中出现了端点效应。

图5是EEMD处理本文的混合信号的前4階IMF时域波形图，图6是EEMD处理本文的混合信号的5～8阶IMF时域波形图。从图5、6中可以看出，通过EEMD分解的前8阶IMF的过程中也出现了端点效应，使得分解结果失真严重。

在利用VMD算法对信号进行变分模态分解前，必须要确定分解后的模态数量（K）。VMD算法对预处理之后的混合音频信号进行分解得到多个变分模态分量以及各个分量相对应的中心频率。由于每个变分模态分量是以中心频率的大小来区分的，所以可以通过观察对比分析各个模态分量的中心频率来确定最适合的K值。本文判定当一次分解后，如果有两个分量的中心频率相差小于1000Hz时，则认为是过度分解。本文实验对该混合音频信号应用不同的K值来分解，分解后获得的相应的中心频率如表1所示。

从表1中可以看出：当K=5时，IMF4与IMF5的中心频率分别3760.4Hz、4642.6Hz，两者相差小于1000Hz，过度分解了。所以，本文的VMD分解实验设置K=4。图7是混合信号经过VMD算法分解后得到的4个IMF的时域波形图。

本文先分别计算由EMD、EEMD、VMD得到的各个分量与纯净声音信号的相关系数，然后分别选择最大的分量分别进行声音重构。EMD算法选择第7个IMF进行声音重构，EEMD算法选择第6个IMF进行重构声音，VMD算法选择第1个IMF进行重构声音。图8～10分别是EMD、EEMD、VMD重构的声音信号在时域的波形图。

从图8～10中的各个时域波形图可以看出：EMD算法重构的声音信号与原始纯净声音相差大；EEMD去除噪声的同时，也去除了大量有用的信息，而且有大量的高斯白噪声被保存了下来；EEMD算法得到的重构声音中除了保留了大量的高斯白噪声，重构声音的幅值与原始声音相差较大；VMD算法去除了大部分高斯白噪声，只余少量噪声，其重构的声音波形图与原始声音的波形最为相似，波形失真较小。因此，在对乐器音频信号去噪试验中， VMD算法比EMD算法和EEMD算法有更好的去噪效果，VMD算法重构的声音信号的信噪比为2.426dB。

本文通过小波对VMD算法重构的声音信号去噪后得到的波形图如图11所示。

从图11中可以看出，小波将有用的声音与高斯白噪声相互分离，去噪后的波形图更接近于原始声音波形，小波后续去噪后得到的声音信号的信噪比为4.116dB。

4.2 实验二：分类

通过实验一可知，VMD与小波联合的去噪方法去噪效果好，所以本文在提取小波去噪后的声音信号的MFCC特征后，通过用PSO算法优化参数的SVM算法对乐器音频信号进行分类。

为了验证被PSO算法优化的SVM能更好的提高分类的准确率，本文对比分析用不同分类方法进行乐器音频信号分类的识别率大小。不同分类方法的识别率如表2所示，从表2可以看出PSO比GA对SVM有更好的优化能力；在SVM、被GA优化的SVM与被PSO优化的SVM这3种分类方法中，本文采取的分类方法获得了最高的识别率。

5 结论

本文先利用VMD算法去除乐器音频信号的大部分噪声，接着用小波进行后续去噪，然后提取MFCC[20]特征，最后用被PSO优化的SVM进行训练与识别，从而达到对乐器音频信号进行乐器种类识别的目的。本文通过仿真实验分别进行EMD[21]、EEMD[22]与VMD的去噪效果对比分析、音频种类的识别率的对比分析，从而得出本文的算法适合于乐器音频信号的分类识别的结论。但是本文的研究对象是单个乐器独奏的音频信号，所以对于多个乐器的交响乐信号的处理仍需要后续的不断研究。

参考文献：

[1]SULAM JEREMIAS， ROMANO YANIV， RAMDAS RONEN. Dynamical System Classification with Diffusion Embedding for ECG-Based Person Identification[J]. Signal Processing， 2016（130）：403-411.

[2]王琪.西洋樂器的音色识别[D].济南：山东大学，2015.

[3]REMES U， JUVELA L， BROWN G J， et al. Comparing Human and Automatic Speech Recognition in a Perceptual Restoration experiment[J]. Computer Speech & Language， 2016， 35：14-31.

[4]RAMDAS V， GORTHI S S R K， MISHRA D. Simultaneous Speech Coding and De-noising in a Dictionary Based Quantized CS Framework[J]. International Journal of Speech Technology， 2016， 19（3）：509-523.

[5]LI K， WU X， MENG H. Intonation Classification for L2 English Speech Using Multi-distribution Deep Neural Networks[J]. Computer Speech & Language， 2016， 43：18-33.

[6]姚登举，詹晓娟，张晓晶. 一种加权K-均值基因聚类算法[J]. 哈尔滨理工大学学报， 2017， 22（2）：112-116.

[7]DU W， LEVINSCHWARTZ Y， FU G S， et al. The Role of Diversity in Complex ICA Algorithms for fMRI Analysis.[J]. Journal of Neuroscience Methods， 2016， 264：129-135.

[8]肖瑛，殷福亮. 解相关 EMD：消除模态混叠的新方法[J]. 振动与冲击， 2015， 34（4）：25-29.

[9]WANG X， AN K， TANG L， et al. Short Term Prediction of Freeway Exiting Volume Based on SVM and KNN[J]. International Journal of Transportation Science & Technology， 2015， 4（3）：337-352.

[10]LIU Y， YANG G， LI M， et al. Variational Mode Decomposition Denoising Combined the Detrended Fluctuation Analysis[A]. Signal Processing， 2016， 125：349-364.

[11]黄羿博，张秋余，袁占亭，等.融合MFCC和LPCC的语音感知哈希算法[J].华中科技大学学报（自然科学版），2015，43（2）：124-128.

[12]王民，曹清菁，贠卫国，等.改进MFCC算法在朱鹮鸣声个体识别中的应用[J].计算机工程与科学，2016，38（5）：1052-1056.

[13]ZHANG M， JIAN T， ZHANG X， et al. Intelligent Diagnosis of Short Hydraulic Signal Based on Improved EEMD and SVM with Few Low-dimensional Training Samples[J]. Chinese Journal of Mechanical Engineering， 2016， 29（2）：396-405.

[14]陆真，裴东兴，刘莉，等.基于改进小波阈值函数和PSO的语音增强算法[J].激光杂志，2016，37（2）：141-145.

[15]刘爱国，薛云涛，胡江鹭，等.基于GA优化SVM的风电功率的超短期预测[J].电力系统保护与控制，2015，43（2）：90-95.

[16]王广泽.改进粒子群算法在供应链库存控制中的应用[J]. 哈尔滨理工大学学报， 2016，21（5）：90-95.

[17]于桂芹，李刘东，袁永峰. 一种结合自适应惯性权重的混合粒子群算法[J]. 哈爾滨理工大学学报， 2016， 21（3）：49-53.

[18]杨岳飞，刘辉，谭检平. 带噪语音信号小波去噪算法研究[J]. 计算机工程与应用， 2015， 51（14）：211-213.

[19]ABDOOS A A， MIANAEI P K， GHADIKOLAEI M R. Combined VMD-SVM Based Feature Selection Method for Classification of Power Quality Events[J]. Applied Soft Computing， 2016， 38：637-646.

[20]BORDE P， VARPE A， MANZA R， et al. Recognition of Isolated Words Using Zernike and MFCC Features for Audio Visual Speech Recognition[J]. International Journal of Speech Technology， 2015， 18（2）：167-175.

[21]李辉，李洋，杨东，等. 基于EMD相关去噪的风电机组振动噪声抑制及特征频率提取[J]. 电机与控制学报， 2016， 20（1）：73-80.

[22]VOKELJ M， ZUPAN S， PREBIL I. EEMD-based Multiscale ICA Method for Slewing Bearing Fault Detection and Diagnosis[J]. Journal of Sound & Vibration， 2016， 370：394-423.

（编辑：温泽宇）