MFCC与支持向量机在钱塘江涌潮检测中的应用*

2016-12-15王培力王瑞荣孙映宏

传感技术学报 2016年11期

关键词：特征值语音向量

王培力，王瑞荣*，高鹏，孙映宏

（1.杭州电子科技大学生命信息与仪器工程学院，杭州310018；2.杭州市水文水资源监测总站，杭州310014）

MFCC与支持向量机在钱塘江涌潮检测中的应用*

王培力1，王瑞荣1*，高鹏1，孙映宏2

（1.杭州电子科技大学生命信息与仪器工程学院，杭州310018；2.杭州市水文水资源监测总站，杭州310014）

为解决钱塘江涌潮检测难问题，提出了一种新的涌潮检测方法。首先，通过梅尔倒谱系数MFCC（Mel-Frequency Cepstral Coefficients）提取涌潮样本多维声学特征与非涌潮样本声学特征；然后，使用支持向量机（SVM）构建涌潮检测模型；最后，通过模型对输入的样本特征进行分类判断。与以采用线性预测倒谱系数（LPCC）提取声学特征方法或是采用BP神经网络构建检测模型相比，MFCC与支持向量机结合在涌潮检测的精度上有一定的提高。

声学识别；涌潮检测；支持向量机；MFCC声学特征

声学识别研究具有重要意义，目前声学识别已经在网络、通信和安全等领域得到了实际应用［1］。在声音信号处理的过程中，提取声学特征方法常见的有线性预测系数（LPC）、LPC倒谱系数（LPCC）和梅尔倒谱系数（MFCC）［2］。而倒谱分析被证明为语音信号处理最有效的方式之一，其中梅尔倒谱系数（MFCC）又被认为是在提取声学特征中最合适的方法［3-4］，其鲁棒性在上述三种方法中是最好的。实际应用的过程中梅尔倒谱系数可以在一帧语音信号中提取12至16维不等的声学特征。语音识别所应用的模式匹配和模型训练技术主要有动态时间规整技术（DTW），隐马尔可夫模型（HMM）、神经网络（NN）和支持向量机（SVM）［5-7］。其中SVM在小样本训练集上相较于其它算法具有明显的优势［8］，同时其优秀的泛化能力［9-10］使得支持向量机成为目前最常用，效果最好的分类器之一［11-12］。

钱塘江由于其独特的地形以及受到天体作用力的影响形成了钱塘江涌潮［13］，目前钱塘江涌潮检测方法是根据水位的突然跃变作为涌潮是否到达的判断标准。然而在实际应用过程中由于江中含有大量的泥沙常常会导致水位计无法正常工作，同时上游发电站的来水以及极端天气等原因使得涌潮的检测存在较大的误差，无法及时提供准确的涌潮预警［14］。涌潮在到达时由于潮水相互作用以及对堤坝的撞击会发出独特的声响，因此可以考虑利用声学识别检测涌潮。

本文，利用MFCC提取声音的特征同时将SVM作为声学识别系统的分类器。最终结果表明基于MFCC与SVM的涌潮识别系统，相较于利用线性预测倒谱系数（LPCC）提取声学特征或是利用BP神经网络作为分类器的系统具有更高的识别精度。

1 涌潮声音的梅尔倒谱系数

梅尔倒谱系数（MFCC）是根据人耳的听觉机理研究发现的，获得特征不依赖于信号的性质，对输入信息不做任何的假设与限制，同时还利用了听觉模型研究成果。因此获得的特征具有更好的鲁棒性，即使信噪比降低还具有较好的识别性能。梅尔倒谱系数（MFCC）是在Mel标度频率域提取出来的倒谱系数，Mel标度描述人耳频率的非线性特性，它与频率的关系可以用下式表示［4］：

式中，ƒ为语音的真实频率单位为Hz。

梅尔倒谱系数（MFCC）计算过程大致可以分为4大步骤：①预处理；②频谱的计算；③Mel尺度三角滤波器；④离散余弦（DCT）得到MFCC系数。

图1 MFCC声学特征提取过程

1.1 预处理

预加重是将输入的语音信号通过一个高通滤波器，如式(2)表示，提升信号的高频部分同时使得信号的频谱变得平坦。

式中，μ的值介于0.9～1.0之间，在实验过程中取0.97。

分帧将N个采样点集合成一个观测单位，称为帧。N一般取值为256或是512，涵盖的时间约为20 ms～30 ms。为了避免相邻的两帧变化过大，会让相邻两帧之间有一段重叠的区域取值一般是N的1/2或是1/3。加窗将每一帧乘以汉明窗，以增加每帧语音信号的左端和右端的连续性。汉明窗公式如式（3）所示：

式（4）中y（n）为分帧后每一帧的语音信号。

1.2 频谱的计算

信号在时域上不易观察其特征，因此通常将其转化为频域上的能量分布观察。上述经过分帧加窗后的每一帧进行快速傅里叶变换得到各帧的能量谱。并对语音信号的频谱取模平方得到语音信号的功率谱。离散傅里叶变换如下所示：

式中,Sj（n）为经过分帧加窗后的语音信号，N表示傅里叶变换的点数。

1.3 Mel尺度三角滤波器

将能量谱通过一组Mel尺度的三角滤波器组，三角滤波器的作用是对频谱进行平滑，同时消除谐波的作用，突显原先语音的共振峰。三角滤波器的频率响应定义为：

1.4 离散余弦（DCT）得到MFCC系数

最后经过离散余弦变换（DCT）后得到最终的MFCC系数。

式中，M表示MFCC的阶数通常取值12～16。

2 支持向量机

支持向量机是一种基于统计学习理论的有监督学习方法，最初是从线性可分情况下最优分类面发展得到。图2为二维的最优分类面的示意图。图中的实心圆和空心圆分别代表各自的样本。图中的红线代表的是最优超平面（optimal hyper⁃plane），另外两条H1和H2到超平面的距离为分类间隔（margin），分类间隔表示分类预测的正确性与确信度。所谓最优超平面不仅要将两类分开还要让分类间隔最大。图中在H1和H2上的样本称之为支持向量，支撑着超平面。

图2 二维最优分类面的示意图

由图2所示可知，在上面的 f(x)≥1，下面的为f(x)≤-1。即|f(x)|≥1。当样本在H1和H2上时则|f(x)|=1。所以上面的分类间隔等于2||ω||。因此寻找最优超平面的问题就转化为计算分类间隔的最大值。计算1||ω||的最大值就是最小值，

经过求导带入得：

求上式中的最大值，由于只有一个变量αi，求得其αi就能够求得ω和b。假设上式（11）中的最优解为那么ω的值设为ω*，则

最后获得分类函数的方程：

上式中的b*通过支持向量的不等式可以计算得到。

通过上式（13）可知分类函数与新样本和支持向量有关系。对于非线性的问题首先是将数据映射到高维空间，来解决在原始空间线性不可分的问题。这时候就需要引入支持向量机的核函数K(xi,xj)。引入核函数之后再新的特征空间中，式（11）目标函数和式（13）分类函数则为：

下面是常见三种核函数：

3 涌潮识别系统搭建

MFCC与支持向量机构建了涌潮的检测系统。将江边的采集到的样本数据分为两大部分：训练样本和测试样本。首先提取训练样本的MFCC特征值，然后经过支持向量机训练的构建涌潮检测模型最后利用测试样本提取的MFCC特征值来测试所构建的模型。为使训练出来的模型具有更好的泛化能力，模型的实际训练过程中增加一定量的负样本。图3给出了涌潮识别系统的基本框架。

图3 涌潮识别系统框架

4 识别结果分析与比较

实验中涌潮声音的采集是通过专用的声级计，其采样频率为48 kHz，采样位数为16 bit，单通道。模型训练中的正样本为涌潮到来时的声音，采集过程中充分考虑到环境等其他因素的影响，因此涌潮声音的采集分别在不同的环境下进行。共采集到3 000个涌潮样本。负样本为除涌潮声音之外的任意声音包括涌潮未到来时候的江边的背景声音等，共计1 000个负样本。上述正负样本中70%作为训练样本，余下30%作为测试样本。采集的每一个声音样本时长为2 s，信号分帧的中每一帧为256个点，帧移80。在声音特征值提取之前还要进行一定的预处理，主要是对语音进行端点检测。每一帧的语音提取多维的MFCC特征值，如图4所示为涌潮MFCC特征值维数与幅度的关系图。在模型训练之前将涌潮的声音的特征值标为1，而非涌潮的声音的特征值标为-1。然后将训练的样本经过支持向量机构建模型。模型构建完成后将测试样本提取到的特征值输入到构建好的模型中进行识别分类。

图4 涌潮声音的12维MFCC特征值与幅度图

为了对比，不仅仅采用了MFCC作为涌潮声音的特征值，同时还提取了涌潮声音的LPCC特征值，同时在识别分类的过程中还采取了BP神经网络作为对比的分类器。为研究不同支持向量机核函数对结果的影响，涌潮识别系统在试验过程中分别使用三种常见SVM核函数多项式核函数、高斯核函数和线性核函数。通过大量的训练得到不同的核函数的最优参数设置，在最优参数的设置下得到各自核函数的最高的识别精度。基于12维涌潮MFCC特征值在支持向量机不同的核函数下的识别率如图5所示。

图5 不同核函数的识别精度对比

由图5可知在不同的支持向量机核函数下，识别精度会有不同，三种核函数的识别率都接近或是超过了90%，其中径向基核函数的识别精度略高于另外两种核函数的支持向量机。在实际试验过程中，模型训练中设置的SVM类型设置为C-SVC。训练中交叉验证为4，惩罚系数为128。其中对于多项式中参数，degree设置为3，gamma为0.064，coef0为0。对于RBF核函数gamma设置为0.083 3，其中RBF的尺度参数σ在0.4～40之间。

标准的倒谱参数MFCC只反映了语音参数的静态特征，为了更好的表现语音的特征，改进的MFCC还将引入动态特征，所谓的动态特征就是用静态特征的差分来表示。试验中将计算得到声音的一阶差分和二阶差分。分别记为DMFCC和DDMFCC。为了对比静态特征和动态特征对于语音识别影响将分别在不同的核函数下比较各自的识别精度。上述实验中的三种特征都是12维。如图6所示。

图6 静态特征与动态特征的识别精度对比

图6中可见，单单将12维DMFCC和DDMFCC作为特征值并没有提高识别精度，反而在增加算法的时间同时还降低了识别的精度。为了进一步研究识别精度的影响因素，将MFCC与DMFCC组合成24维的语音特征，同时将MFCC、DMFCC和DD⁃MFCC组合成36维的语音特征最后与MFCC识别精度进行对比。最后实验的识别精度如下图7所示，由实验证明，将动和静态特征结合起来可以提高涌潮识别系统的性能。

图7 MFCC的静态与动态特征结合

4.1 LPCC特征值对比识别精度

线性预测倒谱系数是一种在声音识别系统中常见的声音特征值提取方法。在试验过程中提取每一段声音的12维特征，同时计算其一阶差分和二阶差分。

将LPCC与MFCC各自的12维静态特征以及一阶特征差分和二阶差分组合为一个36维的特征值。进行识别，图9为两者的识别精度对比。

图8 12维MFCC与LPCC特征值识别精度对比

图9 MFCC与LPCC 36维特征值识别对比

4.2 与BP神经网络对比识别的精度

神经网络作为常见的分类器，将支持向量机的识别精度与神经网络进行对比。实验过程中选择的为BP神经网络，分别将三种核函数的支持量机与神经网络识别精度对比。如表1所示。

表1 12维特征值的识别精度

将MFCC与DMFCC组合成24维的语音特征，同时将MFCC、DMFCC和DDMFCC组合成36维的语音特征利用BP神经网络作为分类器，来对比最后的识别精度。如表2所示。

表2 不同分类器的识别精度

其中在BP神经网络的部分参数如下：隐含层神经元个数12，训练显示间隔50，最大训练次数200，最小均方误差0.1，最小梯度1×10-6，学习步长0.05。

表1和表2中可以得到，神经网络在本涌潮识别系统中具有很好的识别精度，但是低于径向基核函数和多项式核函数的支持向量机。略略高于线性核函数的支持向量机。

5 结论

本文首次将声学识别的相关技术应用到了钱塘江的涌潮检测中，提出了一种将MFCC与支持向量机结合的涌潮检测方法，实验证明，该方法具有很高的识别精度，相较于传统的涌潮检测方法实现了自动化检测，同时该检测方法是非接触式的可以有效减少由于涌潮的冲击导致检测仪器的损坏，同时相较于将神经网络作为分类器的涌潮检测系统，该方法具有更高的识别精度。但支持向量机算法识别时间较长，同时江边自然环境特殊的干扰因素较多，提高涌潮识别系统的效率和运行速度是下一阶段的研究课题。

［1］Ananthi S，Dhanalakshmi P.SVM and HMM Modeling Tech⁃niques for Speech Recognition Using LPCC and MFCC Features［M］.Advances in Intelligent Systems and Computing，Satapathy S C，Biswal B N，Udgata S K，et al，2015：327，519-526.

［2］徐翠飞.基于数据和黑箱建模理论的钱塘江涌潮自动检测与实时预报方法［D］.杭州：杭州电子科技大学，2014.

［3］Ahmad K S，Thosar A S，Nirmal J H，et al.A Unique Approach in Text Independent Speaker Recognition Using MFCC Feature Sets and Probabilistic Neural Network［C］.2015：1-6.

［4］Li F H，Ma J W，Huang D Z.MFCC and SVM Based Recognition of Chinese Vowels［M］.Lecture Notes In Artificial Intelligence，Hao Y，Liu J，Wang Y，et al，2005：3802，812-819.

［5］Bharali S S，Kalita S K.A Comparative Study of Different Fea⁃tures for Isolated Spoken Word Recognition Using HMM with Ref⁃erence to Assamese Language［J］.International Journal of Speech Technology，2015，18（4）：673-684.

［6］Satapathy S C，Biswal B N，Udgata S K，et al.SVM and HMM Modeling Techniques for Speech Recognition Using LPCC and MFCC Features［M］.Satapathy S C，Biswal B N，Udgata S K，et al，Springer International Publishing，2015，519-526.

［7］Ystad S L，Aramaki M，Kronland-Martinet R，et al.Recognition of Assamese Phonemes Using RNN Based Recognizer［M］.Ystad S L，Aramaki M，Kronland-Martinet R，et al，Springer Berlin Heidel⁃berg，2012，187-196.

［8］Chen Y，Cao G，Zhu X.LS-SVM Model Based Nonlinear Predic⁃tive Control for MCFC System［J］.Journal of Zhejiang UniversitySCIENCE A，007，8（5）：748-754.

［9］谢国民，谢鸿，付华，等.煤与瓦斯突出预测的NN-SVM模型［J］.传感技术学报，2016，29（5）：888-893.

［10］张兴，李伟，阎高伟，等.基于CART-LSSVM的球磨机料位软测量方法研究［J］.传感技术学报，2015，28（9）：1361-1366.

［11］吕锋，李翔，杜文霞.基于MultiBoost的集成支持向量机分类方法及其应用［J］.控制与决策，2015（1）：81-85.

［12］周宽久，张世荣.支持向量机分类算法研究［J］.计算机工程与应用，2009，45（1）：159-162，182.

［13］Zhu X，Zhang C，Wu Q，et al.Acoustic Measurement of Tidal Bores in the Qiantang River，China［Z］.IEEE，2010：3，3839-3843.

［14］Xiao H.A Comparative Study on Speaker Gender Identification Using MFCC and Statistical Learning Methods［M］.Advances in Intelligent Systems and Computing，Patnaik S，Li X，2014：255，715-723.

王培力（1990-），男，江苏省徐州人，杭州电子科技大学硕士研究生，主要研究方向涌潮预报与检测，wplhdu@163.com；

王瑞荣（1973-），男，浙江义务人，博士，杭州电子科技大学教授，硕士生导师。主要研究方向为嵌入式系统及其应用，涌潮检测与预报。主持多项省级课题，发表论文数十篇，获发明专利授权二十余项，wangrr@hdu.edu.cn。

Application of Support Vector Machine and MFCC in the Detection of Qiantang River Tidal Bore*

WANG Peili1，WANG Ruirong1*，GAO Peng1，SUN Yinghong2
（1.College of Life Information Science&Instrument Engineering，Hangzhou Dianzi University，Hangzhou 310018，China；2.Hangzhou Hydrology and Water Resources Monitoring Center，Hangzhou 310014，China）

In order to solve the problem of detecting Qiantang River tidal bore，this paper proposes a new detection method for the tidal bore.At first，getting the sound of tidal bore and non-tidal bore Mel-frequency Cepstral Coeffi⁃cients（MFCCs）as the acoustic features.Then，using support vector machine（SVM）to construct a detection model for tidal bore.Finally，classifying input sample acoustic features by the model.Compared to using linear prediction cepstral coefficients（LPCC）as the acoustic features or constructing model by BP neural network，the new approach to detect tidal bore via the support vector machine（SVM）with the Mel-frequency Cepstral Coefficients（MFCCs）as the acoustic features reach a higher recognition accuracy.

acoustic recognition；bore detection；SVM；MFCC acoustic features

TP391.4

1004-1699（2016）11-1773-06

EEACC：6130 10.3969/j.issn.1004-1699.2016.11.024

项目来源：国家自然科学基金项目（61374005）；浙江自然科学基金项目（LY14F030022）

2016-04-28 修改日期：2016-07-06

展开全文▼