APP下载

一种基于MFCC特征的水下目标分类网络

2022-04-16徐晓刚罗昕炜

声学与电子工程 2022年1期
关键词:特征提取滤波器准确率

徐晓刚 罗昕炜

(东南大学水声信号处理教育部重点实验室,南京,210096)

水下目标的分类识别是水声领域研究的热点问题,对于现代海洋装备目标探测尤为关键,特征向量提取的方法是水声目标分类识别的研究重点。文献[1]提出了一种基于小波包变换的水下目标辐射噪声特征提取算法,文献[2]提出了一种基于双谱估计的水下目标辐射噪声特征提取算法,文献[3]提出了一种基于波数谱模态能量差特征的目标分类方法。由于声呐识别不同水下辐射噪声源的原理与人耳语音识别的机理类似,因此,基于听觉特征的水下声目标特征提取方法是研究热点之一,其中提取梅尔倒谱系数进行水下声目标识别是常用的方法之一。文献[4]介绍了差分梅尔频率倒谱系数的概念和相应的特征提取方法,对水下目标进行了基于MFCC特征提取方法仿真研究和实验分析;文献[5]将 MFCC特征应用于船舶和鲸类水下声信号的特征提取中,提取了船舶和鲸类声信号的MFCC特征,通过高斯混合模型对提取的MFCC特征进行训练和识别分类,讨论MFCC维数变化和不同MFCC特征组合对识别分类性能的影响;文献[6-8]也进行了MFCC特征提取相关方面的研究工作,并取得了一定的研究成果。

传统水下声目标识别分类过程具有较强的人机交互特性,需要人工提取泛化能力强的特征数据,无法满足未来水下无人平台只能识别分类水声目标的需求。深度学习理论可以改善这一点,它可以打破现有的水声目标识别中对先验知识和特征提取方法的依赖,直接通过学习获得信号特征,目前已发展出自编码器(Auto Encode, AE)[9]、深度置信网络(Deep Belief Networks,DBN)[10]、CNN[11-12]、循环神经网络(Recurrent Neural Networks,RNN)[13-15]、生成对抗网络(Generative Adversarial Network,GAN)[16-17]及其相关变种等多种模型,在各个领域得到广泛的应用且都有不错的效果。因此,用深度学习的方法结合 MFCC对不同水下目标进行分类识别,可以减少实时环境对技术人员的依赖性,使得未来水下无人平台领域应用更加广泛和灵活。本文利用实现的 CNN研究了不同维度下 MFCC和LOFAR特征的分类性能。

1 信号特征提取

1.1 梅尔频率

通过对人耳听觉机理的研究发现,人耳对不同频率的声音有不同的敏感度,特别是频率200~5000 Hz的语音信号特别敏感。所以人耳的听觉系统是非线性的,这也是对低频声音信号更加敏感的原因。梅尔倒谱系数是在梅尔频率(Mel-Frequency)域上提取出来的参数,Mel频率描述了人耳的非线性特性,它与频率关系为

式中,fmel表示的是在Mel频率域上的频率,Hz。

1.2 MFCC参数提取过程

MFCC特征的提取过程,需要对语音信号进行预加重、信号分帧、加窗以及滤波器处理等操作,具体流程如图1所示,这些处理方式都是为了能够最大化的保留语音的有效特征,从而达到最好的特征参数提取。

图1 MFCC算法框图

(a)预加重即将声信号通过一个高通滤波器,目的是增强声信号中的高频部分,使得频谱变得平坦,保持从低频到高频的整个频带内可以有相同的信噪比,本实验选取的高通滤波器传递函数为:,其中μ=0.95。

(b)分帧是将N个采样点集合成一个观测单位,通常N取值为256或者512,其涵盖时间范围大约在20~30 ms,而且相邻两帧之间有1/2或者1/3的重叠区域,然后加窗。为了使信号具有连续性,窗函数表达式为

式中,N是汉明窗的长度。图2是汉明窗的时域图像。

图2 汉明窗时域图

(c)对分帧和加窗后的各帧信号进行快速傅里叶变换得到其频谱,再对信号频谱取平方得到语音信号的功率谱。

(d)将能量谱通过一组 Mel尺度的三角形滤波器组。Mel频率尺度上的等距三角形滤波器组对应于Hz频率上的非等距三角形滤波器组,即Mel滤波器组,其表达式为

式中,f(m)为滤波器组的中心频率,间距随着m值的减小而减小。具体滤波器结构如图3所示,其作用可以使频谱平滑并且消除谐波。利用对数函数对Mel滤波后的能量谱进行压缩,那么得到输出的对数能量为

图3 梅尔滤波器

(e)对得到的对数能量谱做DCT变换,这是一种用于去相关语音特征的最佳变换。最后得到L阶倒谱系数:

式中,M为梅尔滤波器个数,L为MFCC特征向量的阶数。一般使用26个梅尔滤波器,可以得到26个倒谱系数,取13个系数出来作为所需要的MFCC特征系数。

标准的MFCC只反映声信号的静态特性,为了提高分类的识别能力,加入动态特征,也就是静态特征的差分谱。声信号的一阶和二阶MFCC特征向量为

式中,d(n)表示第n个一阶差分,c(n)表示第n个倒谱系数,Q代表倒谱系数的阶数,K代表一阶系数的时间差。将上述结果再次迭代这个公式就可以得到二阶差分的特征向量。

2 卷积目标分类实现

2.1 CNN模型

CNN与一般的神经网络相似,都由可学习的权重和偏差的神经元组成,但CNN更加注重输入数据的结构。二维图像包含的特征信息比一维数据要多并且隐蔽,使用一般的神经网络不好处理,CNN可以很好地解决这一问题,它能够从二维图像中提取输入数据的位移、缩放以及变形的特性。CNN主要由卷积层、激活函数层、池化层、全连接层等交叉组成前馈神经网络,其结构如图4所示。

图4 CNN流程图

2.2 CNN分类实现与结果分析

ShipsEar数据库为研究人员提供各类船舶的声音记录和自然背景噪声,用来训练船只探测器和分类器、或者监测海上的交通情况。本文选取 A~D四类信号,其中A为Motorboat辐射噪声信号,B为Ocean linear辐射噪声信号,C为Passenger辐射噪声信号,D为Natural ambient noise辐射噪声信号,如表1所示。

表1 数据类别及其时长和文件个数

通过第1节介绍的梅尔倒谱系数计算步骤,实验采用汉明窗,帧长为fs/40,帧移为帧长的一半。计算得到四类不同船只辐射噪声和自然噪声的仿真图如图5所示。仿真得到A~D四类不同舰船辐射噪声的归一化26阶MFCC系数,其中包含了13阶的MFCC系数、13阶的D-MFCC系数。三维图中X、Y轴分别代表MFCC系数的阶数和帧数,Z轴代表MFCC特征系数。从图中可知,MFCC系数特征在 3~17阶存在比较大的区分度,因此将其作为分类识别的有效特征。

图5 不同船只辐射噪声和自然噪声的仿真图

将上述计算得到的四类样本数据用 CNN神经网络进行训练,样本数据按7:3划分为训练集和测试集。本实验采用VGG网络的模式,即在卷积层后加池化层,采用Dropout正则化方法避免网络过拟合,其中keep-prob的值统一设置为 0.25,在网络反向传播时,采用的是Adam梯度下降优化算法,网络参数设置如表2所示。

表2 CNN网络参数表

实验采用二进制交叉熵作为损失函数:

式中,表示网络预测输出,y表示网络的真实样本值,k表示类别数。epoch设置为200,CNN预测模型某次训练精度和loss值随epoch的变化如图6所示。

图6(a) 训练和测试准确率

图6(b) 训练和测试损失

从图6中训练精度、测试精度和loss值的变化曲线可以看出,epoch从125开始时,训练和测试的loss值基本不变,训练集精度变化缓慢,测试集精度趋近平衡。通过图6~7可以发现,训练集精度稳定在93%、测试集精度稳定在91%左右时有比较好的训练效果。A类测试精度达到了79%,B类测试精度达到了94%,C类测试精度达到了92%,D类测试精度达到了89%。整体而言,由于训练样本自身就存在一定的噪声干扰,并不是纯净的舰船辐射噪声,所以精度不是特别的高,但四种类别的分类效果都还不错。

图7 CNN网络的混淆矩阵

2.3 特征维度和特征类型影响

对不同舰船辐射噪声进行分类,还可以采用信号各自的LOFAR图作为神经网络的输入。本文用短时傅里叶变换来分析舰船辐射噪声的LOFAR谱图。对语音或噪声信号处理和识别时,由于信号的非平稳性,其性质随时间发生较明显的变化,因此不能应用通常的傅里叶表示方法。LOFAR 谱图从时、频两个角度对信号进行描述,通过对连续的采样数据作短时傅里叶变换而构成信号的非平稳特性,对信号特征提取具有很好的效果。

当神经网络的输入分别为MFCC和LOFAR特征,并且二者的输入参数相同时,A~D四类舰船辐射噪声信号的识别准确率如图8所示。

图8 LOFAR和MFCC特征输入网络的准确率

可以看出,当输入参数相同,MFCC作为特征输入时的四类舰船辐射噪声识别准确率更高,并且网络的损失函数趋于平稳的迭代次数更少,网络的训练时间也相应的更少;对于同一特征(MFCC或LOFAR),输入参数越少,准确率越低,随着输入参数的增加,神经网络的优势体现出来,系统的识别准确率慢慢提高,分类效果慢慢变好。

由表 3可以看出,信号同类特征(MFCC或LOFAR)不同维度作为输入,随着特征维度的增加,网络训练参数能够更好的表征信号特征,这能很好地提高网络识别性能。卷积网络对多参数训练具有很好的优势,通过每一层卷积核大小和卷积核个数可以很好的对特征进行压缩,防止训练数据爆炸,导致网络过拟合现象。对于 LOFAR特征来说,B类识别准确率提升的比较明显;对于MFCC特征来说,B、C类识别准确率提升的比较明显。总体来看,对于两种特征,A类的识别率相比于B、C、D类来说相对较低。通过对A类样本集分析,发现样本间存在明显差异,训练之后网络效果不佳。信号同一维度不同特征作为输入,MFCC较LOFAR特征的识别效果更好,即使是在输入参数较少的情况下,MFCC也能够达到更好的识别效果。对于网络训练时间,随着输入参数的增加,训练时间也会跟着增加,但是当LOFAR输入参数为110×110、MFCC输入参数为100×100时,网络总体识别率不再提升。如果再增加输入参数,那么只会增加训练的时间,识别效果不会明显提升。在相同的输入特征维度下,虽然LOFAR特征相比MFCC特征需要训练的时间相对较少,但是MFCC在参数较少的情况下也能达到很好的识别准确率。

表3 LOFAR和MFCC特征输入网络的准确率和训练时间

3 结论

舰船辐射噪声是一种非平稳、复杂的信号,为提高舰船辐射噪声识别的准确率,本文将MFCC和CNN结合构建了一个水声信号卷积分类网络。该分类网络通过 MFCC特征提取方法逐帧提取舰船辐射噪声信号的梅尔倒谱系数,将提取的梅尔系数构建特征矩阵输入卷积网络中进行分类。实验结果表明,对于同一种特征,随着网络输入参数增加,目标整体识别率提高,MFCC特征相比于LOFAR特征具有很好的识别效果,即使是在输入参数比较少的情况下,也能达到90%的整体识别准确率。在输入参数相同的情况下,A~D四类的MFCC特征识别准确率都高于LOFAR,且MFCC特征的识别率最高能达到94%。

猜你喜欢

特征提取滤波器准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
基于Gazebo仿真环境的ORB特征提取与比对的研究
从滤波器理解卷积
基于Daubechies(dbN)的飞行器音频特征提取
开关电源EMI滤波器的应用方法探讨
高速公路车牌识别标识站准确率验证法
一种微带交指滤波器的仿真
Bagging RCSP脑电特征提取算法