基于分频段ABAP谱减法的鸟叫声分类研究

2015-08-08张妍琰刘建芳郭力争

信阳师范学院学报（自然科学版） 2015年1期

张妍琰,刘建芳,郭力争

(1．河南城建学院计算机科学与工程学院，河南平顶山 467036；2.平顶山学院软件学院，河南平顶山 467000)

0 引言

鸟类是自然生物的重要成员之一，在物种演化的漫长过程中，大多鸟类都形成了具有自身特异性的鸣叫声.通过对鸟叫声的研究，有利于提高对鸟类资源、种类、数量、生存区域统计调查的准确性、真实性和可靠性，同时可将其作为分析自然声音的组成结构和动物行为的典型样例.

自然环境中的鸟叫声通常伴有杂音，为了去除噪声，得到较为纯净的声音信号，必须借助于各种声音增强算法.谱减法[1]是声音增强算法中重要的非参数方法，谱减法以其原理简单、运算量小、性能稳定而受到最为广泛的关注和研究.传统谱减法[2-3]采用的周期图估计并非一致估计，方差很大，并造成“音乐噪声”，影响谱减后声音分类效果，尤其是鸟类声音的分类，因为鸟叫声中夹杂的自然环境噪声组成复杂、种类繁多，且在频域上分布较广.为了抑制“音乐噪声”，降低方差，Hendriks等人通过搜索功率谱的最长平稳段，进行周期图平滑，进而减小周期图估计的方差[4].但是因果系统并不能得到理论上的最长平稳段，该搜索过程还需要较大的数据存储量和计算量，并且这种周期图平滑利用的只是时域的平稳性，却没有考虑功率谱频域上的结构特征，无法应对复杂的自然声音.Ephraim等人提出的引导决策(Decision-Directed, DD)算法能够较好地估计高信噪比情况下的功率谱[5].但是当信噪比较低时，DD算法会低估先验信噪比，造成跟踪延迟和声音失真的问题[6].Gustafsson等人采用Bartlett平均周期图(Bartlett Averaging Periodogram, BAP)方法先将信号分段估计，然后平均各个分段结果[7]，以减小估计方差，平滑功率谱图.但是该方法造成严重的能量泄露，影响算法性能.Welch方法引进重叠加窗改进了Bartlett法，虽然能在一定程度上抑制能量泄露，但是窗函数的选择对估计效果影响较大，需事先针对不同信号和不同的处理目的选择合适的窗函数.实际上，噪声功率谱的结构特征变化复杂，既可能是平坦的连续谱，如白噪声谱；也包括离散的线谱，如正弦信号等周期信号的功率谱；更普遍的是既包括连续谱又包括非连续谱的复杂谱.对于连续谱噪声，应采用频率分辨率较低的功率谱估计以减小方差，从而减少“音乐噪声’；而对非连续谱噪声，则应该采用频率分辨率较高的功率谱计以降低噪声谱能量泄露，减少声音失真.因此无论哪种功率谱估计方法，都难以在方差和频率分辨率之间取得良好的折中.

针对上述问题，本文提出了基于噪声谱结构特征的自适应Bartlett平均周期图(Adaptive Bartlett Averaging Periodogram, ABAP)方法，根据噪声谱的结构特征对周期图进行自适应平滑.真实环境中的噪声对整个声音信号整个频谱的影响并不均匀[8]，因此本文将ABAP应用于分频段谱减法(Multi-band Spectral Subtraction，MSS)[9]，对自然环境的鸟叫声进行降噪处理，以减少音乐噪声和声音失真.传统的Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)充分利用人耳听觉感知特性，经常被作为声音特征用于分类识别[10]，但是MFCC遇到噪声性能骤降.因此本文将含噪声的鸟叫声信号经过前端改进的降噪处理后，在传统的MFCC基础上加入二维离散余弦变换[11]，提取更具有针对性、动态性和鲁棒性的二维Mel频率倒谱系数(Two Dimensional Mel-Frequency Cepstrum Coefficients, TDMFCC)来表征鸟叫声信号，最后结合判决分类器支持向量机(Support Vector Machine, SVM)来对含噪声的鸟叫声进行分类识别.

1 前端降噪

1.1 ABAP法

假设纯净声音为s(n)，噪声为d(n)，则带噪声音表示为y(n)=s(n)+d(n).去噪的目的就是从复杂的带噪声音y(n)中估计出纯净声音s(n).

YN(k,l)为y(n)第l帧N点快速傅里叶变换(FFT)第k个频带分量，其相应的周期图为[12]

(1)

直接周期图法估计的功率谱方差过大，因此引入Bartlett平均周期图(BAP)法，对信号进行帧内分段估计，然后取平均值.

YM(k,l)是第l帧M点FFT第k个频带分量,其相应的Bartlett平均周期图表示为

(2)

其中:N=LM，L是BAP的平均段数，M是每段的样本点数.通过帧内分段平滑，BAP有效降低功率谱方差.

对较为平稳的声音功率谱，BAP法有良好的效果，能有效弥补直接周期图法功率谱估计存在的方差过大的缺陷.而对于波峰较窄的信号，当在频域上变化较大时，所估计BAP分辨率过低，能量泄露较为严重，不能准确反应声音信号.因此在BAP法的基础上，引入自适应频带结构特性平滑机制，形成自适应Bartlett平均周期图(ABAP)法来进行噪声功率谱估计.分析噪声谱的结构特性，根据频带间连续程度，将其区分为连续谱和非连续谱.判断噪声谱是否频带间连续，如果是，则在谱线之间做平滑；否则，不做平滑.

(3)

其中，权值wi满足：

(4)

引入当前频带与相邻频带的功率谱期望比值，作为判断噪声谱是否连续的依据，即：

(5)

其中，E(PD(k))为噪声功率谱期望.当φ(k,l)越接近1，表示频带k与频带k+i的期望越接近，其谱结构越相似，因此这两频带间可以进行平滑以减少方差.

但是判断每个频带与周围2Kf个频带的结构连续性，所需要的运算量过大，无法满足声音分类实时性的要求.因此，考虑频带k与相邻2Kf+1个频带功率谱均值的比作为判决依据.

(6)

为了防止异常噪声点大值的影响，利用调和平均数来代替功率谱均值的计算.

(7)

其中，实验中为PD(k+i)设置下限值0.5，以排除出现零点时均值过小的误差.

计算判决依据，并确定当前频带的权值wk，

(8)

(9)

(10)

图1中(a)、(b)、(c)分别展示了周期信号加带通白噪声的3种功率谱估计方法的效果.(a)中直接周期图法的帧长N取32 ms的采样点数，(b)中BAP法将N划分为L段，每段的M取4 ms的采样点数.

(a)直接周期图法估计结果

(b) BAP法估计结果

(c)ABAP法估计结果图1 周期信号加带通白噪声的噪声功率谱估计结果Fig.1 Noise power spectrum estimation result of periodic signal with band-pass white noise

由图1的3个对比图可知，(a)中的直接周期图法有较高的分辨率，能量泄露较小，对周期信号具有良好的估计特性，能有效估计窄带噪声，但是对像白噪声这样的宽带噪声，估计的方差很大；(b)中的BAP法虽然方差较小，但能量泄露比较严重，几乎看不到谱线结构，只适用于连续谱估计；(c)中即本文提出的ABAP法，能够根据频带间谱结构的连续性来自适应地平滑周期图，较好地缓解了传统周期图估计中频率分辨率与能量泄露之间的矛盾.

1.2 分频段ABAP谱减法

自然环境的有色背景噪声(风雨声、流水声等)大多是非平稳信号，其均值、功率谱、相关函数等统计量具有随机性，对声音信号功率谱各频段的影响也具有不确定性.因此本文针对不同频率段中噪声谱的影响程度，引入分频段谱减法，并将ABAP的噪声估计方法应用于其中，形成分频段ABAP谱减法来对带噪声音进行降噪，以此提高声音质量.

(11)

(12)

再根据SNRi(l)和实际实验将αi(l)设定为：

(13)

αi(l)随着信噪比非线性变化，对于信噪比较低的频段αi(l)的取值较大，这使得谱减过程中的噪声干扰被有效抑制.

式(11)中的δi(l)代表用来设定噪声移除特性的补偿因子，根据声音的实际情况和经验设置为：

(14)

其中：fi(l)为第l帧的第i个子频带的最高频率，Fs为声音信号的采样率.

最后，对上述谱减后出现负值的情况进行下限修改，

(15)

Smin(k,l)=Smin-(1-wk)Smax,

(16)

其中:Smin取0.1|Yi(k,l)|2，Smin取0.9Smin.

采用式(15)、(16)主要基于以下两点考虑：第一，对于连续谱，保留残留噪声不变，利用其宽带特性掩蔽“音乐噪声”；第二，与连续谱相比，非连续谱往往具有更大的能量，因此需要对其进行更多抑制，使得残留噪声谱更加平坦，减少音调音出现.

1.3 分频段ABAP谱减法性能测试

为了测试分频段ABAP谱减法对自然环境噪声移除的有效性，将直接周期图估计谱减法、BAP估计谱减法与本文提出的分频段ABAP谱减法进行降噪性能对比实验.对添加10 dB溪流噪声的画眉鸟叫声，分别使用上述3种不同方法进行降噪处理，其效果如图2(a)、(b)、(c)的3种声谱图所示，由图2可知：(1)使用直接周期图估计谱减法对带溪流噪声的画眉鸟叫声降噪后，依然存在大量音乐噪声.(2)使用BAP估计谱减法对画眉鸟叫声降噪后，虽然没有音乐噪声，但是低频段声音被严重抑制，信号能量泄露严重，声音失真较为严重.(3)使用分频段ABAP谱减法降噪后，不但没有残留音乐噪声，而且低频段的声音失真也较少，降噪效果较好.

(a)直接周期图估计谱减法降噪后的画眉声谱图

(b)BAP估计谱减法降噪后的画眉声谱图

(c)分频段ABAP谱减法降噪后的画眉声谱图

综上说明，本文提出的分频段ABAP谱减法既能解决噪声估计方差太大的问题，减少音乐噪声，又能有效解决因能量泄露而导致的声音失真问题.

2 TDMFCC特征提取

多频段的频谱结构变化包含了声音信号的动态特征，为了更加充分地利用声音信号的动态和静态特征，本文引入二维离散余弦变换[13-14]的Mel频率倒谱系数(Two Dimensional Mel-Frequency Cepstrum Coefficients, TDMFCC).

Mel频率倒谱系数[15-16]是目前广泛使用的声音识别特征，信号的第t帧第q个MFCC系数可以表示为：

(17)

其中：Ei(b)表示通过第t帧第b个Mel滤波器的能量，B是Mel滤波器的总数量.经过二次离散余弦变换(Discrete Cosine Transform, DCT)后的TDMFCC矩阵可以表示为：

0≤q

(18)

其中：n是调制频率的索引，L是声音信号的总帧数.

TDMFCC的结构图如图3所示，通过对连续对数频谱序列进行横向二次DCT变换，可以得到包含各序列间频谱变化信息的TDMFCC矩阵.但是由于二次DCT变换使得频谱信息的存储量增加，因此需要考虑算法的计算效率.

低维的频率参数和时间参数能为声音分类提供更多的全局变化信息.图3(3)中的A、D区域主要包含随着时间变化的局部对数谱均值信息，C区域主要体现频谱结构的细化信息，而有利于声音分类的对数谱全局变化情况，主要体现于B区域.为了使用较少的空间获得较多的频谱变化信息，本文选取B区域的15行5列TDMFCC子矩阵作为声音信号的主特征，用于分类识别，其表达式如下：

TDMFCC=[c(0,0),…,c(0,4),c(1,0),…,

c(1,4),…,c(14,0),…,c(14,4)]T.

(19)

图3 TDMFCC矩阵Fig.3 The TDMFCC matrix

3 结果与分析

实验中用到的鸟叫声来自Freesound[17]声音数据库，具体类别如表1所示.每类声音有50个声音样本，每个样本的采样率为11 025 kHz，量化精度为16 bits，持续时间长度为4～6 s，格式为wav，单声道.随机选择20个样本用于训练，另外30个样本用于测试.为了模拟实际噪声场景，将测试声音样本分别与不同背景噪声分别按40、30、20、10、0 dB的信噪比合成.实验所用的背景噪声分别为高斯白噪声、海浪噪声、溪流噪声，其中高斯白噪声用噪声发生器生成，海浪噪声及溪流噪声从实地采集.

实验直接使用LIBSVM[18]工具箱，选用径向基核函数，采用自动寻优方式设置惩罚因子等参数，利用“一对一”的多分类策略，来对声音信号进行SVM建模分类，得出识别结果.

表1 实验数据Tab.1 Experimental data

实验旨在验证本文所提方法对噪声环境下的鸟叫声分类的有效性，因此分别对MFCC、TDMFCC以及用文中所提的分频段ABAP谱减法降噪后的MFCC(标记为ABAP_MSS+MFCC)、分频段ABAP谱减法降噪后的TDMFCC(标记为ABAP_MSS+TDMFCC)进行SVM建模分类的声音识别实验，前3个为对照实验，第4个为目标实验.针对高斯白噪声、海浪噪声、溪流噪声这3种不同噪声下不同信噪比的平均分类结果如表2所示.而针对这3种不同噪声类型和不同信噪比所对应的实验结果如图4所示.

表2 不同噪声类型下不同信噪比的平均分类结果Tab.2 The average classification rates of different SNRs under different types of noises

由表2的实验结果可以看出，虽然是在高斯白噪声、海浪噪声和溪流噪声这3种不同背景噪声类型下，但是其鸟叫声的平均识别率具有相类似的规律：MFCC的平均识别率最低，而ABAP_MSS+TDMFCC是四个特征中识别率最高的.根据该表的数据可得，TDMFCC比MFCC的分类性能提高了至少4.35%；使用本文提出的ABAP_MSS方法降噪后的MFCC和TDMFCC，比不使用该方法的MFCC和TDMFCC的分类效果更好，其性能分别提高了至少6.07%和11.12%.由此可见，本文提出的经过ABAP_MSS方法降噪后的TDMFCC，识别性能更好，对不同类型的噪声更具有鲁棒性.

(b) 海浪噪声下4种特征的分类结果

由图4(a)、(b)、(c)的实验结果柱状图可以看出，无论是平谱噪声还是有色噪声环境下，4种特征的识别率都随着信噪比的减小而降低，但是下降的速度有所不同.MFCC下降的速率最快，TDMFCC次之，而经过降噪后的ABAP_MSS+MFCC和ABAP_MSS+TDMFCC的识别率下降速度分别为次慢和最慢.说明前面两者受噪声干扰较大，而后面两者对噪声具有一定的鲁棒性.当信噪比为40 dB时，4种特征的识别率都较高，在90%以上.而当信噪比下降到20 dB以下时，ABAP_MSS+TDMFCC的识别率与其他3种特征相比，具有显著提高，性能明显优于其他.说明本文提出的ABAP_MSS+TDMFCC具有较好的抗噪功能，尤其是在低信噪比时，比如小于20 dB，效果显著.

4 结论

针对噪声环境下的鸟叫声分类问题，提出一种经过分频带自适应Bartlett平均周期图谱减法(ABAP_MSS)降噪后提取TDMFCC特征结合SVM分类器对带噪鸟叫声进行分类的方法.不同噪声类型下和不同信噪比下的实验结果证明，该方法的分类性能较现有的MFCC与降噪后的MFCC更优.ABAP_MSS降噪方法能够有效减少音乐噪声和声音失真，削弱噪声干扰.因此，当信噪比较高时，ABAP_MSS+TDMFCC的分类效果略微优于其他方法；但是当信噪比较低时，该方法的分类效果具有显著提高.由此说明，本文提出的ABAP_MSS+TDMFCC具有良好抗噪能力，且适用于带噪鸟叫声的分类.但是，当信噪比处于0 dB以下时，降噪方法可能带来音乐噪声和失真问题，导致分类效果变差.更低信噪比下的分类问题，以及将分类方法推广至其他应用中的研究工作天在进行中.