APP下载

噪声背景下语音识别特征参数选择研究

2011-03-26刘顺兰窦园园应娜

关键词:阶数特征参数识别率

刘顺兰,窦园园,应娜

(杭州电子科技大学通信学院,浙江杭州310018)

0 引言

对于一个语音识别系统,一方面希望其具有较高的识别率,能够保证识别的准确度,另外一方面希望其占用的资源尽可能的少,计算量尽可能的低,以提高系统的实用性与实时性。在资源受限的一些系统中,如何在保证一定识别率的情况下,尽可能的降低系统存储及计算资源,这点显得尤为重要[1]。而系统的性能与特征参数有关,在目前常用的语音识别特征中美尔倒谱频率系数(Mel Frequency Ceptral Coefficient,MFCC)+美尔倒谱频率系数的一阶差分(first-order differential MFCC,ΔMFCC)特征以其具备的高识别率和良好的抗噪声能力,应用最为广泛[2]。本文研究了MFCC+ΔMFCC特征,围绕白噪声、粉红噪声、车载噪声和工厂噪声这4种典型噪声不同信噪比下的语音进行了仿真研究,分析了在不同噪声影响下的语音信号的美尔频率倒谱系数静态特征及其动态特征各分量对识别率的影响,为在保证系统有较高识别率的情况下,减少系统的计算量,提高实时性提供了依据。

1 MFCC特征提取

(1)算法原理

Mel频率和线性频率的转换关系[3]如:

MFCC特征提取的过程如图1所示。图1中,Mel频率滤波的作用是把线性频率变换到Mel频率域,并对语音信号的幅度平方谱进行平滑。log[·]操作一方面压缩了语音谱的动态范围,另一方面将频域中的乘性成分变成了对数谱域中的加性成分,能有效滤除乘性噪声。将不同频段的频谱成分解相关的处理主要由离散余弦变换实现,DCT变换后,各维向量之间相互独立。

图1 MFCC特征提取过程

具体流程如下[4]。

1)先对语音信号s(n)进行一系列的预处理,包括分帧、加窗和预加重,得到处理后的信号si(n)所以由此可见MFCC特征也是基于短时帧的信号。

2)对每帧信号进行离散傅里叶变换:

实际计算时,一般用FFT,N取512。

3)求出每帧信号的功率谱,然后通过Mel滤波器组。假设Mel滤波器组是由M个滤波器组成,每个滤波器是中心频率为f(m)的三角滤波器,中心频率f(m)之间的间隔随着m的增加而增加。三角滤波器的传递函数为:

f(m)可以定义为:

式中,fl、fh为滤波器的频率应用范围的最低频率和最高频率,N为FFT长度,Fs为采样率是fmel(.)函数的逆函数,由式1可知:

对经过Mel频率滤波器的信号取对数,得对数频谱:

4)对对数谱信号X(m)进行DCT变换,即可得到MFCC特征参数:

(2)倒谱提升窗口

为了提高倒谱特征的抗噪声能力,也为了增加MFCC特征矢量中的低阶分量的稳定性,在MFCC矢量不同分量处添加不同的权值,而这些权值的取值主要是靠一个窗函数来实现:

式中,C(k)为MFCC系数,W(k)为窗函数:

式中,K为MFCC阶数。

(3)Mel频率倒谱差分参数

MFCC刻画了语音信息的静态特性,而Mel频率倒谱差分参数刻画了语音信息的动态特性[5],ΔMFCC反映了人耳听觉模型的动态特性。差分参数的计算为:

式中,I为常数,通常取2;ΔMFCC就是一阶差分Mel频率倒谱参数,在实际应用时,往往把MFCC和ΔMFCC混为一个整体认为一帧语音信号的特征参数。用同样公式对一阶差分参数进行计算,可得到二阶差分参数(△△MFCC)。

2 语音识别特征阶数的选取

系统识别率与特征参数的阶数K有关[5],阶数越高,特征的表现力越强,阶数越低,特征表现力越弱。在对纯净语音处理的情况下,随着特征阶数的增加,识别率不断增大,到达一定值后,识别率趋于稳定,甚至有略微下降趋势,此时可以确定一个最优阶数。现在假设加入背景噪声,在同一背景噪声不同信噪比或是在不同噪声相同信噪比下,确定系统在背景噪声下的最优阶数。

实验条件(本文所有实验均使用此条件):15个女性发音,40个男性发音,语音样本为10个英文单词,每个单词发音55次,采样率为16kHz;实验中用到的白噪声、粉红噪声、车载噪声和工厂噪声均采用Signal Processing Information Base录制的噪声库。实验模型选择:采用3阶混合Gauss概率密度函数的CHMM模型,状态数为4。实验中加Hamming窗,帧长取320个采样点,帧移为160个采样点,信噪比为分别为15dB、10dB、5dB、0dB、-5dB。

受不同噪声影响下的语音如图2所示,在各信噪比下平均识别率随着阶数变化的情况。其中横坐标为特征阶数,纵坐标为各信噪比下的平均识别率。由图2可知:在阶数较低时,识别率随着阶数的增加而增加,到达阶数18附近趋于最大,但继续增加阶数,识别率变化的趋势没有继续递增,反而出现下降的情况,所以一般来说,阶数不宜取得过高,也不宜过低。

图2 MFCC+ΔMFCC特征在不同噪声不同阶数下的平均识别率

3 MFCC+ΔMFCC各特征分量对识别率的影响

实验:在MFCC+ΔMFCC(18+18)参量中去掉某一分量找到对误识率影响较大的分量。为方便理解,用MelΔ(k)表示特征MFCC+ΔMFCC组合,即

式中,K代表特征阶数,此处取36。DMelΔ(k)表示缺失某一特征分量时的特征参数,可表示为

在不同噪声不同信噪比下误识率上升平均值与缺失MFCC和△MFCC特征分量的关系如图3所示,横坐标为信噪比,纵坐标为误识率的变化值。通过分析图3可知:在白噪声下可以考虑缺失MFCC低阶分量,缺失后对高信噪比时的识别率影响不大,而低信噪比时识别率反而增加。对于△MFCC参数可以缺失第一个分量;对于受到粉红噪声影响的语音,MFCC+△MFCC特征不应缺失任一分量,也就是每一个分量都包含有用信息;对于受到车载噪声影响的语音,MFCC+△MFCC特征可以缺失部分高阶MFCC分量和部分△MFCC分量,相比较其他噪声而言,受到车载噪声干扰的语音可以选用更少的特征参数分量;对于受到工厂噪声影响的语音,由于噪声环境相对复杂,MFCC+△MFCC特征不应缺失任一分量,也就是每一个分量都包含有用信息。

图3 不同噪声下不同信噪比MFCC特征和ΔMFCC特征与误识率的关系

4 结束语

本文围绕白噪声、粉红噪声、车载噪声和工厂噪声这4种典型噪声不同信噪比下的语音进行仿真讨论,首先确定了MFCC特征的最优阶数18,然后研究了在不同噪声影响下美尔倒谱频率静态特征(MFCC)及其动态特征(ΔMFCC)各分量对识别率的影响,从上述分析可知,系统所处的坏境不一样,所选取的MFCC+ΔMFCC特征分量应该不同,而不是笼统的像很多文献里不考虑噪声特点问题,盲目的舍弃MFCC低阶分量。为在保证系统有较高识别率的情况下,减少系统的计算量,提高实时性和鲁棒性提供依据。

[1]Rabiner L,Juang B H.Fundamentals of speech recognition[M].北京:清华大学出版社,1999:125-134.

[2]Shannon B J,Paliwal K K.MFCC computation from magnitude spectrum of higher lag autocorrlation coefficients for robust speech recognition[C].New York:Spoken Language Processing,2004:986-987.

[3]何强,何英.Matlab扩展编程[M].北京:清华大学出版社,2002:105-109.

[4]温源,李明,侯震,等.一种新的语音识别特征——Mel倒谱差分平方和特征[C].深圳:第六届全国人机语音通讯学术会议,2001:5-7.

[5]王让定,柴佩琪.语音倒谱特征的研究[J].计算机工程,2003,29(13):31-33.

猜你喜欢

阶数特征参数识别率
故障诊断中信号特征参数择取方法
基于特征参数化的木工CAD/CAM系统
确定有限级数解的阶数上界的一种n阶展开方法
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
复变函数中孤立奇点的判别
提升高速公路MTC二次抓拍车牌识别率方案研究
基于PSO-VMD的齿轮特征参数提取方法研究
高速公路机电日常维护中车牌识别率分析系统的应用
统计特征参数及多分类SVM的局部放电类型识别