APP下载

基于听觉模型的说话人语音特征提取*

2012-08-08何朝霞

网络安全与数据管理 2012年1期
关键词:基底膜特征参数识别率

何朝霞,潘 平

(贵州大学 计算机科学与信息学院,贵州 贵阳 550025)

声音的感受细胞在内耳的耳蜗部分,而基底膜是耳蜗接收声音最重要的组织。声波在外耳腔引起空气振动,从而引起行波沿基底膜的传播[1]。基底膜内有许多平行走向的胶原样纤维,称为听弦。听弦长短不同,靠近蜗底较窄,靠近蜗顶较宽。基底膜约有24 000条听弦,能够对不同频率的声音产生共鸣,分别反映不同频率的声音[2]。不同频率的声音产生不同的行波,其峰值出现在基底膜的不同位置上,研究发现,不同的声音频率沿着基底膜的分布是对数型的[3]。

早在1992年,PATTERSON R就提出了耳蜗模型,该模型是基于一系列带通滤波器——Gammatone滤波器组[4]实现的,该滤波器组能够很好地模拟基底膜的分频特性。本文提出了一种基于Gammatone滤波器组的特征提取方法,该方法能够很好地提取说话人语音信号的特征,并且具有很高的识别率。

1 Gammatone滤波器

Gammatone滤波器的时域表达形式[5]为:

其中,a为滤波器增益,f为中心频率,φ为相位,n为滤波器阶数。各种研究表明,n=4时,Gammatone滤波器就有很好的模拟特性。ERB(f)为Gammatone滤波器的等效矩形带宽[6],它与中心频率 f的关系[7]为:

式(2)还可以写成如下形式:

其中,EarQ=9.264 49,min BW=24.7,order=1。

由于在实际应用中,增益a和初始相位φ不会影响滤波器的性能,因此可以忽略,所以只要确定Gammatone滤波器的中心频率,其性能也就确定了。中心频率f的计算公式[8]为:

其中,fH为滤波器的截止频率,v为滤波器的重叠因子。

Gammatone滤波器的时域表达式为冲击响应函数,将其进行傅里叶变换就可以得到其频率响应特性。不同中心频率的Gammatone滤波器的幅频响应曲线如图1所示。

取n=4,将式(1)进行拉普拉斯变换得到:

其中,b=2πERB(f),ω=2πf。

将 G(s)转换为 z变换 G(z),再反变换得到:

将语音信号与g(n)卷积就可以得到滤波器的输出。

2 特征提取过程

从上述Gammatone滤波器的介绍,仿照MFCC参数提取过程,考虑将Gammatone滤波器组运用到说话人识别中参数的提取过程,这样就更加符合人耳的听觉特性。该提取过程如图2所示,具体步骤如下。

图2 基于Gammatone滤波器组的参数提取流程

(1)为了提升高频部分,使信号的频谱变得平坦,将语音信号经过预加重数字滤波器H(z)=1-0.937 5z-1。

(2)将预加重后的信号进行分帧,帧长256点,帧移100点,加汉明窗;再经过离散傅里叶变换(DFT)得到频谱特性,求出频谱平方,即能量谱。

(3)设计 Gammatone滤波器组。Gammatone滤波器组的中心频率在50 Hz~3 000 Hz之间。这里采用的是4阶Gammatone滤波器,其通道数N和带宽可以调节,根据式(3),取0

(4)经过Gammatone滤波器组后得到相应频带的能量,再进行对数运算和反离散余弦IDCT变换,就可以得到静态特征参数了。

3 仿真实验

仿真实验的语料库来源于贵州省公安厅提供的语料及学校部分学生随机利用MP4所得的录音,语料时间各不相同。采用高斯混合模型(GMM)进行与文本相关的说话人确认实验。

图4为 48通道 Gammatone滤波器组(order=1时)的幅频曲线。

图5为某一说话人语音的波形及其经过特征提取系统(系统中Gammatone滤波器组为48通道)所得到的GFCC系数输出曲线。

从图 5(b)可以可以看出,该系数含有丰富的内容,对识别率的提高有很大的帮助。下面将该特征运用到GMM识别系统中,具体结果如下。

首先是不同时间长度的语音信号,时间长度分别为5 s、20 s、50 s,将其在 64 通道 Gammatone 滤波器组所得到的静态特征参数(简称GFCC)与 MFCC(Mel滤波器组维数为24)静态参数在识别系统中进行了识别率的对比,其结果如图6所示。

从图6可以看出,64通道的GFCC静态特征参数比MFCC静态特征具有更好的识别率。

同时,将不同order值、不同滤波器组通道数所得的GFCC参数在识别系统中进行了识别率比较,如图7所示。其中,order值分别为 0.1、0.5、1,滤波器组通道数分别为48、64、128。从图 7可以看出,滤波器组通道数越高,识别率越高;order值越小,识别率越高。

本文介绍了基于人耳听觉特性的Gammatone滤波器组的特征提取方法,并通过实验验证了该特征在滤波器通道数较多或ERB(f)较小时具有较高的识别率。但是同时也得出只有在滤波器组通道数较高时才有较高的识别率,增加了数据的复杂度。在以后的研究中需要考虑通过降低滤波器组的通道数提高识别率的方法。

[1]JOHANNESMA P I M.The pre-response stimulus ensemble of neurons in the cochlear nucleus[C].Proceedings of the Symposium on Hearing Theory, 1972:58-69.

[2]COOKE M P.Modeling auditory proeessing and organization[M].Cambridge,U.K: Cambridge University Press,1993.

[3]韩纪庆,张磊,郑浩然.语音信号处理[M].北京:清华大学出版社,2008.

[4]SLANEY M.An efficient implementation of the pattersonholdswort auditory filter bank.Apple ComPuter Teehnieal RePort#35 Pereeption GrouP-Advaneed Technology GrouP[R].ComPuter, Inc:Apple, 1993.

[5]Shao Yang,Wang Deliang.Robust speaker identification using auditory features and computational auditory scene analysis[C].IEEE International Conference on Acoustics,Speech, and Signal Processing,2008,5:1589.

[6]SRINIVASAN S, Wang Deliang.Transforming Binary uncertainties for robust speech recognition [C].IEEE Transactions on Audio, Speech and Language Processing,2007,15(7):2130-2140.

[7]Wang Deliang,BROWN G J.Computational auditory scene analysis: principles, algorithms, and applications[M].Hoboken, NJ: Wiley-IEEE Press, 2006.

[8]王男,钱志鸿,王雪,等.基于伽马通滤波器组的听觉特征提取算法研究[J].电子学报,2010,38(3).

猜你喜欢

基底膜特征参数识别率
新生小鼠耳蜗基底膜的取材培养技术*
冕洞特征参数与地磁暴强度及发生时间统计
基于类图像处理与向量化的大数据脚本攻击智能检测
基于交通特征参数预测的高速公路新型车检器布设方案研究
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
提升高速公路MTC二次抓拍车牌识别率方案研究
豚鼠耳蜗基底膜响应特性的实验测试与分析
基于PSO-VMD的齿轮特征参数提取方法研究
基于螺旋型耳蜗的数值分析
基于视频的车辆特征参数算法研究