基于MFCC与共振峰的声纹识别算法研究
2016-04-11王正创
王正创
摘要:在声纹识别系统中,由于特征参数MFCC不能实现高效的识别,提出了将MFCC和共振峰相结合的提取方法。并在此基础上引用了一阶差分[Δ]MFCC和二阶差分[ΔΔ]MFCC,进而将MFCC、[Δ]MFCC、[ΔΔ]MFCC和共振峰有机结合起来进行声纹识别实验,说话人模型采用的是高斯混合模型。实验结果表明提取混合特征参数MFCC、[Δ]MFCC、[ΔΔ]MFCC与共振峰进行声纹识别时,识别率大大提高。
关键词:MFCC;共振峰;GMM
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)04-0188-03
A Voiceprint Recognition Algorithm Based on MFCC and Formants
WANG Zheng-chuang
(College of Mechanical and Electronic Engineering, Chaohu University, Chaohu 238000,China)
Abstract: Because MFCC cant achieve efficient voiceprint recognition, a feature extraction method by combining MFCC and Formants is proposed. And on the basis cited the [Δ]MFCC and [ΔΔ]MFCC, then MFCC, [Δ]MFCC, [ΔΔ]MFCC and Formants are combined to conduct the voiceprint recognition experiment, the speaker models use the Gaussian Mixture Modeling. The experiment results show that the extraction of mixture parameters MFCC, [Δ]MFCC, [ΔΔ]MFCC and Formants for the voiceprint recognition, the recognition rate improves greatly.
Key words: MFCC; formants; GMM
1 概述
由于声纹和指纹、人脸、DNA一样,是一个人内在的、唯一的特征,通过提取声纹中的特征来进行身份鉴别技术不断地发展起来。目前已广泛应用到银行证券、刑侦反恐、国防安全等各个领域,并发挥着越来越大的作用。
声纹识别中最关键的问题之一就是提取有效的特征参数,有效的特征参数可以提高识别率,目前常见的特征参数有基音周期、线性预测系数(LPC)、线谱对参数(LSP)、线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)。本文主要介绍MFCC和共振峰的提取算法,并利用高斯混合模型进行声纹识别实验,进而表明MFCC参数与共振峰结合优于单独的特征参数。
2 Mel频率倒谱系数
MFCC 是根据人的听觉感知机理提出的能反映人的声音特征的参数,因此它没有任何前提假设,且具有良好的识别能力和抗噪声能力。由于人耳所听到的声音的高低与声音的频率并不成正比关系,而用Mel频率尺寸则更符合人耳的听觉特性。Mel频率与实际频率的具体关系可用公式(1)表示:
[Mel(f)=2595lg(1+f/700)] (1)
图1是MFCC参数的提取框图:
图1 MFCC的提取过程
MFCC 参数提取过程如下:
1)原始语音信号在经过采样量化后需经过预加重处理以提高信号的高频部分的幅度,进而增加语音的高频分辨率,一般通过预加重数字滤波器对其加以滤波,该滤波器的传递函数为:
[H(Z)=1-αZ-1] (2)
其中,[α]为预加重系数且0.9<[α]<1.0,这里取[α]=0.97。
2)根据语音信号短时平稳的特性,通过分帧操作提取语音短时特性便于建模,通常取帧长30ms,此时帧移10ms。为了平滑信号以减少每帧信号两端的预检测误差,一般采用加窗的方法。本文采用加汉明窗,如下:
[W(n)=0.54-0.46cos(2πnN-1)] [(0≤n≤N-1)] (3)
3)端点检测是声纹识别中的一个重要环节,有效的端点检测方法不仅可以减少数据的存储量和处理时间,而且可以排除无声段的噪声干扰使声纹识别更为准确。
4)原始语音信号s(n)经过采样、量化、预加重、分帧、加窗、端点检测等处理,得到每个语音帧的时域信号x(n)。将时域信号x(n)后补若干0以形成长为N(一般取N=512)的序列,然后经过离散傅里叶变换(DFT)后得到线性频谱X(k),变换公式为
[X(k)=n=0N-1x(n)e-j2πnk/N,0≤n,k≤N-1] (4)
5)将得到的线性频谱X(k)通过Mel频率滤波器组得到Mel频谱,Mel频率滤波器组为在语音的频谱范围内设置的若干个具有三角滤波特性的带通滤波器,其设计如下:
[Hp(k)=0 (k
其中,[0≤p
6)所得到的Mel频谱通过对数能量的处理,得到对数频谱S(p),总传递函数为:
[S(p)=lnk=0N-1X(k)2Hp(k),0≤p
7)将得到的对数频谱S(p)经过离散余弦变换(DCT)到倒谱域,即可得到MFCC参数c(n):
[c(n)=p=1P-1S(p)cosπn(p+1/2)P,0≤p
在实际的声纹识别应用中,并不是取全部维数的MFCC系数,一般最前若干维以及最后若干维的MFCC系数对语音的区分性能较大,在这取前12维的MFCC系数。图2为从一段语音信号中提取的特征参数MFCC、[Δ]MFCC、[ΔΔ]MFCC。从图中可以看出,12维以后的一阶MFCC系数和二阶MFCC系数的幅度值基本上为0,对语音的区分性能影响不大。
图2 特征参数MFCC、[Δ]MFCC、[ΔΔ]MFCC
3 共振峰
当声音进入声道后,其频谱必定会受到声道的共振特性的影响,声道具有一组共振频率,称为共振峰频率或共振峰。声道的频谱特性反映出共振峰的不同位置和各个峰的频带宽度,共振峰及其带宽取决于声道的形状和尺寸,所以不同的语音信号对应于一组不同的共振峰参数。
图3是共振峰参数的提取框图:
图3 共振峰参数的提取过程
语音信号进过分帧、加窗 、快速傅里叶变换(FFT),将得到语音信号的短时谱,短时谱取对数后再进行快速傅里叶逆变换(IFFT),将得到语音的倒谱。倒谱将基音谐波和声道的频谱包络分离出来,倒谱的低时部分可以分析声道、声门和辐射信息,而高频部分可以分析激励源信息。因此对倒谱进行低时窗选,通过语音倒谱分析系统的最后一级,进行FFT后的输出即为平滑后的对数模函数,此时平滑的对数谱显示了特定输入语音信号的谐振结构,即谱的峰值基本上对应于共振峰频率,对平滑过的对数谱中的峰值进行定位,即得到共振峰。如图4,从一段语音信号中提取的共振峰参数。
图4 共振峰参数
4 实验结果及分析
本实验所使用的语音库是在实验室环境下,采用8KHz的采样频率,单声道,16位的采样精度进行语音信号录制的。该语音库共有10个说话人,其中每个说话人的10个语音段用于训练样本集,训练的时间分别为10s、20s、30s,7个语音段用于测试样本集,测试的时间为10s。实验时分别提取每个说话人的特征参数MFCC、[MFCC+ΔMFCC]、Formants、[MFCC+ΔMFCC+ΔΔMFCC+Formants]。说话人的模型使用GMM混合模型,高斯模型混合数为16。表1是提取不同特征参数识别结果的比较。
表1 不同特征参数的识别率(%)
从实验结果可以得出,特征混合参数[MFCC+ΔMFCC+ΔΔMFCC+Formants]的识别率最高,优于单独的特征参数MFCC和共振峰,并且随着训练时间的增加,不同特征参数的识别率都有所提高,但是识别率增长到一定程度后就很难增长。此外,在训练过程中,尽量保证录音的质量,尽量少含有噪音和杂音,这样识别率会更高。
5 结论
本文主要介绍了特征参数MFCC和共振峰的提取方法,并将一阶差分[Δ]MFCC、二阶差分[ΔΔ]MFCC有机结合起来进行声纹识别。实验结果显示特征混合参数[MFCC+ΔMFCC+ΔΔMFCC+Formants]的识别率明显提高了很多,并且训练时间增长,识别率就越高,进一步提高了声纹识别系统的性能。不足的是特征混合参数的计算量大,但是计算机的处理速度不断加快,解决计算量不是问题,在训练语音中容易受噪音的干扰,所以特征参数的鲁棒性将是以后研究的一个方向。
参考文献:
[1] Yang Yang, Wu Ren, Zhang Hui. The research of voiceprint recognition based on genetic optimized RBF neural networks . 2012 IEEE International Conference on Computer Science and Automation Engineering (CSAE). Washington, United States: IEEE Computer Society,2012.704-708.
[2] Tomi Kinnunen, Haizhou Li. An overview of text-independent speaker recognition: From features to supervectors. Speech Communication,2010,52(1):12-40.
[3] Ahmed Mezghani, Douglas OShaughnessy. Speaker Verification Using a New Representation Based on a Combination of MFCC and Formants[C]. Canadian Conference on Electrical and Computer Engineering. United States: Institute of Electrical and Electronics Engineers Inc.,2005.1461 -1464.
[4] Zhao Yanping, Zhao Xiaohui, Wang Bo. A speech enhancement method employing sparse representation of power spectral density [J]. Journal of Information and Computational Science,2013,10(6):1705-1714.
[5] 胡政权. 说话人识别中语音参数提取方法的研究[D].南京:南京师范大学,2013.
[6] 张震,王化清. 语音信号特征提取中Mel倒谱系MFCC的改进算法[J].计算机工程与应用,2008,44(22):54-56.
[7] 宫朝辉,刁麓弘. 改进共振峰提取的语音端点检测[J]. 计算机辅助设计与图形学学报,2013,25(8):1230-1236.
[8] 裴鑫. 声纹识别系统关键技术研究[D]. 哈尔滨:哈尔滨理工大学,2014.