说话人识别综述
2012-01-19戚银城刘明军张华芳子武军娜
杨 迪,戚银城,刘明军,张华芳子,武军娜
(华北电力大学电子与通信工程系,河北保定 071003)
说话人识别综述
杨 迪,戚银城,刘明军,张华芳子,武军娜
(华北电力大学电子与通信工程系,河北保定 071003)
在分析说话人识别原理和方法的基础上,对近年来说话人识别技术的发展进行了综述。分析了当前说话人识别技术中使用的多种特征和模式识别方法,并对其今后的研究前景和发展方向进行了展望。
说话人识别;特征提取;模式识别
说话人识别(Speaker Recognition,SR)又称话者识别[1],是指通过对说话人语音信号的分析处理,自动确认说话人的技术。其综合了生理学、语音学、数字信号处理、模式识别、人工智能等学科知识的一个研究课题,以独特的方便性、经济性和准确性等优势,在相关领域内发挥着重要作用,并有着广阔的市场应用前景。
1 说话人识别原理
说话人识别的基本原理,是利用说话人的语音为每个说话人建立一个能够描述此说话人特点的模型,作为此说话人语音特征参数的标准模板,然后针对测试的语音信号进行比对,实现判别说话人身份的目的。说话人识别的原理框图,如图1所示。
图1 说话人识别原理框图
1.1 特征提取
人的发声器官由3部分组成:(1)肺和气管产生气源。(2)喉和声带组成声门。(3)由咽腔、口腔、鼻腔组成声道。空气由肺部排入喉部,经声带进入声道,最后由嘴辐射出声波,这就形成了语音。当发不同性质的语音时,激励和声道的情况不同,其对应的模型也不同。根据提取的算法不同,将语音信号特征可分为声门特征、声道特征。语音信号是一维时域信号,具有简单易懂、清晰直观、便于计算等优点,基于声门特征的分析是最早应用于说话人识别的方法之一,而基于声道特征的分析是目前说话人识别中识别效果较好的方法。
1.1.1 声门特征
由于声带振动的不同,对应于声带之间切口形状时变区域的变化,即为声门。研究显示[2],通过声门声带流的差异反映了声带张开闭合的速率、声带在通常情况下的形状以及声带振动时刻的宽度和速调范围;与基于声道性质的倒谱特征一样,说话人生理上这些固有的特征也具有个体差异,因而可以在说话人识别系统中用于区分说话人。基于声门特性的基本说话人识别特征主要包括:
(1)基频[3]:浊音信号是一种准周期性信号,其周期称为基音周期。语音上的基音高低决定于声带的长短、松紧、厚薄。长、松、厚的,基音就低;短、紧、薄的,基音就高。鉴于对人生理特性的良好表现力,以及较传统倒谱特征优良的环境鲁棒性,基音周期被广泛应用于说话人识别中。目前基音周期的估计算法主要有自相关法、平均幅度差函数法、并行处理法、倒谱法、简化逆滤波法、小波变换法等。
(2)能量:语音的能量通常指的是语音的短时能量,它反映了语音信号的强度;同时,语音能量的变化反映了语音信号停顿以及重音所在。
(3)语音速率:语音速率指单位时间内发出音节的个数,它反映了说话人发音的快慢。由于音素的知识与语音识别紧密相关,因而在文本无关的说话人识别中,语音速率特征使用的并不多。
1.1.2 声道特征
人在说话的时候,声门处气流冲击声带产生振动,然后通过声道响应变成语音。数字化的语音信号是声道频率特性和激励信号源二者的共同结果,后者对于某帧而言常带有一定的随机性,而说话人的个性特征一定程度上体现在说话人的发音声道变化上,即声道特征可以更好地对说话人进行识别。基于声道的特征主要有:
(1)美尔倒谱系数(Mel-frequency Cepstral Coefficients,MFCC),是基于听觉系统的临界带效应、在Mel标度频率域提取出来的一种倒谱参数,它能够比较充分利用人耳这种特殊的感知特性,这种特征具有比较强的鲁棒性,得到了广泛应用。近年来,学者们为提高识别率,在MFCC特征的基础上,提出了一些改进参数,如:△MFCC、DMFCC、MFSC、FMFCC 等。其中一阶差分系数△MFCC[4]以其能够拟合人发声和人耳听觉的动态特性的优点,和MFCC结合后能得到很好的应用和识别效果。
(2)线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC),1947年维纳首次提出了线性预测这一术语,而板仓等人在1967年首先将线性预测技术应用到了语音分析和合成中。LPCC是最早被应用到语音识别中的一种倒谱参数,其主要优点是比较彻底地去掉了语音产生过程中的激励信息,主要反映声道响应,计算量小,并且对元音有较好地描述能力,而且往往只需要十几个倒谱系数就能较好地描述语音的共振峰特性,因此在说话人识别中得到了良好的应用。
考虑到单独使用某种特征所存在的问题,越来越多的说话人识别系统开始将声门特征与基于声道特征的倒谱特征相结合,以进一步提高说话人系统性能,而如何将这两种特征有效地结合起来成为目前的一个热门话题。通常融合的方法是将声门信息特征线性叠加到同一帧的倒谱特征,以形成维度更高的语音特征[5];或者分别在倒谱特征系统和声门特征系统中进行识别,然后将它们的得分进行加权组合[6],利用声门信息特征和倒谱特征在区分说话人上的互补性,有利于提高系统性能,对说话人识别技术是一个重大突破。
此外,研究者为提高说话人识别系统的性能,提出对特征进行变换的方法,以降低特征的维数和计算的复杂度。主要的特征变换方法有:主成份分析法(PCA)[7]、线性判别分析法(LDA)[8]、独立分量分析法(ICA)[9]。主成份分析法利用其最优的降维性质,在保证说话人识别性能的前提下减少说话人识别特征的维数,进而降低计算复杂度。相比主成份分析法,经过线性判别分析法得到的特征有更好的噪声鲁棒性。独立分量分析是解决盲源分离问题的一个有效的方法,它能够更好地去除噪声,在提取MFCC特征时,将ICA代替DCT对信号求取频谱,得到的特征参数对非高斯噪声信号有更好的识别率。
1.2 识别方法
采用不同说话人模型结构对应于说话人识别的不同方法。随着计算机和数字信号处理、人工智能等的不断发展,说话人识别已从单一的模板模型向非参数模型、参数模型、人工神经网络模型以及支持向量机模型方向发展,并且混合模型应用于说话人识别也成为热点。
1.2.1 非参数模型方法
典型的非参数模型包括动态时间规整法(Dynamic Time Warping,DTW)和矢量量化法(Vector Quantization,VQ)。
(1)动态时间规整法:说话人信息不仅有稳定因素,而且有时变因素。将识别模板与参考模板进行时间对比,按照某种距离测度得出两模板间的相似程度。常用的方法是基于最近邻原则的动态时间规整(DTW)。
(2)矢量量化法:最早用于聚类分析的数据压缩编码技术。Helms首次将其用于说话人识别,它把每个人的特定文本训练成码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为判决标准。Bell实验室的Rosenberg和Soong用矢量量化进行了孤立数字文本的说话人识别研究,得到了较好的识别结果。利用矢量量化的说话人识别方法的判断速度快,而且识别精度较高。
1.2.2 参数模型方法
参数模型是指采用某种概率密度函数来描述说话人的语音特征空间的分布情况,并以该概率密度函数的一组参数作为说话人模型。这些参数可以用从训练语音中提取的特征参量来估计,说话人识别系统中经常采用的参数模型有:隐马尔可夫模型(Hidden Markov Model,HMM)、高斯模型、高斯混合模型(Gaussian Mixture Model,GMM)等。
(1)隐马尔可夫模型法:是一种基于转移概率和输出概率的随机模型,最早CMU和IBM被用于语音识别。它把语音看成由可观察到的符号序列组成的随机过程,符号序列则是发声系统状态序列的输出。在使用隐马尔可夫模型识别时,为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。对于与文本无关的说话人识别一般采用各态历经型HMM;对于与文本有关的说话人识别一般采用从左到右型HMM。HMM不需要时间规整,可节约判决时的计算时间和存储量,在目前被广泛应用。缺点是训练时计算量较大。
(2)高斯混合模型法:GMM是一种统计模型,它能很好地刻画参数空间中训练数据的空间分布及其特性,可以表示成为多个高斯概率密度函数的加权和的形式。GMM模型实际上是连续HMM模型的一种特例,即单个状态的HMM。也就是说GMM模型只有一个状态,它并不去刻画语音的时序过程,因为在与文本无关的话者识别中,用于训练的语音和用于测试的语音的语义完全可以不同,即时序过程在训练和测试时是不同的。所以,GMM模型只刻画语音特征参数的静态分布,也即通过高斯分布来描述不同的因素类,而不考虑时序信息。不同说话人之间语音特征的静态分布也是不同的。因此通过比较不同话者的GMM模型,就可以区分不同的说话人。
1.2.3 人工神经网络方法
人工神经网络(Artificial Neural Network,ANN):在某种程度上模拟了生物的感知特性,是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,其性能近似理想的分类器。其缺点是训练时间长,动态时间规整能力弱,网络规模随说话人数的增加,可能大到难以训练的程度。ANN由神经元、网络拓朴、学习算法3个基本要素构成,训练过程中是将已知语音信号的特征参数作为学习样本,并将其代入到神经网络中进行多次循环网络学习,网络通过对这些特征参数的学习将最终得到一组能代表说话人特征的网络连接权和偏置,说话人识别测试过程就是将待测说话人的语音特征参数代入到网络中,通过网络的相似计算准测得出判决结果。
1.2.4 支持向量机方法
支持向量机(Support Vector Machine,SVM):是Vapnik提出的旨在改善传统神经网络学习理论弱点的一种重要的学习方法,它是在统计学习理论(Statistical Learning Theory,SLT)基础上发展起来的。SVM的基本思想是将输入空间的向量映射到高维SVM扩展空间,然后在高维的扩展空间中采用分类方法构造最优超平面分界面,以解决说话人识别问题。SVM致力于寻找一个既满足分类要求,并且使它距离最近的样本分隔区域最大的超平面,这样就能从最优分类超平面中得到决策函数,也就是支持向量机。它是一种泛化能力很强的分类器,在国际模式识别领域受到广泛的关注。
近几年,说话人的识别方法已经由单一的模式识别转向为多模式的识别,每种识别都有各自的优缺点,采用多种识别模式的组合不仅可以克服单一模式的缺点、弥补单一模式识别的不足,最主要的是可以提高说话人的识别效率。鲍焕军,郑方[10]将GMM-UBM与SVM结合,利用GMM-UBM能突出说话人个性特征,而SVM对信道的鲁棒性较好,弥补了GMM-UBM受信道影响较大的缺点,该融合方法提高了系统的性能,接着,郭武等人[11]也证实了相应的结果;郑建炜等人[12]利用GMM与RVM融合的方法,既有效地提取话者特征信息,解决大样本数据下的RVM训练问题,又结合统计模型鲁棒性高和分辨模型辨别效果好的优点,比GMM/SVM系统具有更高的稀疏性。
2 说话人识别技术展望
从当今的趋势看来,说话人识别技术主要集中于如何将语音信息与说话人个人特征信息有效地区分开、如何提取出能很好地表征说话人个性的特征参数、如何有效利用不同特征参数之间的互补性等方面,并在基于人耳听觉的基础上也提出了一些有效参数。在识别模型上,人工神经网络模型、支持向量机模型、多模式组合的方法将逐渐深入到说话人识别过程中。随着各相关学科的迅速发展,说话人识别技术将会有更多的理想算法出现,也将会有更广阔的前景。
[1]QUATIERI F T.离散时间语音信号处理—原理与应用[M].赵胜辉,刘家康,谢湘,等,译.北京:电子工业出版社,2004.
[2]PLUMPE M D,QUATIERI T F,REYNOLDS D A.Modeling of the glottal flow derivative waveform with application to speaker identification[J].IEEE Transactions on Speech and Audio Processing,1999,7(5):569 -586.
[3]GURUPRASAD S,YEGNANARAYANA B.Performance of an event-based instan-taneous fundamental frequency estimator for distant speech signals[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(7):1853-1864.
[4]郭春霞.说话人识别算法的研究[J].西安邮电学院学报,2010,15(5):104 -106.
[5]ZHENG Rong,ZHANG Shuwu,XU Bo.Improvement of speaker identification by combining prosodic features with acoustic features[C].Guangzhou:5th Chinese Conference on Biometric Recognition(SINOBIOMETRICS 2004),2004,3338:569-576.
[6]叶寒生,陶进绪,张东文,等.噪声环境下基于特征信息融合的说话人识别[J].计算机仿真,2009,26(3):325 -328.
[7]GAN Zhigang.An improved feature extraction method in speaker identification[C].Hangzhou:2011 Third International Conference on Intelligent Human-Machine Systems and Cybernetics,2011:218 -222.
[8]MITCHELL M L,DAVID V L.Source- normalised - and -weighted LDA for robust speaker recognition using i-vectors[C].Prague Congress Ctr:2011 IEEE International Conference on Acoustics,Speech and Signal Processing,2011:5456-5459.
[9]DU Jun,ZOU Xin,HAO Jie,et al.The efficiency of ICA -based representation analysis:application to speech feature extraction[J].Chinese Journal of Electronics,2011,20(2):287-292.
[10]鲍焕军,郑方.GMM-UBM和SVM说话人辨认系统及融合的分析[J].清华大学学报:自然科学版,2008(S1):100-105.
[11]郭武,戴礼荣,王仁华.采用高斯概率分布和支持向量机的说话人确认[J].模式识别与人工智能,2008,21(6):794-798.
[12]郑建炜,王万良,郑泽萍.GMM与RVM融合的话者辨识方法[J].计算机工程,2010,36(15):168-170.
Overview on Speaker Recognition
YANG Di,QI Yincheng,LIU Mingjun,ZHANG Huafangzi,WU Junna
(Department of Electronic and Communication Engineering,North China Electric Power University,Baoding 071003,China)
Based on the analysis of the principles and methods of speaker recognition,the development of speaker recognition in recent years is reviewed.Several features and pattern recognition methods in the mainstream speaker recognition technologies are summarized and analyzed.Finally,the research prospects and development trends in the future are given.
speaker recognition;feature extraction;pattern recognition
TP391.9
A
1007-7820(2012)06-162-04
2012-01-03
杨迪(1988—),女,硕士研究生。研究方向:说话人识别。戚银城(1968—),男,博士,教授。研究方向:信息系统与信息安全。刘明军(1987—),男,硕士研究生。研究方向:视频监控。张华芳子(1988—),女,硕士研究生。研究方向:电力系统通信。武军娜(1986—),女,硕士研究生。研究方向:智能信息处理。