APP下载

基于文本无关的话者识别技术综述

2016-03-22陈建涛陈维娜

电脑知识与技术 2016年1期
关键词:模式匹配神经网络

陈建涛++陈维娜

摘要:基于文本无关的话者识别系统应用前景广阔,单一特征参数法往往难以完全反映说话人的个人语音特征,因此目前研究的重点在于多种特征相结合的方法。文本无关的话者识别技术的难点在于它对提取参数要求很高,不能局限于表征个体单方面的特征参量,因此要形成一个有效、可靠的多特征结合的系统是当前研究的难点之一。

关键词:话者识别;模式匹配;文本无关;神经网络

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)01-0189-03

An Overview about the Text-independent Speaker-identification Technology

Chen Jian-tao,CHEN Wei-na

(Peoples Public Security University of China,Beijing 102623, China)

Abstract: The application prospect of the text-independent speaker-recognition system is wide, and the single feature parameter method is often difficult to completely reflect the speaker's personal voice characteristics, so the focus of the current research lies in the combination of multiple features. The difficulty of the text independent speaker recognition technology is that it requires a high extraction parameters, and can not be confined to the characteristics of individual parameters, so it is difficult to form an effective and reliable system.

Key words: speaker-identification; pattern matching; text-independent; neural network

话者识别(speaker identification),在司法鉴定领域也被称作语音同一认定,是指通过比较特定说话人不同时间段发出的语音,从而判断这些语音是否来自同一人的一种技术手段。[1]

图1 话者识别的一般流程

话者识别技术根据被检测语音和样本语音内容之间的关系可分为文本相关(Text-dependent)的话者识别技术和文本无关(Text-independent)的话者识别技术两种。所谓文本相关是指在被检测语音和样本语音内容完全一致的前提下进行的话者识别;文本无关与文本相关相对,是指不考虑被检测语音与样本语音内容是否一致而进行的话者识别方法。文本相关的话者识别技术是话者识别技术的起步阶段,虽然简单而且误识率低,但是在实际应用中,受限制的因素较多,因此基于文本无关的话者识别技术就成为了话者识别领域中的研究的重点和应用的热点。话者识别系统一般包含语音信号输入、预处理与数字化、特征提取、模式匹配和输出结果等几个模块,图1表示的是话者识别系统一般的流程图。

1 语音的特征参数

在对人的发声系统的发声机理、听觉系统的感知机理和语音信号的数学建模的研究基础之上,文本无关话者识别技术研究过程中已使用过的特征参数主要包括以下三类:

1.1基于发声特性的特征参数[7]~[8]

从法庭科学的角度来讲,人的发音习惯是运动习惯的一种,属于人的局部器官的协调运动,这种运动习惯由声带、声道和鼻、口、咽共振腔的生理结构决定,而基于语音的短时谱提取出来的特征参数正好能反映不同人之间的这种生理结构差异。基于发声特性的特征参数包括音强曲线、基音强度、共振峰强度和带宽等。

1.2基于听觉特性的特征参数

除了模拟人的发声特性,通过模拟人耳听觉特性也能够提取出说话人语音的特征参数,常见的主要是一些倒谱参数,例如美尓倒谱系数(MFCC)和感知线性预测倒谱系数(LPCC)等,大量研究表明这类参数在文本无关的话者识别系统中能够取得较好的效果。其中美尓倒谱系数(MFCC,Mel Frequency Cepstral Coefficients)MFCC参数是基于人的听觉特性的临界带效应[2],由于MFCC的计算要经过滤波、取对数、作DCT变换等几个过程,它的运算量要比LPCC参数大,但是MFCC的鲁棒性要强[9],对于较强的辅音和夹杂噪音的语音都有较强的识别度。王金明等人[3]通过验证发现基于LPCC参数的误识率为10.9%,而基于MFCC参数的误识率为8.8%,此外一阶差分特征参数与原参数组合的系统性能优于非组合型特征参数。

1.3基于声道参数模型的特征参数

基于声道参数模型的特征参数是指能够客观反映说话人声道特性的一类参数,常用的是线性预测倒谱系数及其派生参数(反射系数、对数面积比系数、自相关系数、线谱对参数等),线性预测倒谱系数及其派生参数能够有效表现声道特点,是最有效的语音特征参数之一[11]。线性预测倒谱系数(LPCC,Linear Prediction Cepstrum Coefficient)[4] LPCC是由LPC系数推算得到的倒谱系数,相对于LPC来说能够较好地排除说话声发音时的过激信息,通常只需要几十个倒谱系数就能够描述说话人语音的共振峰特性,能够客观地表现声道的发声特性。LPCC的推算流程如图2所示。线性预测方法是建立在语音信号的相邻采样点之间具有很好的关联性的基础上的。研究表明不同人之间的相应特征之间的距离要大,而同一人相应特征之间的距离要小。

图2 LPCC参数的推算流程示意图[12]

宁飞[5]经过对LPCC的数据进行详细分析,发现LPCC倒谱参数其实并不能完全表现不同说话人声音之间的特异性,倒谱参数的前五分之一反映的是说话人的声道特性,不同人之间差异度较小,不宜用于说话人识别,而倒谱参数的后五分之一主要反映说话人的声门特征,个体特异性显著,这类参数可以用于说话人识别。

由于单一特征法通常不能完全反映说话人的个人特征,多种特征参数融合的方法应运而生。多特征法是融合多种语音特征参量进行话者识别的方法,多特征融合的方法是在单特征法的基础之上发展起来的,算法和框架的设计都要更为复杂,但多特征融合的方法对于文本无关的语音识别准确率要明显高于单特征法。例如朱坚民等[6]提出了将MFCC特征和1/3倍频程特征作为说话人语音的特征参数,设计并实现了利用贝叶斯网络进行话者识别的方法,50人的样本库正确率可达100%。流程如图3所示:

图3 基于贝叶斯网络的话者识别方法流程图[6]

2话者识别的模型

2.1模板匹配模型

模板匹配是一种比较传统的相似度计算与匹配方法,广泛用于语音、图片、文字和符号等各种模式识别领域。模板匹配的步骤:首先进行特征矢量的归一——即从样本语音库中提取出所需要的特征矢量,然后在测试阶段用同样的处理方法从待测语音中提取特征矢量,并与之前提取的样本特征矢量进行比较,进而得出识别结果。在模板匹配方法中可以使用多种距离测度,常用的是马氏距离和欧氏距离两种。[13]~[14]总体来说,模板匹配方法抗噪能力较弱,上述两种距离测度的变化会改变说话人的特征参数,最终导致识别率下降。

2.2矢量量化模型

在图像压缩和语音压缩等领域中矢量量化模型使用得比较多,它是将说话人语音中若干连续的特征参量取值分成一组,每组包含N个参数,这样就能够实现用N维向量表示一个说话人的语音特征的目的[15]。同样,矢量量化模型也分为学习和推理两个阶段:矢量量化模型学习时使用的是类聚算法,把M个说话人的语音特征参数类聚成M类,得到M个码本矢量;推理时先用同样的方法得到待测说话人语音的特征矢量,然后将这说话人的特征矢量与原有的M个码本矢量最小距离进行累加,将累加和最小的说话人作为识别结果。图4是一种基于VQ矢量量化模型的话者识别系统示意图。使用矢量量化模型的优点是数据量少、训练时间短,可以通过量化长时语音特征参数统计信息来达到识别说话人的目的,同时还可以有效地进行数据数据压缩从而提高识别效率。

图4 基于VQ矢量量化模型的话者识别系统示意图[16]

2.3隐马尔科夫模型(HMM)

隐马尔科夫模型(Hidden Markov Model)是使用描述状态间转移来描述特征变化过程的一种模型,人们在说话时发出的语音特征是随着时间不断变化的,因此用隐马尔科夫模型来描述语音的动态特征是可行的。在做测试时,将待测语音作为观察值,把样本语音模型作为隐含状态,测试待测语音在每个样本语音模型下的条件概率,取条件概率最大的那个样本语音模型作为待测语音模型识别结果。图5是基于隐马尔科夫模型的话者识别系统示意图。

图5 基于HMM的话者识别系统示意图[17]

2.4高斯混合模型(GMM)

用高斯定理的来分析说话人语音,每个人的语音特征在所有特征空间里都有一个特定的分布状态,这也和司法鉴定领域中关于语音的特异性的描述相一致,因此可以用语音特征的这种独特的分布来描述说话人的语音模型。高斯混合模型(Gaussian Mixture Model)将说话人语音特征的高斯分布进行线性组合,用这种组合的形式来表示不同说话人的语音特征在语音特征空间中的独特分布状态,将最能产生测试语音特征的高斯分布模型所对应的样本语音作为识别结果。在训练过程中,为每个人的语音建立一个模型,对每个人的特征分布状态进行统计,当所有训练结束后,保存每个说话人语音所对应的线性组合参数;在识别过程中,将待测语音与样本语音的参数进行比对,求出每个样本语音与待测语音对应的似然函数,将最大似然函数所对应的说话人作为识别结果[18]。基于混合高斯模型的话者识别系统的大体工作流程如图6所示。

图6 基于GMM的话者识别系统示意图

2.5人工神经网络模型

虽然参数模型和非参数模型方法都已经在文本无关的话者识别技术中有所应用,然而目前来说这些方法与人脑识别的效果差距依然是很大的。人工神经网络模型是指参照人脑神经元思考问题的工作模式而建立的一种数学模型,使用这种模型能够在一定程度上模拟人脑进行话者识别的过程,因此人工神经网络模型为话者识别尤其是文本无关话者识别提供了一个新的、有效的途径。人工神经网络模型应用文本无关的话者识别技术领域中通常有两种形式:一种是前向神经网络,另一种是多层前向神经网络。前一种结构、分类相对简单,因此应用范围相对较广;而后一种网络的原理是将单个神经网络进行组合得到一个级联神经网络,例如BP型神经网络和RBF型神经网络,多层前向神经网络的话者识别系统具有较高的识别率,因此也逐渐应用到了文本无关的话者识别领域[19]。基于人工神经网络模型的话者识别系统采用相似程度来度量识别结果,陈全今等[10]引入对数似然率(LLR,Logarithm Likelihood Ratio)的概念,对检材和样本的相似程度进行评分,具体方法是定义对数似然率

[LLR=lnP(EHP)P(EHd)]

其中E表示语音检材语音与样本语音出自同一人的后验概率;分别表示将检材语音与样本语音出自同一人的先验概率,陈金全等将LLR的评分分为10个档次,对应10个不同的结论,如表1所示。

表1 LLR评分的分档

使用LLR的优点在于不仅能够通过分档量化得到检材与样本的相似或者差异程度,同时能验证LLR是否适用既定的检材和样本。

目前基于人工神经网络模型的文本无关话者识别方法所面临的难题在于,神经网络的结构会随着待识别人群数量的变化而变化,分类器设计也要随着反复的训练过程不断改变。而且基于人工神经网络模型的说话人识别系统的训练时间会随着待测人群数量的增大而呈指数增长的趋势,所以从理论上来说,当待测人群数量增大到一定数量级时,这样的系统无法在可接受的时间之内完成话者识别任务的训练过程。解决这一问题的方法在于实现大功能的神经网络分解成若干个子功能的小神经网络,再将这些小神经网络组合起来从而实现大网络的功能。

3 结语和展望

基于文本无关的话者识别系统应用前景广阔,单一特征参数法往往难以完全反映说话人的个人语音特征,因此目前研究的重点在于多种特征相结合的方法。文本无关的话者识别技术的难点在于它对提取参数要求很高,不能局限于表征个体单方面的特征参量,因此要形成一个有效、可靠的多特征结合的系统是当前研究的难点之一。此外,国内外诸多研究表明,语句的长短对文本无关话者识别性能有较大的影响,无论采用多少个不同类型的参数,只要能从足够长的语音中提取语音特征参数,总能实现一个较高的识别率。

参考文献:

[1] 王英利,声纹鉴定技术[M]群众出版社,2013:174.

[2] Rabineer L R,Juang B H.Fundamentals of Speech Processing and recognition[M].Prentice-Hall,1993.

[3] 王金明,张雄伟.话者识别系统中语音特征参数的研究与仿真[J].系统仿真学报,2013(9).

[4] 余良俊、张友纯,基于LPCC的话者识别系统[J].科技资讯,2007(31).

[5] 宁飞.说话人识别的几种方法[J].电声技术,2001(12).

[6] 朱坚民,张雷.基于声音多特征贝叶斯网络融合的话者识别研究[J].仪器仪表学学报,2013(9).

[7] Sambur M R. Selection of Acoustic Features for Speaker Identification[C]. IEEE Trans On ASSP, 1975: 176-182.

[8] Rabineer L R, Juang B H. Fundamentals of Speech Processing and Recognition[M]. Prentice-Hall, 1993.

[9] 李霄寒.高阶MFCC的话者识别性能及其噪声鲁棒性[J].信号处理,2001(4).

[10] 陈全今.基于LLR的声纹识别应用研究[J].海峡科学,2014(9).

[11] 李邵梅. 文本无关短语音说话人识别技术研究[D].解放军信息工程大学,2011.

[12] 蒋晔. 基于文本无关的说话人识别技术研究[D].南京理工大学,2008.

[13] 邓浩江,王守觉,邢藏菊,等. 基于聚类统计与文本无关的说话人识别研究[J]. 电路与系统学报,2001(3):77-80.

[14] 岳喜才,叶大田. 文本无关的说话人识别:综述[J]. 模式识别与人工智能,2001(2):194-200.

[15] 刘芮杉. 与文本无关的语种识别技术研究[D].电子科技大学,2013.

[16] 林江云. 文本无关说话人识别系统研究[D].厦门大学,2008.

[17] 张庆芳,赵鹤鸣. 基于改进VQ算法的文本无关的说话人识别[J]. 计算机工程与应用,2006(10):65-68.

[18] 张炜,胡起秀,吴文虎. 距离加权矢量量化文本无关的说话人识别[J]. 清华大学学报(自然科学版),1997(3):21-24.

[19] 杨延龙. 与文本无关的说话人识别的关键技术研究[D].西安电子科技大学,2010.

[20] 包威权,陈坷,迟惠生. 基于HMM/MLFNN 混合结构的说话人辨认研究[C].第四届全国人机语音通讯会议论文集,1995:185-189.

猜你喜欢

模式匹配神经网络
基于模式匹配的计算机网络入侵防御系统
神经网络抑制无线通信干扰探究
具有间隙约束的模式匹配的研究进展
OIP-IOS运作与定价模式匹配的因素、机理、机制问题
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于散列函数的模式匹配算法
基于支持向量机回归和RBF神经网络的PID整定
“模式匹配”让校园大课间活动更接地气
基于神经网络分数阶控制的逆变电源