APP下载

说话人自适应技术在维吾尔语语音识别中的应用研究

2016-05-04努尔麦麦提尤鲁瓦斯张力文吾守尔斯拉木

中文信息学报 2016年3期
关键词:维吾尔语声学基线

努尔麦麦提·尤鲁瓦斯,张力文,吾守尔·斯拉木

(新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046)

说话人自适应技术在维吾尔语语音识别中的应用研究

努尔麦麦提·尤鲁瓦斯,张力文,吾守尔·斯拉木

(新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046)

该文针对维吾尔语说话人之间的发音差异会在一定程度上影响维吾尔语语音识别系统的性能这一情况研究了说话人自适应技术,将目前较为常用的MLLR和MAP以及MLLR和MAP相结合的自适应方法应用于维吾尔语连续语音识别的声学模型训练中,并用这三种方法自适应后的声学模型分别在测试集上进行识别实验。实验结果表明MLLR、MAP以及MAP+MLLR自适应方法使基线识别系统的单词错误识别率分别降低了0.6%、2.34%和2.57%。

维吾尔语;语音识别;说话人自适应;MLLR;MAP

新疆是个多民族的地区,其中维吾尔族占有45.2%的比例,拥有超过一千万的人口,因此研究维吾尔语的语音识别技术是新疆信息化建设的内容之一,具有重大的研究意义。最近几年新疆各学者对维吾尔语连续语音识别技术进行了研究,并取得一些成果[1-2],但仍然处于起步阶段,仍然存在很多问题需要解决,其中就包括维吾尔语说话人之间的发音差异给识别系统带来的不利因素。在新疆,不同地区的维吾尔语说话人之间的方言口音的差异,不同性别和年龄的说话人之间的发音差异都较为严重地影响了维吾尔语连续语音识别系统的识别性能,而研究表明说话人自适应技术[3](Speaker Adaptation,SA)可以有效地降低说话人发音差异给语音识别系统带来的不良影响。

自适应的目的就是利用语音识别系统使用者少量的训练语音,对声学模型参数进行调整,使得系统对使用者的识别性能有显著的提高。目前国内外均已对说话人自适应技术进行了研究[3-6]并应用于英语、汉语连续语音识别系统中,取得了不错的成效,而在维吾尔语语音识别领域该技术还未得到充分地应用。

本文所做的工作包括: 对维吾尔语连续语音识别系统进行了研究与搭建工作;研究了两种常用的自适应算法: 最大似然线性回归算法(Maximum Likelihood Linear Regression,MLLR)[7]与最大后验概率算法(Maximum a posteriori,MAP)[8];最后将基于以上两种算法的说话人自适应技术应用于维吾尔语大词汇量连续语音识别系统中,并对实验结果进行了分析。

1 维吾尔语连续语音识别基线系统

1.1 连续语音识别基线系统框架

维吾尔语连续语音识别系统与其他语言连续语音识别系统一样,实质上属于同一种模式识别,其系统的构成如图1 所示。系统主要由语音信号处理、声学模型、语言模型、语音识别器四个部分组成。系统的主要任务是根据给定的一段语音序列在HMM状态空间中找到最优的状态序列,从而找出这段语音所代表的最有可能的词序列。

图1 维吾尔语连续语音识别系统框架

1.2 声学模型

本文对训练语音数据提取39 维MFCC 特征(帧长25 ms,帧移10 ms),其中包括每一帧数据的12 维倒谱系数和能量及其一阶和二阶差分倒谱,并使用倒谱均值方差归一化方法[9]进行降噪处理。声学模型采用基于上下文相关三音素绑定的HMM模型,每个模型用五个状态表示,其中第一个状态为开始,第五个状态为结束,每一个状态都包含16个独立的高斯混合分布。静音模型采用五个状态的HMM模型,停顿模型采用了三个状态的HMM模型,模型中每个状态包含24 个独立的高斯混合分布。声学模型利用HTK(Hidden Markov Model Toolkit)[10]工具训练。

1.3 语言模型

通过声学模型得到的知识过于庞大,所以连续语音识别系统依赖于语言学知识。语言学知识在语音识别中的应用不仅约束了搜索空间,而且提高了识别率,加快了搜索速度。目前常用的语言模型是最流行的统计N-Gram语言模型。本文根据文本语料库(在实验部分具体介绍)采用SRILM(Stanford Research Institute Language Modeling toolkit)[11]语言模型训练工具建立了基于单词的三元语言模型,OOV率是14.8%。

2 说话人自适应技术

2.1 自适应方式

按照训练语音获取的方式不同,自适应方式可以分为[12]: (1)批处理式: 用户一次性录入训练语音,然后进行自适应训练;(2)在线式: 训练语音数据是用户使用时产生的,识别系统随着新的语音数据的累积不断地进行自适应。按照训练过程有无监督,自适应又可以分为[5]: (1)有监督式自适应: 在进行识别之前,训练语音数据的内容对于系统是已知的;(2)无监督式自适应: 即系统不知道目标说话人所说的语音内容,模型或参数的修正是通过识别系统的反馈来实现的。

在实际情况中,最佳的自适应方式是使用者在使用系统之前采用批处理+有监督,而在使用期间采用在线式+无监督。这样既保证了识别性能又体现出用户友好性。而在本文中由于考虑到实验环境的限制仅采用批处理+有监督的方式进行实验。

2.2 基于MLLR的自适应方法

最大似然线性回归(MLLR)[5-7]是基于变换的自适应算法,该算法利用自适应数据计算出一组变换用于减小初始模型和自适应数据之间的差距。由于混合高斯HMM模型的各高斯分量的均值和方差参数在连续语音识别系统中起着决定性作用,因此利用基于MLLR算法的自适应方法估计出的一组线性变换对HMM模型参数进行调整就可以达到自适应目的。MLLR自适应算法的流程如图2所示。

图2 MLLR自适应流程图

MLLR算法假设相近的语音空间共享相同的变换,因此划分语音空间的准则就是将相近的语音划为一类。当用于训练的语音数据较少时,将所有语音划分为一类,称之为全局变换(Global Transformation);当训练语音数据较多时,对于混合高斯HMM来说,将会根据声学模型的不同高斯分布分量的均值来进行聚类,聚类方法很多,本文采用自适应回归分类树的聚类方法。对声学模型完成聚类之后MLLR算法利用自适应数据对每一个类估计出一个线性变换矩阵,该变换矩阵可通过求解以下公式获得[7,10]式(1)。

(1)

(2)

(3)

(4)

则公式(1)可等价表示为:

(5)

式(5)可以利用高斯消元法进行求解,但是当均值矢量的维数为n时,式(5)中的系数矩阵大小为(n+n2)*(n+n2),那么求解所需要的计算量就会非常庞大,严重影响系统的实时性。因此在实际应用中我们只考虑协方差矩阵为对角矩阵的情况,则变换矩阵W的第i行应满足:

(6)

其中:

(7)

(8)

其中σi是协方差矩阵对角线上第i个元素,则可以看出式(6)的计算量远比式(5)的小,可以更好地满足系统的实时性。

2.3 基于MAP的自适应方法

MAP算法[5,8]基于后验概率最大化的基本准则[13-14],利用贝叶斯学习理论,将初始非特定人识别系统的先验信息与被适应人的信息相结合实现自适应,因此利用该算法的自适应技术也被称为贝叶斯自适应。在MAP自适应过程中,识别系统中每一个高斯分布的均值都会被MAP算法重估一次,因此,MAP自适应技术需要存储一个新的自适应后声学模型。MAP算法的均值重估方式如式(9)所示[8,10]。

(9)

(10)

(11)

由上述几个式子可以看出,如果Njm很小那么MAP算法估计的均值就会接近非特定人识别系统的均值,在MAP自适应过程中,每个高斯分量的均值都会被MAP算法重估一次,因此MAP自适应方法需要保存一个新的特定说话人的声学模型,这样相比MLLR方法识别系统就会需要更多的存储空间。

MAP自适应方法由于考虑了先验信息有很好的渐进性,随着自适应数据的逐步增加系统的识别性能也会随之提高,但MAP算法收敛速度慢,所以该方法只能对有观测数据的模型进行自适应,无法处理没有观测值的模型。而MLLR自适应方法通过一组线性变换来对初始模型进行自适应,这种方法的优点是比较简单,而且自适应速度比较快,即使自适应数据量较少,MLLR方法也可以获得较理想的效果,但是MLLR算法没有考虑到先验信息,因此该方法很难对模型有精确的估计。

2.4 采用说话人自适应技术的连续语音识别系统

通过对以上两种主流的说话人自适应方法的研究可以发现,所谓说话人自适应技术就是利用自适应数据对语音识别中的声学模型参数进行重估,那么应用该技术后的维吾尔语连续语音识别系统框架就从第一章中所介绍的扩展为如图3所示。

图3 应用自适应技术的连续语音识别系统框架

3 实验与结果

3.1 实验配置

实验中声学模型训练集采用的是16kHz采样频率,16bit 量化精度,单声道,用PC在办公室环境下录制。训练语料包含356 个人(189女,167男)发声的128 小时的50,000条语句。测试语音库分别包含12个说话人(6男,6女)发声的大约1小时的测试集(480条语句,每人40句),自适应数据包括测试集中12个说话人的(6男,6女,每人100句)大约1200条语句的语音。频谱特征观察矢量为每帧39 维向量,包扩12 阶MFCC,归一化对数能量,及其一阶、二阶差分。基线系统声学模型使用MLE 准则,利用隐马尔可夫模型工具HTK[10]来训练。

实验中语言模型训练集采用共有1,335,000个句子和590,000个不重复单词的维吾尔语文本语料库,内容包含新闻、杂志、政府公文、各种理工科书籍等,选取60,000个高频单词作为识别发音词典和语言模型建模基础单词列表,采用SRILM[11]语言模型训练工具建立了基于单词的3-Gram语言模型,语言模型因子和单词插入惩罚值分别设置为20和-40。

3.2 MLLR自适应过程

在使用MLE 准则训练得到一个识别性能较好的基线模型后,在其基础上进行声学模型自适应优化。使用HTK(Hidden Markov Model Toolkit)[10]工具集完成声学模型MLLR的自适应过程(如图2所示),具体过程为: 第一步,对自适应数据的单词级别标注文件进行强制对齐生成新的音素级别的三音子绑定的标注文件;第二步,利用自适应回归分类树(叶子节点数设置为32个)将基线系统声学模型按照均值矢量进行聚类;第三步,将基线声学模型划分为一类并利用自适应数据为该类生成一个全局变换;第四步,将全局变换矩阵作为输入变换矩阵,利用自适应数据对自适应回归分类树中的每一个类估计出一个新的线性变换矩阵;最后在进行识别之前对每个分类中所包含的基线声学模型均值矢量根据该类的变换矩阵进行线性变换完成自适应训练。

3.3 MAP自适应过程

使用HTK工具集的HERest模块根据自适应数据对基线系统声学模型参数进行重估生成新的声学模型,之后用自适应后的声学模型替换基线系统声学模型进行识别。

3.4 MAP和MLLR相结合自适应过程

MAP和MLLR相结合做自适应的过程就是将两种自适应过程进行整合,即使用MLLR自适应中生成的自适应回归树变换对MAP自适应后的声学模型进行变换,将最后优化的声学模型替换基线系统模型进行识别测试。

3.5 实验结果与分析

实验大致分两个步骤,实验一用来观察自适应的说话人数量对识别性能的影响,实验二用来观察不同自适应方式随着自适应数据的增多对系统识别性能的影响。在实验一中分别选取不同的说话人数量N的自适应数据对基线系统的声学模型进行MLLR自适应,其中每个说话人有40句自适应数据,再从测试集中挑选出相应说话人的语音数据进行测试,也是每人40句,得到如表1的结果。

表1 不同自适应说话人数量的识别结果

从表1中可以看出,随着自适应说话人数量的增多,单词错误率逐渐降低识别性能不断提高,但当说话人数量超过10后,识别性能提高的幅度变得非常小,也就是说系统识别性能在自适应说话人数量达到10左右就开始趋于饱和。因此在实验二中我们固定自适应说话人的数量为10。

实验二中我们采用实验一中10个说话人(5男5女)的录音数据做自适应和测试,测试集包括大约1小时的400句语音(每个说话人40句),自适应数据从每个说话人40句语音开始每次每人增加20句直到增加到100句为止,自适应方式分别采用MLLR、MAP和MLLR+MAP。识别结果如表2所示。

表2 不同自适应方式的识别结果

从表2的实验结果可以看出声学模型经过MLLR、MAP、MAP+MLLR三种方法的自适应之后都比基线系统的识别性能有所提升,其中MAP自适应方法随着自适应数据的增加识别性能有较明显的提升,在自适应数据为1000句时单词误识率最低相比于基线系统降低了2.34%,而采用MLLR自适应方法时单词错误率并没有随着自适应数据的增加有明显的下降。这是因为MAP算法考虑了先验信息从而有更好的渐进性而MLLR算法没有。最后当使用两种方法相结合做自适应实验时,系统的单词错误率又有进一步的降低,相比基线系统降低了2.57%。

4 结语

维吾尔语声学模型分别采用MLLR、MAP、MLLR+MAP三种自适应方法优化后,使得维吾尔语大词汇量连续语音识别基线系统的识别性能有所提升。但是总结全文仍然存在一些问题: 1)单独使用MLLR自适应方法做自适应时系统性能提升不如MAP方法明显,主要原因可能是语音数据特征空间的划分比较粗糙; 2)相对于汉语英语等大语种,目前实验室中用于训练和测试的维吾尔语语音数据规模还很小,需要进一步收集扩展; 3)本文实验采用的是批量式+有监督的自适应方式,这在实际应用中并不具有用户友好性,因此今后还会继续深入研究维吾尔语语音识别的在线式和无监督式的说话人自适应技术。相信如果在今后的研究中能够解决以上几个问题,系统的识别性能会进一步得到提升。

[1] 努尔麦麦提·尤鲁瓦斯,吾守尔·斯拉木.面向大词汇量的维吾尔语连续语音识别研究[J].计算机工程与应用,2013,49(9): 115-119.

[2] 那斯尔江·吐尔逊,吾守尔·斯拉木.基于隐马尔可夫模型的维吾尔语连续语音识别系统[J].计算机应用,2009,29(7): 2009-2012.

[3] C HLee,C HLin,B HJuang. A study on speaker adaptation of the parameters of continuous density hidden Markov models[J]. IEEE Trans.on Acoustic and Speech Signal Processing.1991,39 (4): 806-814.

[4] C J Leggetter. Improved acoustic modeling for HMMs using linear transformations[D]. Cambridge University,1995.

[5] 李虎生,刘加,刘润生语音识别说话人自适应研究现状及发展趋势[J].电子学报,2003,31(1): 103-108.

[6] 罗骏,欧智坚,王作英.说话人自适应训练方法在连续语音识别中的应用[J].中文信息学报,2004,18(3): 61-65.

[7] C J Leggetter,P C Woodland.Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models[J].Computer Speech and Language,1995,9 (2): 171-185.

[8] J L Gauvain,C HLee.Maximum a posteriori estimation for multivariate Gaussian observations[J]. IEEE Trans. on Speech and Audio Processing,1994,2 (2): 291-298.

[9] de la Torre A,Segura J C.Non-linear transformations of the feature space for robust speech recognition[C]//Proceedings of the ICASSP,2002: 401-404.

[10] Steve Young,etc.The HTK Book(for HTK Version 3.4)[R].Cambridge University Engineering Department.2006,12.

[11] A.Stolcke.SRILM-An Extensible Language Modeling Toolkit[C]//Proceedings of the Conference on Spoken Language Processing,2002,901-904.

[12] G Zavaliagkost,R Schwatz,J Makhoul. Batch,incremental,and instantaneous adaptation techniques for speech recognition[C]//Proceedings of the ICASSP.1995.

[13] 张金槐,唐雪梅. BAYES 方法[M]. 长沙: 国防科技大学出版社,1993.

[14] R O Duda,P E Hart. Pattern Classification and Scene Analysis [M]. New York: John Wiley,1973.

Speaker Adaptation Technology in Uyghur Continuous Speech Recognition

Nurmemet Yolwas,ZHANG Liwen,Wushour Silamu

(College of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China)

Researches show that pronunciation differences between the speakers can cause serious effects on the Uyghur speech recognition system. Focused on the speaker adaptation technology,this paper applies MLLR,MAP and MLLR+MAP methods to the training of acoustic models of Uyghur Continuous Speech Recognition system. Experimental results show that with the three speaker adaptation methods,the word error rate is reduced by 0.6%,2.34% and 2.57%,respectively.

Uyghur;speech recognition;speaker adaptation; MLLR; MAP

努尔麦麦提·尤鲁瓦斯(1980—),讲师,博士,主要研究领域为语音信号处理。E⁃mail:y.nurmemet@gmail.com张力文(1991—),硕士研究生,主要研究领域为语音识别。E⁃mail:lwzhang9161@gmail.com吾守尔·斯拉木(1942—),教授,博士生导师,主要研究领域为多语种信息处理,智能化应用研究。E⁃mail:wushour@xju.edu.cn

2014-04-21 定稿日期: 2014-09-04

国家自然科学基金 (61363064);新疆维吾尔自治区科技计划项目(201312104);清华大学腾讯科技有限公司互联网创新技术联合实验室创新课题(2012-04)

1003-0077(2016)03-0079-06

TP391

A

猜你喜欢

维吾尔语声学基线
航天技术与甚长基线阵的结合探索
爱的就是这股Hi-Fi味 Davis Acoustics(戴维斯声学)Balthus 70
浅析维吾尔语表可能语气词
一种SINS/超短基线组合定位系统安装误差标定算法
Acoustical Treatment Primer:Diffusion谈谈声学处理中的“扩散”
Acoustical Treatment Primer:Absorption谈谈声学处理中的“吸声”(二)
Acoustical Treatment Primer:Absorption 谈谈声学处理中的“吸声”
维吾尔语助动词及其用法
统计与规则相结合的维吾尔语人名识别方法
基于深度学习的维吾尔语名词短语指代消解