维吾尔语音素的声学特征分析
2014-02-27努尔麦麦提尤鲁瓦斯吾守尔斯拉木
王 辉,努尔麦麦提·尤鲁瓦斯,2,吾守尔·斯拉木,2
(1. 新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046;2. 新疆多语种信息技术重点实验室,新疆 乌鲁木齐 830046)
1 引言
维吾尔语属阿尔泰语系突厥语族,是维吾尔人所说的语言。现在中国境内官方的维吾尔文是以阿拉伯字母为基础的,同时以拉丁维吾尔文作为补充。维吾尔语音素包括8个元音[a,e,i,o,u,ö,ü,ä],及24个辅音[n,m,l,k,j,h,,g,f,d,,b,ž,z,y,x,w,t,š,s,r,q,p,]。随着维吾尔语语言语音声学参数数据库的建立,为维吾尔语语音识别提供了研究基础,而在维吾尔语语音声学特性研究上,已取得一定进展,但大都以孤立词作为研究语料。孤立词发音语谱图清晰,各音素边界、重音、韵律特征明显,语速较缓且一致,分析结果对大词汇量连续语音识别研究指导意义不大。
本文进行维吾尔语连续语音条件下依照语速分类的音素声学特征的分析,并将美尔频率倒谱系数、共振峰特征、能量特征、特征差分的融合做音素识别对比研究,实验表明,融入共振峰特征后浊音音素的识别率有了一定的提高,而通过时长的统计分析并结合实验结果确定的声学模型状态数,使得识别精确率与基线系统相比有了1%以上的提高。不同声学特征的分析、融合及模型状态数的确定对维吾尔语连续语音识别声学模型的构建有着重要的意义。
2 维吾尔语语料库
2.1 录音及数据采集方法
一般环境下(如无人的教室、办公室等)录制朗读式连续语音。发音人是以高中以上学历为主的18~30岁男女性成年人,发音人配置高宝立式麦克风,阻抗160om、灵敏度56±3dB、频率范围100~16 000Hz。采样率选择16KHz,采样位选择16Bit。语音数据以wav文件格式存储,其音频格式为PCM。
2.2 手工标注语料组成
维吾尔语手工标注语料包含400句朗读式连续语音,350句女声,50句男声,4 477个单词,29 030个音素。400句语音的语速均值为每秒12.27±2.29个音素。语料中,元音[i]、[a]、[ä]出现频次较高,分别占音素总数的16.1%、8.62%和6.59%,而[e]、[ü]、[o]在2%左右,[ö]最少,占0.84%。辅音中以[l]、[n]、[r]、[t]、[q]出现频次较高,在3.6%~6.2%之间,[ž]、[f]最少,分别占0.04%和0.17%。
2.3 音素标注
维吾尔语连续语音语料库的标注采用手工标注的方式。选用Praat软件,进行词和音素两个层级的标注。元音发音在语谱图上呈现出粗黑的横杠,表明此区域语音能量较为聚集,故与相邻区域有明显的界限,便于做标注。辅音的发音过程分为“成阻”、“持阻”、“除阻”三个阶段,塞音和塞擦音音长包括这三个阶段。而擦音在持阻过程中发出声音。擦音在语谱图上没有除阻的冲直条,从持阻开始就表现为送气形成的乱纹,故没有明显的持阻与除阻的分界点。在标注时,辅音将这三个阶段都包括在一个辅音音素时长内,而不是只标注除阻部分。
3 维吾尔语音素的声学特征
3.1 维吾尔语音素共振峰分析
通过朗读式连续语音的标注,对维吾尔语元音和部分浊辅音第一、第二、第三、第四共振峰频率[1](单位: Hz)进行均值、标准差、离散度[2]的统计分析。传统语音学中将一切不带音的噪音,带乐音成分的噪音称为清辅音,将先有阻碍而跟上乐音的音称为浊辅音。若按音系学的区别特征来分类,前者定为“辅音性”,后者定位“元音性”[3]。语谱图上元音前三共振峰比较清晰,频率固定。浊辅音只有第一共振峰最清晰,二峰以上较淡。浊辅音是具有共振峰特征的,故本文对元音及具有“元音性”的浊辅音共振峰频率做统计分析(表1)。
由表1可知,元音[u]、[o]舌位靠后且较高,并为圆唇音,故其第一、第二共振峰靠的较近,而第二、第三距离较大。通过以上统计结果,绘制Joos型(F1、F2分别与舌位的高低、前后对应)声学元音图。
元音共振峰中[i](图1阴影区域)、[ü]、[u]离散度较高,[i]几乎覆盖了[e]、[ö]、[ä]的分布区域。浊辅音中[l] (图2阴影区域),[y]各共振峰离散度较高,边音[l]、鼻音[n]、[m],半元音[w]、鼻音[]重叠程度较高。
图1 元音Joos型共振峰分布图
图2 部分浊辅音Joos型共振峰分布图
为了探知连续语音环境下,语速变化对各音素声学特征的影响, 本文将400句语音分别统计出其朗读语速(每秒发音音素个数),通过K-means做聚类,划分出4个集合(集合1:每秒发音个数为9.50±0.73,共100句,5 902个音素;集合2:每秒发音个数为11.33±0.54,共107句,7 575个音素;集合3:每秒发音个数为13.21±0.59,共118句,9 292个音素;集合4:每秒发音个数为15.84±0.83,共75句,6 261个音素),并选出出现频次较高、且离散度较低的元音做不同语速下的F1、F2均值分析,结果如图3所示。
图3 不同语速下的元音F1、F2均值
在连续发音条件下,当语速加快时,发音器官的发音动作并未完全到位,便进入到下一音素的发音过程之中,加之F1与发音开口度成正比关系、F2与前共振腔面积大小成反比关系[4],故如图3所示,高语速导致了大部分元音F1的降低与F2的升高。
3.2 维吾尔语音素音长、音强分析
维吾尔语音长是以10ms为单位,求取音素发音过程起止时间之差,而语音强统计是以能量均值的方法来求取发音时长内的音强,单位为dB(表2)。
表2 维吾尔语音素的音强及音长分析
在维吾尔语中,元音音强普遍强于辅音。音长低于辅音中的送气音及擦音,与半元音、边音、鼻音音长相近,其中[ü]的音长最短。非爆破辅音中,擦音音强较弱。发音时长与发音人性别、发音习惯及上下文(音素过渡)有一定关系,故音长离散度较大。由统计结果可知,元音音强较辅音音强强且与半元音、边音、鼻音相近。
如图4所示,通过对不同语速下的音素音强离散度分析发现, 随着语速的加快音强离散度值呈上升趋势,这表明语速越高, 音素音强越不稳定,最终可能导致识别错误率的提升。
图4 不同语速下的音强离散度
根据维吾尔语连续语音下各元音及部分辅音音素(不包括塞音、塞擦音)共振峰、音强、音长的不同语速的离散度分析,发现各音素共振峰、音强、音长的离散度变化情况基本一致,且在元音范围内表现得尤为明显。
3.3 维吾尔语塞音、塞擦音的声学特征分析
连续语音环境下,当语速较快时,语音的紧缩、脱落现象[5]较为严重,造成语谱图的各音素之间界限模糊,且清辅音与[i]、[u]、[ü]连用时易产生清化现象。本文从低语速集合1中的100句语音,做辅元(辅音+[a])结构下,依照语谱图中爆破音冲直条为界限的辅音无声空间(GAP)与嗓音起始时间(VOT)标注,并统计辅音其后接元音F2、F3的均值。
由表3所列统计结果发现,辅音中,浊塞音[b]、[d]比清塞音音强强,但浊塞音[g]较清塞音音强弱。送气音比不送气音长长,清塞音[p]的GAP最长,浊塞音[d]的GAP最短,且VOT内音强值最大。辅元结构中,清辅音VOT一般为非负值,而浊辅音VOT为负值,这与声带振动产生的浊音流出现在冲直条前后有关。塞擦音[]、[j]的|VOT|较长,当此二者后接元音[a]时,导致[a]的F2值,较与其他辅音连用时高。由辅音第一强频区与后接元音第二共振峰的关系可知,塞擦音[]、[j]的强频集中区频率较高,其过渡音征为降渡。浊塞音[d]后接元音[a]的F2最低,故此过渡音征为升渡。
4 音素识别实验及结果分析
表3 维吾尔语塞音、塞擦音声学特征分析
本文利用基于隐马尔可夫模型(HMM)的HTK (HMMToolKit)[1]工具,提取美尔频率倒谱系数(MFCC),帧能量及其一阶、二阶差分,共39维的声学特征,并以 400句手工标注语料生成种子模型[6],之后加入1 200非手工标注的语料做声学模型训练,测试数据包括400句朗读式连续语音,构建5状态HMM基线系统。其中,词典由32个音素构成,且以基于二元文法的音素网络做语言模型,以使识别时进行音素间竞争,而非词间竞争。
4.1 语速对音素识别的影响
在连续发音的情况下,并不是语速越低,识别正确率就越高。本文使用四个不同语速的训练做集内测试集合1、集合2、集合3、集合4的识别率分别为53.17%、54.3% 48.9%、44.29%。由此可见,每秒发音个数为11.33±0.54的集合2获得了最高的识别率。由图5知,置换错误(置换错误=1-删除错误-正确率)变化不显著,但有下降趋势,而图中语速与删除错的正比关系,与插入错误的反比关系较为明显。
图5 不同语速测试集下的错误率
4.2 共振峰特征融合
共振峰特征作为反映声带振动特性的主要特性,对元音及浊辅音的识别应有一定影响。本文采用线性预测编码(LPC)算法提取语音共振峰特征,包括四维共振峰频率F1、F2、F3、F4及四维共振峰带宽B1、B2、B3、B4。连续语音识别中常用的美尔频率倒谱系数是从人耳的听觉特征来考虑的,在有信道噪声和频谱失真情况下,MFCC参数比较稳健。特征参数的一阶差分(D)、二阶差分(A)反映连续语音的动态特征,同时可以抑制平稳噪声。
特征融合是将各种特征(比如MFCC、能量特征(C0)、差分、共振峰特征等)融合成单一矢量,然后送入分类器进行识别。通过将共振峰特征、帧能量特征、静态倒谱特征与动态差分特征信息的互补融合,来验证加入共振峰特征后,对元音及浊辅音音素识别的影响(表4)。
4.3 动态特征融合及状态数确定
表4 共振峰特征融合后部分浊音识别率
由上文表2知维吾尔语音素的发音时长特征长短不一,且离散度较高,故有一定的区分性,本文通过HMM状态数的改变将时长特征融入语音识别过程中,通过表2的统计分析,确定了初始状态数的分布。之后通过识别结果的混淆矩阵中,音素删除错误及插入错误发生的概率,进行了部分调整,识别率最高时各音素的状态数见表5。本文还通过对共振峰频率及带宽求取动态差分特征,并以不同的组合形式进行特征融合,结果见表6,其后三列为修改状态数后的特征融合识别结果。
表5 维吾尔语易混淆音素对
续表
表6 加入共振峰动态特征及状态数修改后实验结果
基于MFCC_C0_D_A特征的音素识别,在改变各音素模型状态数后,音素识别精确率(考虑插入错误对识别结果的影响)由49.92%提高至51.78%。而基于MFCC_C0_D_A_F1~F2的音素识别精确率由48.40%提高至50.40%。特征的融合从某种程度上可提高语音识别率,但是随着特征维数的增多,带来的运算量和复杂性是不可避免的,特征的直接叠加会使特征维数、冗余性增加,可能导致识别性能的降低。
4.4 混淆矩阵分析
在状态数确定后,做基于MFCC_C0_D_A_F1~F4特征的识别实验。通过产生的混淆矩阵,提取出误识别音素数量所占此音素总数的百分比值较高的音素(误识率3%以上)做统计分析。
由表5所列,音素[ü]易被误识别为[i],发音舌位靠前且偏高,[ü]和[i]的F1、F2离散度较高且共振峰分布图上分布区域重叠面积较大,表明此二者音位变体较多;音素[ö]易被误识别为[ä],舌位较低,音强相近;音素[e]易被误识别为[i],展唇音且舌位非低靠前,共振峰分布图上[e]几乎被包含在[i]的分布区域内,[e]也会因为弱化现象而被识别为[i];音素[o]易被误识别为[u],圆唇音且舌位靠后,共振峰分布图上分布区域重叠面积较大。[i]因为发音脱落及清化现象,而造成删除错误率较高。此外,高元音因为发音时舌位较高,且要尽量紧闭,顶住齿龈,造成一定程度发音阻碍,可能会被误识为辅音。辅音音素中, [m]易被误识别为[n], [b]易被误识别为[d],此二对发音方式及部位相似度较高。音素[j]易被误识别为[],同为清擦音,发音方法相似。辅音弱化现象比较普遍,塞音和塞擦音都有弱化现象或向擦音化发展的趋势[7]。维吾尔辅音音素[r]、[l]、[t]的脱落现象,导致[r]、[l]、[t]识别结果中删除错误较多。删除错误率由大到小依次为[w],[l],[ü],[h],[r],[i],[e],[],[p],[u],[b],[o],[y],[t],[k],[n],[q],[],[m],[d],[g],[s]。
综上,音素的误识别与音素发音部位,发音方法的相似程度、语速有关,还与维吾尔语中音节的重清读、元音和谐、辅音的同化及脱落等语音现象有关。
5 结论
通过对维吾尔语元、辅音,根据不同语速下声学特性的统计分析,揭示语速的快慢对音素特征及离散度的影响。在连续语音条件下,进行基于不同声学特征的融合及模型状态数修改识别实验,其中加入音素发音时长特征的模型状态数确定方法,使维吾尔语音素识别精确率有了1.86%的提高,加入共振峰特征的浊音音素识别也有了一定提高。本文还通过混淆矩阵得到易混淆音素,并做了误识别原因分析,为不同语速下MFCC、共振峰、能量、动态声学特征的融合改进及系统识别率的提高提供依据。
[1] Young S, Evermann G, Gales M. The HTK Book [EB/OL]. 2009, http://htk.eng.cam.ac.uk/.
[2] 鲍怀翘,阿西木. 维吾尔语元音的声学语音学分析[J]. 民族语文,1988,(5):4-13.
[3] 吴宗济,林茂灿. 实验语音学概要[M]. 北京:高等教育出版社, 1989:87-124.
[4] 林焘,王理嘉. 语音学教程[M]. 北京:北京大学出版,1992:64-87.
[5] 麦热哈巴·艾力,姜文斌,吐尔根·依布拉音. 维吾尔语词法中音变现象的自动还原模型[J]. 中文信息学报,2012,26(1):91-95.
[6] 伊·达瓦,匂坂芳典,中村哲. 语料资源缺乏的连续语音识别方法的研究[J]. 自动化学报,2010,36(4):550-557.
[7] 赵相如,朱志宁. 维吾尔语简志[M]. 民族出版社,1983:4-33.
[8] 那斯尔江·吐尔逊,吾守尔·斯拉木. 基于隐马尔科夫模型的维吾尔语连续语音识别系统[J]. 计算机应用,2009,29(7):2009-2012.
[9] 祖丽皮亚·阿曼,艾斯卡尔·艾木都拉. 基于音素及其特征参数的维吾尔语音合成技术[J]. 中文信息学报,2008,22(4):100-104.