APP下载

基于最小合成单元的维吾尔音库设计

2012-10-27卡斯木江卡迪尔古丽娜尔艾力艾斯卡尔艾木都拉

通信技术 2012年4期
关键词:音素维吾尔语音节

卡斯木江·卡迪尔, 古丽娜尔·艾力, 艾斯卡尔·艾木都拉

(新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046)

0 引言

语音合成是语音处理技术中的一个重要方向,国内外对此进行了大量的研究并取得了丰硕的成果[1]。随着语音合成的发展,语料库及语料库方法在国内外均有长足的进步,目前大型语料库的建立以及基于语料库的研究是国内外语言学研究的热点。

语料库(Corpus)是指一个由大量的语言实际使用的信息组成的,专供语言研究、分析和描述的语言资料库[2]。近十多年来,中国在语料库和信息技术方面取得了令人瞩目的进步。在语料库建设方面,中国已建成了第一个大型的中文计算机语料库,即含7000万字的现代汉语语料库。语料库的建设过程包括语料录入、核对、语料自动分词,自动标注,语料文本分割、合并、标记处理等[3]。近年来维吾尔语语音合成技术也经历了不同的发展阶段,不同的合成技术拥有自己的优缺点。比如小样本音素拼接语音合成系统中,拼接单元是音素,因为拼接单元小,音库容量也小。但是这种合成方法很难提高合成自然度。再如不定长单元的大语料库波形拼接合成系统中,拼接单元是音节、单词、句子等不同的合成基元。这种方法的特点是合成单元大,拼接点数小,保持了原始发音人的音质,合成自然度好,缺点是合成语音的效果不稳定,建立语料库周期太长。目前的语音合成系统在合成语音的可懂度和自然度方面还存在一些缺陷[4]。

为了改善以上合成方法的欠缺,采取了一些新的方法。把音节作为主要合成单元,因为维吾尔语中音节的数量很大,语料库中不能完全包括所有的音节,为了实现音库中不存在的音节的合成,又建立了音素库,并且在合成系统中有效的结合这两种拼接单元的合成方法,从而达到了预期的目标。

1 语音语料的设计

在语料库的建设中,语音语料库的完备性和科学性十分重要[5]。语音语料库的建立主要包括以下4个主要过程:文本语料的设计,文本语料的录音,声音语料的标注,语音库建设。

1.1 文本语料设计

如何选取语料,是语料库建库工作的关键。为了保证建库工作的有序有效,保证语料库的质量,在语料库建库之前,首先要研究制定好语料的选择原则[6]。收集语料时考虑维吾尔语的韵律特点,音变现象,音素组合规则,音节类型等多个因素。文本取自新闻报道、小说、即新疆日报维文版。将各个领域搜集的文本作为原始文本语料集、对其进行断句、去除不合适的语句。然后通过“维吾尔文字校对系统”对句子中的单词进行校对。在句子结构上存在一些问题,要进行手工校对,并在句子中出现的数字、缩写词和外文符号改写成标准维吾尔字。

由于收集的文本中存在大量的冗余信息,还多次出现相同的自然语言现象和上下文相关模型。利用贪婪(Greedy)算法,就是用于从大的句子库中自动选取最佳覆盖的句子子集的算法[7]。通过文本选取算法选取了8989个句子。

1.2 文本语料的录音

对挑选出来的8989个句子文本语料进行了高质量录音。录音时对文本进行分段式录音,并对录制的句子进行即时地检查,有问题的地方进行补录。具体录音规则如下:

1)声音文件格式是:*.wav,16 kHz,16 bit,单声道。

2)语速要一致,一般在4音节/秒或者80单词/分钟左右。

3)按照自然语流的方式朗读,注意停顿的地方,不要加情感。

4)隔离所有的噪音,尤其是静音和停顿的地方。

1.3 声音语料的标注

语音语料库标注的目的是从语音语料中切分出一个个合成单元。语音切分是指根据语音标注序列,将语音信号切分成时序相邻的一系列与语音学标注单元(如音素,音节,单词等)相应的音段,并将相应的时问信息添加到标注文件里。基元切分标注是根据实验语音学方面的知识,以语音在语谱图上的特征为主,听觉和时域图为辅进行切分标注。声音标注层次有音素、音节、单词、韵律词、韵律短语、语调短语和句子7个层次。

为了减少工作切分工作量,采取了半自动方法,即先进行自动切分,通过HMM 单音素模型实现语料库音素层的自动标注,准确一致的切分除了音素边界[8],然后再经过人工调整。在此基础上结合维吾尔语的音节划分和单词划分规则就可以得到音节,单词和句子的自动标注信息,自动切分标注时还出现某些音位有变音、增音、脱落、弱化、清化、浊化、同化等现象,将进行手工修改。还对长短静音(sp)边界进行调整、添加或者删除。其他3个韵律层次以发音人员的声音为主,结合收集的划分规则进行手工标注。维吾尔语语音标注结果(一个句子为例)如图1,图2和表1所示。

图1 维吾尔语标注文件的波形

图2 维吾尔语标注文件的频谱

表1 标注文件层次及时长

2 语音库建设

2.1 音节库

维吾尔语中最小发声单元是音节,1个音节是由元音和零至3个辅音构成的。用字母“V”代表元音,用字母“C”代表辅音,根据维吾尔语音节的构成规则,维吾尔语中有6种常用的音节格式:即V,VC,CV,CVC,VCC,CVCC,除了以上的音节格式以外还有一些从其他语言中引进的音节格式:CCV,CVV,CCVC,CVVC,CCVCC 等。

建立音节库时,首先提取标注数据中所有音节样本的特征参数,拼接所有的声音文件。提取的音节特征有音节包含的元音、在韵律短语中的位置、时长、前接音素、后接音素、音高向量、音高高点、音高低点、音节在音库中的开始和结束时间等特征。特征提取由Praat软件、matlab和VC++ 6.0编程环境中实现。

最后得到的是拼接所有声音文件数据的文件,同时形成所有音节信息的索引文件,每个音节在索引文件中的编号文件和每个音节在编号文件中的开始位置和结束位文件等4个文件。在数据库共有8989个句子,音节库总共包含3456个音节,维吾尔语的固有音节类型具体的分布情况如表2 所示。

表2 “维吾尔语音节库”常用音节分布情况

2.2 音素库

维吾尔语中音素是最小的语音单位,音素有元音和辅音两大类。在32个字母中有8个元音字母,24个辅音字母。建立音素库时所做的提取参数,建立索引工作跟建立音节库的工作相仿。主要区别是这部分工作针对标注数据中的音素层次进行参数提取。提取的参数不一样,但参数提取方法、产生的文件类型和开发环境都一样。

在数据库中存在的8989个句子中,就有32个不同音素,其分布情况如表3所示。

表3 “维吾尔语音素库”中的音素分布情况

3 结语

近几年来,随着语音学和计算机技术的发展,维吾尔语语音合成技术取得了巨大的进步。目前,以波形合成为基础的语音合成技术已经可以合成清晰度,可懂度较好的语音,然而在合成语音的自然度方面仍需进一步提高。进一步的提高了语音合成的自然度从维吾尔语的语音特点出发[9-10],对维吾尔语音节,音素进行研究,建立了音节库和音素库。由于语料标注工作需要细心、花费时间周期较长,所以其标注准确率和一致性方面存在一些问题,需要进一步提高。

[1]段凯宇,俞一彪,石汝杰.基于基音同步帧叠接的吴语语音合成[J].通信技术,2002(03):1-3.

[2]谭键.语料库及语料库语言学的发展与应用[J].西北工业大学学报:社会科学版,25(01):61-63.

[3]刘连元.现代汉语语料库研制[J].语言文字应用,1996(03):2-8.

[4]俞一彪,段凯宇,石汝杰.吴语文语转换中的语音韵律控制[J].通信技术,2002(10):1-3,9.

[5]蔡莲红,蔡锐,吴志勇,等.语音合成语料库的设计与声学特征分析[C]//2002年全国声学学术会议.桂林:中国声学学会,2002:375-376.

[6]陈小莹,陈展,华侃,等.语音语料库的设计研究[J].科技信息,2008(36):5-6.

[7]姑丽加玛丽·麦麦提艾力,艾斯卡尔·肉孜,艾斯卡尔·艾木都拉.三音素模型的维吾尔语最佳文本选取算法[J].计算机工程与应用,2009,45(18):242-244.

[8]阿依木尼萨·胡甫尔,艾斯卡尔·艾木都拉.面向语音合成的维吾尔语音素自动切分算法研究[J].计算机应用与软件,2011,28(09):18-21.

[9]胡晓荷.周光召和柳传志对“语音云”寄予厚望——移动互联网步入“语音云”时代[J].信息安全与通信保密,2011(12):39-41.

[10]庞雄昌,王喆.基于 GDTW+SVM的语音识别[J].信息安全与通信保密,2011(12):39-41.

猜你喜欢

音素维吾尔语音节
依托绘本课程,培养学生英语音素意识
浅析维吾尔语表可能语气词
小学英语课堂中音素意识与自然拼读整合训练的探索
拼拼 读读 写写
在拼读阅读课中培养学生英语阅读素养
零基础速记48个音标音素
看音节说句子
统计与规则相结合的维吾尔语人名识别方法
指称在维吾尔语语篇中的衔接方式及其功能
维吾尔语词重音的形式判断