APP下载

基于语料库的藏语语音合成单元选择算法

2017-11-27才让卓玛才智杰

中文信息学报 2017年5期
关键词:藏语覆盖率音节

才让卓玛,才智杰

(青海师范大学 计算机学院,青海 西宁 810008)

基于语料库的藏语语音合成单元选择算法

才让卓玛,才智杰

(青海师范大学 计算机学院,青海 西宁 810008)

在基于语料库的语音合成方法中,语音合成单元选择的优劣直接影响合成语音的自然度和流畅性。该文针对藏语言文字的特点,提出以基本构件、组合构件、字、词及句单元相融合的混合单元语音合成策略,并提出了藏语语音合成混合单元选择算法。主观评价与客观评测数据表明该策略与算法有效和合理,各类合成单元在开放语料上的覆盖率与语音合成效果均达到预期的目标。

语音合成;单元选择;基本构件;组合构件

1 引言

基于单元选择的语音合成技术[1]采用真人语音片断作为合成单元,能合成高音质的语音,这种方法是目前应用比较成熟和成功的语音合成方法。为了提高语音合成的自然度和可懂度,在其基础上发展出了基于语料库的语音合成技术(Corpus-based Text to Speech)[2-3]。单元选择决定着语料库的大小,是建立结构合理、内容完整且规模适中的语料库的基础,因而是基于语料库的语音合成的关键。一般地,如果语料库足够大,库中包含丰富的合成单元,就可以合成音质清晰、自然流畅的语音;反之,如果语料库存在数据稀疏问题,就会影响合成语音的自然度与可懂度。大规模语料库的优势显而易见,但对大规模的语料库进行存储、加载、搜索比较耗时,且对系统硬件要求较高。因此,如何在保证语音合成质量的前提下适当减小语料库[4-7],即如何选择合成单元,使基于语料库的语音合成方法具有更好的适应性成为目前国内外研究的热点。

相对于汉语、英语、日语、德语等,藏语语音合成研究比较滞后。基于语料库的藏语语音合成单元选择方面,研究者们先后提出两种不同的方法。方法一以音节为最小合成单元,通过打分将3 000个音节、10 000条词语和一些独白句及情景对话纳入语料库[8];方法二通过将藏文音节分成前后两部分,建立基于半音节的藏语连续语音语料库[9]。显而易见,方法一通过采用音节、词语、句等较大的合成单元,保留了语音单元的完整性,但必定会因为语料库有限的覆盖率而无法合成自然、流畅的语音;方法二在一定程度上解决了语料库数据稀疏问题,但却由于采用较小且单一的合成单元而产生较多的语音拼接点,导致语音质量下降。鉴于此,本文提出基本构件、组合构件、音节、词及句等多级单元相融合的混合单元选择方法,并给出藏语语音合成的单元选择策略和算法。其基本思想是: 基于多级的混合模式合成单元,合成时采用大单元优先原则,即大单元不存在时用小单元进行合成。与前两种方法相比,本文提出的藏语合成单元选择算法,不仅减少了合成语音的拼接点,增强了语音的平滑度与自然度,同时提高了单元选择的自由度及语料库的覆盖率。从而有效地保留了语音合成时大单元的完整性与小单元的灵活性与鲁棒性。

本文第一节简述了单元选择在基于语料库的语音合成中的重要性,并对比分析了现有藏语语音合成单元的选择方法。第二节通过藏文字的基本结构和藏文字拼读顺序,分析了藏文音节结构,提出建立混合单元语料库的策略。第三节给出了藏语语音合成单元选择算法,第四节详述了主、客观实验评测结果,第五节对全文进行了总结。

2 藏文音节结构分析

藏文是以30个辅音和4个元音字符为构件的拼音文字,一般一个藏文字在音韵上对应一个音节,其基本结构如图1所示。为便于描述,本文将构成藏文字的各个字符(前加字、上加字、基字、下加字、后加字、再后加字和元音)称作基本构件(basic component),与基字纵向排列的基本构件的组合(上加字、基字、下加字和元音)称作组合构件(combinational component)。

图1 藏文字基本结构示意图

图2 藏文字拼读顺序示意图

由于构成藏文字的元、辅音字符的有限性,准确切分藏文字的所有基本构件对应的音素,合理总结出音素合成音节的规律,便有望用有限的音素合成任意的音节。然而仅以音素作为语音合成单元而不用音节、词语、句等大单元,大量的音素拼接会产生过多的语音拼接点,从而导致合成语音在某些拼接点处失真。藏文文法[11]指出: “字成词,词成句,句达意。”由此可见,藏文文本从小到大依次可由基本构件、组合构件、字词及句等五个层次构成。因此,我们尝试将基本构件的语音看作语音结构的最小单位(即音素),从语料库中抽取基本构件、组合构件、高频字、高频词、短语及常用句作为语音合成文本单元,建立混合单元语料库。合成时采用大单元优先原则,在大单元不存在时选择较小单元,以确保大单元语音的自然度和小单元语音的灵活性与鲁棒性。

3 藏语语音合成混合单元选择算法

考虑到语音合成系统的通用性,保证语料库单元具有较强的适用性及合理性,单元选择的文本内容涵盖社会科学、自然科学、工程科学等领域,主要来源于报刊、杂志、教材与网络。其中120KB(共 2 206条句子)藏语句子用来选择句单元,2 000万音节左右的文本用来确定词、字、组合构件及基本构件等单元。

算法1句抽取算法

Typedef Struct Alternative_DB

{String[] Sentence;

Int N; //N表示句子Sentence中所含词数

};

SU_ Algorithm (TagFile):

step1:读句

step2:将Sentence中的词依次放入数组W中

step3:筛选词数不超过δ的句放入到Alternative_DB中 //选择参数δ由句长确定

step4:读备选句

step5:查看常用词在句中出现的次数

step6:抽取次数大于参数θ的句子 //参数θ由句中所含常用词个数确定。

算法2词、字、组合构件单元选择算法

组合构件由基字与上加字或下加字或元音上下叠加构成,因此从语料中统计出构字能力较强的组合构件(即语料中出现频次较高的组合构件)建立组合构件单元库。

藏文字由构件或组合构件组成,它是构成藏文文本的基本单位。因此,选择藏文字单元需从语料中统计出现代规范藏文字并建立频度统计表,剔出已选入构件单元库与组合构件单元库的单元,然后选取频次较高的藏文字作为字单元库。

藏语中词的个数比较多,为了从海量的词库中筛选出合适的词单元,从统计出的词库中先剔出已选入字单元库的词,然后将词库中的高频词选入词单元库。为了便于描述,本文将组合构件、字与词的字表库定义为相同结构,其字表库CCWS_DB(combination component and words DB)定义及词、字、组合构件抽取算法如下:

Typedef Struct CCWS_DB

{String[] Str;//存放组合构件、字及词

Int N; //描述频次};

WSCU_ Algorithm (TagFile):

Step1:从标注文本中读句子

Step2:识别词

Step3:词频次统计并将CCWS_DB中满足参数γ的词保存到词单元库WSU_DB中

Step4:识字

Step5:识别紧缩字后将字和紧缩字分别保存

Step6:字频统计后放入到库CCWS _DB中

Step7:藏文字构件分解

Step8:成字性紧缩字频次统计

Step9:将符合选择参数β的字单元保存到字单元库WU_DB中

Step10:统计组合构件

Step11: 将符合选择参数α的组合构件保存到组合构件单元库CCU_DB中

算法3基本构件单元选择

Typedef Struct BCU_DB

{string[]BC; //存放基本构件单元

Int TYPE; //描述基本构件位置特征}

CU_ Algorithm (TagFile) :

Step1:识字

Step2:构件分解

Step3:将元音、前加字、上加字、下加字、后加字、再后加字及基字等58个基本构件保存到BCU_DB

Step4:统计仅带下加字的组合构件

Step5:将仅带下加字的组合构件存入BCU_DB

4 实验结果与分析

为了考查单元选择的正确性与合理性,从网络上下载了三段不同风格与内容的开放语料(青海藏语广播电视网的新闻联播、人生感言及人物传记,语料大小分别为15KB、22KB和31KB,共计68KB),对抽取的句、词、字及组合构件单元在开放语料上的覆盖率及合成效果进行测试。评测实验从主、客观两方面进行。客观评测的目标是: 句单元的覆盖率达10%左右,词单元的覆盖率达20%左右,字单元的覆盖率达35%左右,组合构件单元的覆盖率达15%左右,组合构件、字、词及句等大单元的综合覆盖率达80%左右;主观度量采用MOS(Mean Opinion Score)分。

4.1 客观评测分析

通过调整参数进行测试发现,参数α取0.001,β取0.001,γ取0.016时,得到336个组合构件单元、1 732个字单元、950个词单元,各类单元在24KB测试语料上的覆盖率分别为13.91%、39.90%、22.70%;句单元选择参数δ取6,θ取2时,可抽取278个短语,短语单元覆盖率达5.78%。各类单元选择测试数据如表1所示。对抽取的句、词、字及组合构件单元在三个开放语料上的覆盖率分别进行测试,各类单元在不同语料中的综合测试数据见表2。

表1 各类单元选择测试数据表

表2 各类单元在开放语料中的测试数据

由表2中数据可知,句、词、字及组合构件单元在测试语A(新闻联播)中的覆盖率分别为16.40%、14.20%、39.70%和13.14%,综合覆盖率为83.44%;在测试语B(人生感言)中的覆盖率分别为10.03%、14.47%、40.12%和20.34%,综合覆盖率为84.96%;在测试语C(人物传记)中的覆盖率分别为9.98%、18.19%、35.36%和17.25%,综合覆盖率为80.78%。综合测试数据表明: 所选择的各类单元在不同语料上的覆盖率很接近,且达到预期的目标。

4.2 主观评测分析

首先,对选入语料库中的词、字、组合构件及构件等单元进行造句,造句时确保每个单元在所造语句中至少出现一次。然后对所有句子进行录音并切分出相应语音单元。大多数基于语料库的汉语合成系统以音节作为最小单元[12-13],考虑到藏汉两种语言的相似性(以音节为基本语音单位),本文以音节为最小单元的语料库系统为基线系统(简称系统Ⅰ),与本文的系统(简称系统Ⅱ)所合成的语音进行测听对比。由五位测听员对三个语料在不同的系统下的合成效果进行了测听。

表3是不同测试语料在系统Ⅰ(系统语料库包含的最小单元为音节)上合成语音的MOS, 表4是不同测试语料在系统Ⅱ(系统语料库包含的最小单元为音素)上合成的语音的MOS。

表3 系统Ⅰ的MOS值

表4 系统Ⅱ的MOS值

由表3和表4可见,系统Ⅰ中语料A合成效果最好,其次是语料B;而系统Ⅱ中语料B合成效果最好,其次是语料A。分析其原因不难发现(表2),系统Ⅰ的句、词及字单元覆盖率在语料A上优于语料B,而语料B上的句、词及字单元覆盖率稍优于语料C; 系统Ⅱ的较大单元(句、词、字及组合构件等单元)覆盖率在语料B上最优,其次为语料A。整体来看,系统Ⅱ的合成效果明显优于系统Ⅰ的合成效果,系统Ⅰ与系统Ⅱ的MOS结果见图3。

图3 系统I与系统II的MOS

5 结束语

本文针对藏语言文字的特性,提出以构件、组合构件、音节、词及句单元相融合的混合单元语音合成策略,提出了藏语语音合成混合单元选择算法。主、客观评测数据表明该策略与算法有效和合理,算法有效地保留了语音合成中大单元的完整性和小单元的灵活性与鲁棒性,各类合成单元在开放语料上的覆盖率与语音合成效果达到预期的目标。下一步的工作是进一步扩充和优化语料库,提高语音切分与平滑处理技术。

[1] Hun A, Black A. Unit selection in a concatenative speech synthesis system using a large speech database[C]//Proceedings of the ICASSP 1996, Vol.1,1996: 373-376.

[2] Chu M, Peng H, Yang H, et al. Selection non-uniform units from a very large corpus for concatenative speech synthesizer[C]//Proceedings of the ICASSP 2001, 2001: 785-788.

[3] Christina L B. Large scale evaluation of corpus-based synthesizers: results and lessons from the blizzard challenge 2005[C]//Proceedings of the Interspeech 2005.

[4] Rutten P, Aylett M, Fackrell J, et al. A statistically motivated database pruning technique for unit selection synthesis[C]//Proceedings of the ICSLP2002. Denver, 2002: 125-128.

[5] 胡郁,凌震华,戴礼荣.基于声学统计建模的语音合成研究[J]. 中文信息学报,2011,25(6):127-135.

[6] 张巍,吴晓如,赵志伟,等. 基于虚拟不定长的语音库裁剪方法[J].软件学报, 2006,17(5):983-990.

[7] 章森,刘磊,刁麓弘.大规模语音语料库及其在TTS中应用的几个问题[J]. 计算机学报,2010,33(4):687-696.

[8] 李永宏,于洪志.安多藏语语音合成语料库设计[J].西北民族大学学报,2006,27(1):36-39.

[9] 杨阳蕊,李永宏,于洪志.基于半音节的藏语连续语音语料库设计[C]//第十届全国人机语音通讯学术会议论文集,2009.

[10] 江荻,龙从军.藏文字符研究[M]. 北京: 社会科学院文献出版社,2010.

[11] 色多五世罗桑崔臣嘉措.藏文文法根本颂色多氏大疏[M].北京: 民族出版社,2007.

[12] 蔡莲红,崔丹丹,蔡锐.汉语普通话合成语料库TH_Coss的建设与分析[J]. 中文信息学报,2007,21(3):94-99.

[13] 张大军,陈肇雄,黄河燕.汉语文语转换系统地址映射算法的设计与实现[J]. 软件学报,2002,13(1):105-110.

才让卓玛(1970—),博士,教授,硕士生导师,主要研究领域为人机语音交互、藏文信息处理。

E-mail: cr-zhuoma@163.com

才智杰(1970—),教授,硕士生导师,主要研究领域为藏文信息处理、藏语自然语言处理。

E-mail: czjqhsd@163.com

UnitSelectionAlgorismforCorpus-basedTibetanSpeechSynthesis

CAI Rangzhuoma, CAI Zhijie

(College of Computer Science, Qinghai Normal University, Xining, Qinghai 810008,China)

In the corpus-based text to speech system, the choices of unit selection impact directly on the quality of synthesized speech. By analyzing the features of Tibetan language, this paper proposes not only a hybrid strategy which mixed components, characters, words and sentences, but also a corpus-based unit selection algorism for Tibetan Speech Synthesis. Subjective assessment results and objective evaluation results indicate that the algorithms are effective, the coverage and synthesized speech of units are satisfactory reached expected target.

speech synthesis; unit selection; basic components; combinational components

1003-0077(2017)05-0059-05

TP391

A

2015-03-23定稿日期2016-05-10

国家自然科学基金(61262051,61163018);国家社科基金(16BYY167,15BYY167,14BYY132,13BYY141);教育部“春晖计划”(Z2016077);青海省基础研究项目(2017-ZJ-767)

猜你喜欢

藏语覆盖率音节
民政部等16部门:到2025年村级综合服务设施覆盖率超80%
浅谈藏语中的礼仪语
我国全面实施种业振兴行动 农作物良种覆盖率超过96%
藏语传统辞书词目编排法探析
当代女性藏语长篇小说《花与梦》中女性成长主题研究
r(re)音节单词的拼读规则
悬置、隐藏与冒犯:松太加“藏语电影”中的“作者”话语变奏
拼拼 读读 写写
电信800M与移动联通4G网络测试对比分析
看音节说句子