基于多情感说话人自适应的情感语音合成研究*

2018-12-20徐海青吴立刚

湘潭大学自然科学学报 2018年4期

李葵，徐海青，吴立刚，梁翀

(1.国网安徽省电力有限公司信息通信分公司，安徽合肥 230000;2.厦门大学计算机科学学院，福建厦门 361005;3.安徽继远软件有限公司，安徽合肥 230000)

随着深度学习技术的发展，基于深度学习的语音合成方法[1-2]也在不断推陈出新，这使得语音合成的质量得到了空前的提高.语音合成的情感部分相比于传统语音合成的提升虽然巨大，但尚未达到拟人化，所以提高合成语音表现力，将成为未来语音合成研究的重点和难点.20世纪末，随着基音同步叠加的时域波形修改算法(pitch synchronous over lap add，PSOLA)的提出，语音段之间的拼接问题得到了较好的解决，使得波形拼接语音合成技术的发展迈出一大步.本文提出了一种基于SAT的情感语音合成方法，该方法以多人多情感的标注语音数据作为训练集，在SAT框架下构建并训练语音平均音模型，最后通过说话人自适应转换生成目标说话人情感的定制模型，实现目标情感语音合成.

1 基于多情感说话人自适应的情感语音合成

1.1 基于统计参数(HMM)的语音合成系统

语音合成的算法有很多种，大致可以从以下三个维度聚类：(1) 情感参数样本[3]，如增加情感训练样本或进行情感标记的方式[4]；(2) 提取的参数特征或韵律转换[5]等，如将中性语音通过韵律参数修改进行情感语音转化；(3) 通过自适应模型修正[6]、合成参数修改[5，7]或对参数合成器进行优化等.传统的语音合成系统可分为基于HMM的训练和基于STRAIGHT的合成[8]，流程框架如图1所示.

1.2 基于多情感说话人自适应的情感语音合成

在基于统计参数(HMM)语音合成算法的基础上，本文提出基于多情感说话人自适应的情感语音合成系统，如图2所示，包括训练、自适应和合成三个阶段.在训练阶段对情感数据库的语音数据进行特征提取，获取基频、谱参数等声学参数文件，以及标注的文本文件.通过决策树聚类得到训练好的HMM模型库.在自适应阶段，基于CMLLR实现多说话人情感语音数据模型的SAT操作，获得训练集数据的平均音模型、自适应模型，对自适应模型通过最大后验概率进行修正和更新；在合成阶段，利用前阶段的标注数据和模型，结合STRAIGHT语音合成器，得到目标说话人的情感语音.

平均音模型对多个情感说话人的情感语音数据的基元进行训练，得到多个HMM模型.然后对这些HMM模型进行概率分布统计，得到所有说话人情感语音数据的平均分布模型.

SAT算法对说话人差异进行归一化操作，提高模型的准确度，利用Multi-space-HMM实现汉语清音和元音的基频建模，并基于上下文相关的MSD-HSMM语音合成单元，结合CMLLR实现多说话人的SAT，获得多说话人情感语音的平均音模型.

本文采用具有精确时长分布的半隐HMM模型，对状态输出和时长分布进行控制建模和归一化处理：

在进行完说话人SAT后，在少量数据下，采用CMLLR自适应算法对平均音模型的基频、频谱和时长参数进行变换，特征向量o与状态时长d的变换方程：

bi(o)=N(o;Aμi-b,AΣiAT)=|A-1|N(Wξ;μi,Σi)，

基于HSMM的自适应变换算法，实现语音声学特征参数的归一化和预处理.时长为T的自适应数据O，利用最大似然估计处理变换Λ=(W,X)：

式中，λ为HSMM的参数集.分布共享一个回归矩阵的绑定[11]，实现少数据的自适应效果的优化，如图3所示.

最大后验概率估计描述如下：

2 实验与分析

2.1 评测方法

本文主要从主观测评和客观测评两个层面对合成语音的效果进行分析与评估.

2.1.1客观评测下式能够对合成语音和原始语音在语句时长、基频、谱质心等声学参数上进行误差分析：

2.1.2主观评测采用MOS和EMOS分别对合成语音的自然度与情感相似度进行评估，其中MOS为平均意见得分(mean opinion score)，EMOS情感相似度平均意见得分(emotional mean opinion score).

表1 MOS评测分值标准表Tab.1 MOS evaluation score standard

表2 EMOS评测分值标准表Tab.2 EMOS evaluation score standard

实验数据为22名评测者的普通话和情感语音合成的语音(220句)，评测者根据合成语音的自然度或情感度，对其进行打分(按5分制)，评测标准如表1、表2所示.

2.2 实验配置

2.2.1情感语料库对16名人员(8男8女)建立情感语音数据库.建立过程为：每人需录制10种情感语音，每种情感录制20 min，情感有悲伤、放松、愤怒、轻蔑、温顺、喜悦、厌恶、焦虑、惊奇、恐惧、中性等101种.建立的语音库共计4 600句语料.

2.2.2实验方案需要对情感语音合成的好坏进行一个正确评估，本文在SAT1[13]和SAT2两种模型上进行试验方案设计，其中，对比实验方案为SAT1模型，情感语音合成实验方案为SAT2模型.

SAT1模型：首先，建立训练集，训练数据为2.2.1介绍的情感语料库数据.然后，在训练集上用STRAIGHT算法提取语音文件的声学参数(如基频等)信息.同时，语料文本文件需要输入，并且需要对其进行分析，可以得到相关的标注文件.最后，进行HMM训练，对训练结果进行决策树聚类，得到HMM模型库.

SAT2模型：训练前，在16人中随机选取一人作为目标说话人，并在其录音中随机选取每种情感语音2句组成其情感小语料库.训练HMM模型库方法与SAT1模型中的方法一致，但SAT2模型增加了SAT部分，采用被选取人的情感小语料库，对其平均音模型进行SAT过程，获得说话人的自适应模型.然后，输入待合成情感语音文本，进行决策分析，挑选出合适的基元模型，最后合成得到目标情感语音，在SAT1和SAT2两种模型上合成共计220句情感语句，每种模型各包含每种情感的10句测试语句.

最后，采用 MOS和 EMOS两种主观评测方法，对合成的情感语音的自然度和情感相似度进行对比并做出实验分析.

2.3 实验结果分析

合成语音参数的RMSE对比结果如表3所示.从客观评测结果可以看出，本文提出的自适应情感语音合成模型合成的语音在各个参数方面都明显优于传统统计参数语音合成模型，结果如表3所示.图4显示的是两种模型合成语音在时长、基频、谱质心等声学特征上的RMSE对比曲线图.图4能直观地显示本文的方法优于传统统计参数语音合成模型.

表3 不同模型上合成语音参数RMSE对比结果Tab.3 Comparison of synthesized speech parameters RMSE on different models

图5 所示是SAT1和SAT2不同模型上合成情感语音的MOS得分.很明显，在SAT2模型上得到合成情感语音的自然度比SAT1模型上得到的要高.如图6所示为在SAT1和SAT2两种模型上获得的合成语音的情感相似度之间的评测对比分析，显然，在SAT2模型上得到合成语音的情感相似度比SAT1模型上得到的要高.

3 结论

本文提出了一种基于多情感说话人自适应的情感语音合成方法，搭建了此情感语音合成系统和传统的基于HMM的语音合成系统.实验证明，与传统的基于HMM的语音合成系统相比，在训练阶段加入了说话人SAT过程，获得多个说话人的情感语音平均音模型，减小了语音库中因不同的说话人而产生的差异带来的影响，从而使得合成语音的情感相似度得到提升.根据平均音模型，用少量的待合成情感语料就能通过自适应算法合成出流利度、自然度、情感相似度都很好的情感语音.