融合语言学统计特征的韵律发音质量自动评测方法

2014-04-29张珑李海峰马琳

智能计算机与应用 2014年5期

张珑　李海峰　马琳

摘要：在发音质量自动评测任务中，韵律发音质量评测是非常重要的高级环节，对语音的自然度和可理解程度方面有着直接和重要的影响。本文在韵律相关的多种声学特征的基础上，进一步融合了韵律相关的多种语言学统计特征，并使用支持向量机为分类模型，实现对韵律发音质量的有效评测，人机相关性达到0.779，相对提升了3.45%。同时，采用基于浮动思想的SFFS算法进行特征筛选，去除了目标无关的特征，提高了支持向量机模型的精度和泛化能力，进一步提升了评测性能。

关键词：发音质量评测；韵律评测；语言学统计特征；支持向量机；特征筛选

中图分类号：TN912.3 TP391 文献标识号：A 文章编号：2095-2163（2014）05-

Automatic Prosody Evaluation Method Combining Linguistics Statistics Features

ZHANG Long 1，2 ， LI Haifeng1， MA Lin1

（1 School of Computer Science and Technology， Harbin Institute of Technology， Harbin 150001， China；

2 College of Computer Science and Information Engineering， Harbin Normal University， Harbin 150025， China）

Abstract： Prosody has a direct and important influence on the naturalness and intelligibility of speech， and prosody evaluation is an important component of automatic pronunciation quality evaluation. Combining linguistic statistics features with various acoustic features related to prosody， an effective prosody evaluation system employing support vector machine model as classifier is realized and the human-machine correlation reaches 0.779， a relative increase of 3.45%. In the mean time， SFFS algorithm based on floating ideas for feature selection is adopted to remove some target-independent features， which improves the precision and generalization of support vector machine model， and then further improves the performance of the evaluation system.

Keywords： Pronunciation Quality Evaluation； Prosody Evaluation； Linguistic Statistics Features； Support Vector Machine； Feature Selection

0 引言

人们在进行言语交流时，相互之间传递的不仅仅是语言文字信息，还包含着丰富的韵律信息。韵律信息属于超音段信息，主要反映着说话人发音的抑扬顿挫（节奏），强调（重音），语调和语气等。一方面，韵律信息有助于说话人更清楚、准确地表达所要表达的信息，提升语言的自然度水平和可理解程度；另一方面，韵律信息有助于听话者更清楚、准确地理解所听到的信息，甚至包含对说话人意图、情感、态度、语气等多个方面的把握和理解。

在发音质量自动评测任务中，对韵律发音质量进行评测是非常必要，也是非常重要的。然而，从音节层到音步层，声调连读会产生变调；从音步层到句子层，声调会受到句调的影响再次发生变化；从句子层到语篇层，句调还会受到基调的影响，句调的高低、强弱、宽窄、长短将再次发生变化[1]。因此，对韵律发音质量进行准确评测，难度很大。本文首先对现有韵律发音质量评测方法的国内外研究现状进行了考察；接着介绍了可用于韵律评测的相关特征，主要包括现有文献中的主流的声学特征，并增加了一些语言学统计特征；其后介绍了用于韵律评测的支持向量机分类模型，以及基于浮动思路的SFFS特征筛选算法；最后是实验及实验结果分析，同时对下一步工作进行了展望。

1国内外研究现状

目前，国内外研究中，韵律发音质量自动评测大多是从整体听感质量的角度进行评测，而针对具体子项的发音质量评测，比如重音发音质量评测、节奏发音质量评测等，仍相对较少。Chen等人先利用语音识别器进行音段切分和识别，然后在各音段上与参考语音进行比对，分别计算音量、基频、后验概率等方面的距离，并进行加权平均，最后映射为韵律得分[2]。Yamashita等人以基频、时长、能量为主要特征，采用多重线性回归的方法去计算待评测语音与参考语音的相似度，再转化为韵律等级[3]。Jia等人则采用多个标准语音作为参考语音，分别从声调、基频走势和节律组织三个方面计算待评测语音与其多个标准参考语音的韵律模式间的相似度[4]。Huang等人还提出了在Micro和Macro两个层次上进行评测的多韵律匹配算法，并可以进行模板的自动获取，在国内中学生外语口语考试中也取得了很好的效果[5]。

上述研究虽然取得了较好的应用效果，但是却需要为每一条待评测语音都提供至少一个参考模板（即标准发音人的标准语音）作为对照，其应用范围受到很大的限制。也有少量研究不需要提供参考模板，而是直接从语音信号中提取各种可能的韵律相关发音特征，对韵律发音质量直接进行评测。Teixeira等人即选择了语调、词汇重音分布、段长、停顿等多种特征集合，并利用线性回归、分类器融合等技术手段，获取可靠韵律等级[6]。Maier等人又综合了文本相关和文本无关的韵律特征集共187维，利用SVM分类器对待评测语音进行了韵律评测[7]。上述这些不需要提供参考模板的研究工作的基本思路就是广泛优选多种类别的韵律相关特征，优选合适的分类模型，分类的同时实现评测，相对比较困难，评测的人机相关度还有待进一步提高。

2韵律相关的发音特征

与韵律感知相关的三个最常用的声学特征是音高、音强和音长，以及与其对应的统计特征和动态特征，但是到底哪些特征对评测真正有效，现有文献还未给出一个广泛而统一的共识[8]。因此，本文首先选择传统韵律评测文献中已经实验验证的与韵律相关、且较为显著的声学相关特征，具体可参考文献[7，8]，而且又特别增加了语音学统计特征。

2.1声学相关特征

首先提取最基本的声学特征参数，包括基频、能量、清音段和浊音段。然后针对每一个音节，提取如下声学特征：基频、能量及其相关特征，以及音节时长，共21个。下面即以基频为例进行说明，具体参见图1。能量相关的各类特征与基频相关特征类似，其具体表征含义则如下：

A1-A4：基频开始点、结束点的时间和幅值。

A5-A8：基频最大值、最小值出现的时间和幅值。

A9-A10：基频的回归系数及回归系数残差。

A11-A20：能量相关的各类特征。

A21：音节的时长。

针对每一个句子，计算如下16个声学特征：

U1-U4：整句的嗓音频率微扰Jitter和嗓音振幅微扰Shimmer的均值和标准差。

U5-U13：整句中清音段、浊音段和静音段的数量、平均时长和最大时长。

U14-U17：整句中清音段数量和浊音段数量的比值，清音段时长占整个语音段时长的比值，浊音段时长占整个语音段时长的比值，静音段时长占整个语音段时长的比值。

U18：整句中基频变化的幅度差。

针对以上39个特征，研究即在语篇级上计算其均值、最大值、最小值和方差四种统计特征，总共可得156维特征。

2.2语言学统计特征

语言学统计相关特征如下：

L1：每分钟正确读出音节的速率。这个特征代表说话人在朗读语段的过程中正确朗读的语速，和语速密切相关。如果漏读、多读或者错读都记为错误，不进行统计。

L2：每分钟的读出音节的速率。

L3：音节重复的数量占音节总数的比值。音节被重复朗读的次数和朗读的流畅度密切相关。当说话人读错，或者自我修正时，常常会出现重复的现象。

L4：朗读句子的速率变化。自然度水平高的朗读者无论句子难度的大小，其朗读语篇中每个句子的速率基本相同。但是自然度水平低的说话人由于个别句子中出现的比较困难的音节，将会导致不同句子的速率也相应地有所不同。

L5：整句标点符号（比如。、？、！）处的相关特性。通过VAD程序检出的整句标点符号处静音段的个数和对照文本中出现的这类标点符号的个数的比值。

L6：句中标点符号（比如，、：、；）处的相关特性。通过VAD程序检出的在句中标点符号处的静音段的个数和对照文本中出现的这类标点符号的个数的比值。

L7：标点符号处对应的静音段的平均长度。

L8：标点符号处对应的静音段时长和语音段中全部非语音时长的比值。一个字一个字地读是朗读水平低的说话人的显著特征，本特征将有效检测这种情况。

L9：两个静音段之间的音节的平均数目。这个特征非常适合检测说话人的流利度。

L10：单位时间内静音段的个数。

根据上述方法一共得到10维特征，如图1所示。

图1 音节内的各类基频相关特征

Fig.1 The various features related to fundamental frequency in a syllable

3支持向量机

支持向量机（Support Vector Machine， SVM）是一种基于统计学习的模式分类技术。该技术通过结构风险最小化（Structural Risk Minimization，SRM）准则和核函数（Kernel function）的方法有效地解决了学习系统复杂性（complexity）与普适性（generalization）之间的矛盾。近些年来，SVM在手写识别、指纹识别、文本分类、语音识别等诸多领域都取得了较大的成功，并通常表现出优于其他学习机制的良好性能[9]。为此，本文选用支持向量机作为分类模型，实现对韵律发音质量的有效评测。

样本集中有个样本，为一个维输入特征，，为分类类别（两类），。

定义分类超平面，其中，满足：

（1）

可以统一表示为：

（2）

当样本线性可分时，存在无数多个这样的超平面。满足上述条件且使最小的分类超平面就是最优分类超平面。两类样本中距离分类超平面最近且平行于最优分类超平面的样本点即可称作支持向量。

此时，样本分类问题可转化为求解最优分类超平面，进而表示成一个约束优化问题，其对应目标函数为：

（3）

即：（4）

这是一个严格凸规划问题，可转换成拉格朗日问题进行求解，具体求解过程可参见文献[10]。

对于近似线性可分问题，并不要求所有训练样本都满足约束条件，为此对第个训练样本引入松弛变量（Slack Variable）来“软化” 约束条件，即将约束条件放松为。同时，为避免太大，还需在目标函数中对进行惩罚，即引入一个惩罚参数，新的目标函数可演变为：

（4）

4特征筛选

对于SVM为标志的分类器，当输入信息量噪声太多，知识集太杂时，经常会造成“维数灾难”，此时，分析特征和训练模型的时间都非常长，模型构建更显复杂，但推广能力却有所下降。此时，可以通过特征筛选的方式对特征进行降维，将高维特征中与目标无关的特征予以去除，只保留有用特征，以提高模型的精度，进而增强模型的泛化能力。

依据以上分析，本文将采用基于浮动思想的SFFS（Sequential Floating Forward Selection）算法[11]以展开后续研究。SFFS是一种贪婪算法，和传统的特征筛选方法SFS（Sequential Forward Selection）相比，可以在正向选择特征过程中考虑加入回退准则，随着迭代次数的增加，适当地剔除一些与当前特征集组合时影响性能的特征。在SFFS算法中，每一步都利用贪婪算法将一个最好的特征加入到当前特征集，同时引入Floating机制。Floating机制的基本原则是，如果剔除一个最无用的特征之后，性能较上一步迭代有所增加，即进行删除，反之则继续加入。评价函数选择封装器方式，并采用分类器的分类错误率作为评价标准。由于引入了回退机制，在大多数据集上，SFFS的性能都较传统算法更具优势，由此而成为目前主流的特征筛选方法。

5实验及实验结果分析

5.1 实验数据集

实验数据集限定在国家汉语普通话水平测试现场录音数据集范围内，并于被评为一级乙等学生的朗读短文中抽取部分语音数据，共1 498段，每段语音数据约170个音节，长度约1分钟。这些学生的发音标准度很高，基本上没有发音错误和口音，为此可将这个数据集记为ProsodyEval1498，并聘请语言学专家进行听辨和评判，评判结果分为优秀和良好。过程中聘请3名专家进行评判，而且采用投票的方式决定最后的仲裁结果，专家间的相关度为0.776，0.792，和0.873，平均值为0.817，相关度明显偏低，这也说明高水平发音人群的韵律评测（优中选优）的难度比较大，相关性较低。

5.2 实验结果及结果分析

将ProsodyEval1498的数据集随机拆分成一半训练集、一半测试集，采用SVM分类器，RBF核函数，并通过十次实验求取平均作为韵律评测的性能。

从表1可以看出，在韵律发音质量评测任务中，加入语言学统计特征后，评测性能得到较大提升，人机相关度从0.753提高到0.779，相对提高3.45%。通过对特征集进行特征筛选后，特征维数明显降低，从166维减少到67维，同时评测性能也略有提升，人机评分相关度从0.779提高到0.784，相对提高0.64%。

6结束语

广泛提取韵律相关的声学特征是韵律发音质量评测的基本方法，本文在韵律相关的声学特征提取的基础上，进一步融合了语言学统计特征，并选用SVM作为分类模型，实现了对韵律发音质量的有效评测。同时，采用SFFS算法对评测特征进行筛选，去除了特征集中一些目标无关的特征，进一步强化了系统的评测性能，而且提高了系统的泛化能力。此外，在本文提出的技术框架下，还可以引入更多不同信息源的多种类别的韵律相关特征，比如听觉感知特征、韵律模型参数特征等，期望能进一步提高系统的评测性能。接下来，关于如何提取更多的韵律相关的显著特征，以及如何选择更好的特征筛选方法即已成为需要进一步研究的重要内容。

参考文献：

[1] 曹剑芬. 基于语法信息的汉语韵律结构预测[J]. 中文信息学报， 2003， 17（3）： 41-46.

[2] CHEN J C， LO J L， JANG J S R. Computer assisted spoken English learning for Chinese in Taiwan[C]//Chinese Spoken Language Processing， 2004 International Symposium on. IEEE， 2004： 337-340.

[3] YAMASHITA Y， NOZAWA K. Automatic scoring for prosodic proficiency of English sentences spoken by Japanese based on utterance comparison[J]. IEICE transactions on information and systems， 2005， 88（3）： 496-501.

[4] JIA H， TAO J， WANG X. Prosody variation： application to automatic prosody evaluation of Mandarin speech[C]//Proc. Speech Prosody， 2008： 547-550.

[5] HUANG S， LI H， WANG S， et al. Exploring goodness of prosody by diverse matching templates[C]// Proc. of INTERSPEECH， 2010： 1145-1148.

[6] TEIXEIRA C， FRANCO H， SHRIBERG E， et al. Prosodic features for automatic text-independent evaluation of degree of nativeness for language learners[C]// Proc. INTERSPEECH， 2000： 187-190.

[7] MAIER A， HONIG F， ZEI?LER V， et al. A language-independent feature set for the automatic evaluation of prosody[C]// Proc. INTERSPEECH， 2009： 600-603.

[8] BOLA?OS D， COLE R A， WARD W H， et al. Automatic assessment of expressive oral reading[J]. Speech Communication， 2013， 55（2）： 221-236.

[9] HENGNIAN Q I. Support vector machines and application research overview [J]. Computer Engineering， 2004， 30（10）： 6-9.

[10] CHANG C C， LIN C J. LIBSVM： a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology （TIST）， 2011， 2（3）： 27.

[11] MOLINA L C， BELANCHE L， NEBOT ?. Feature selection algorithms： A survey and experimental evaluation[C]// Proc. of International Conference on Data Mining， 2002： 306-313.