APP下载

基于MFCC的语音评分方法研究

2010-09-27

中国现代教育装备 2010年15期
关键词:规整特征提取发音

王 娜

福建师范大学福清分校 福建福清 350300

基于MFCC的语音评分方法研究

王 娜

福建师范大学福清分校 福建福清 350300

针对目前语言学习中普遍存在的发音问题,提出了一种基于MFCC的语音评分方法,通过对测试语言和标准语音进行预处理、特征提取及模式比对等过程,找出它们的相似度并由评分机制给出得分。实验证明该方法能够确保评测的准确性,具有较强的实用性。

语音评分;特征提取;动态时间规整法;梅尔频率倒谱系数

我国地域辽阔,不同地区的人说话时往往带有一定的地域特色,即“口音”。有的时候方言可能会产生人们沟通时的语言隔阂。随着改革开放和社会主义市场经济的发展,社会对普及普通话的需求日益迫切。推广普通话,营造良好的语言环境,有利于促进人与人之间的交流,这不但是素质教育的重要内容,而且是十分必要的。在语音教学中,上课的时间非常有限,教师难以对学生的发音进行一对一的指导;在语音测试中,教师自身评测水平有一定的主观性,信度难以得到保证。文献[1]提出了一种发音评分的方法,该方法除了可以对词和句子进行打分,还可以对音素发音错误进行自动诊断提出;文献[2]提出了一种基于特征比较的语音评分方法,通过分析输入语音,提取语音特征并与参考标准进行匹配比较,由评分机制根据相似程度大小给出评价得分;文献[3]采用图样比对的方法对测试语音和标准语音进行比较,从而找出二者之间的差异程度,并配合评分机制给予评分;文献[4]利用HMM和GMM分别对中文的发音和声调进行评分,并以Downhill Simplex Search进行了评分系统参数的最佳化,以求达到和中文专家一致的评分标准;文献[5]提出用连续隐马尔可夫模型(Hidden Markov Model,HMM)来表示音质的客观评价方法,该模型中采用对称距离测度来刻画输入和输出HMM模型之间的相似度,最终得到语音质量的估计值。

针对目前语言发音教学的不足,本研究充分考虑了汉语自身的特点,构建了一种基于MFCC的语音评分方法,通过分析输入语音,提取其特征并和参考标准读音进行比较,从而对被测试者的发音作出客观的评价。

一、语音评分系统的构成

系统主要由4个相对独立的模块构成,其工作流程如图1所示,它们分别是:初始化模块、特征提取模块、模式比对模块和自动评分模块。

图1 语音评分系统的流程图

1.初始化模块

初始化模块包括用户语音和标准语音的采集及预处理。为了保证系统具有良好的识别效果,输入的语音信号都要进行预处理。预处理包括采样、量化、预加重、端点检测、分帧和加汉明窗等步骤。

2.特征提取模块

语音评分的一个重要模块就是特征提取,目前语音识别系统常用的特征有线性预测系数(LPC)、LPC倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、共振峰频率、Mel频率倒谱系数(MFCC)等。文献[6]对比了语音识别中常用的特征参数(包括带通滤波器组的频谱参数、线性预测系数、线性预测倒谱系数和Mel频率倒谱系数MFCC)及其失真测度,得出MFCC的鲁棒性最好的结论。

3.模式比对模块

模式比对模块采用动态时间归整(Dynamic Time Warping,DTW)算法,通过对输入语音和参考标准语音进行比较,找出它们的差异程度,即用估测二者的特征参数的差距来反映它们之间的相似度。

4.自动评分模块

自动评分模块建立了一套利用标准语音资料评分的评分机制,首先设定测试语音与标准语音两相同特征比对之后的结果,其距离与分数间的关系,设定公式如式(1) 。

由这个公式我们就可以将距离转换成分数,只要设定好两组的dist及对应的scorefea,即可从中求出a和b,接着由距离值可以计算出对应的分数。

当有测试语音进来时,我们分别和标准语音比较音量强度曲线、基频轨迹及梅尔倒频谱参数3个特征,分别算出距离[distl,dist2,dist3]后,由距离转分数的公式(2)得出评分结果:

w1、w2、w3为3个特征的各自权重。

二、关键技术的实现

该语音评分系统的核心部分是特征提取和动态时间规整算法。本评分算法能够大大减少系统处理的运输量,从而提高了系统的执行速度。

1.预加重

语音经过采样有由模拟信号转化为数字信号,然后通过一个一阶高通滤波器来做预加重处理。由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dB/倍频程跌落,为此要在预处理中进行预加重。预加重的目的是滤除低频干扰以突显高频部分,其传递函数为H(z)=1-kz-1,本文中的k取0.95。

2.特征提取

人耳对不同频率的语音具有不同的感知能力,实验发现,在1000Hz以下,感知能力与频率成线性关系,而在1000Hz以上,感加能力则与频率成对数关系。为了模拟人耳对不同频率语音的感知特性,人们提出了Mel频率的概念,其意义为:1Mel为1000Hz的音调感知程度的1/1000。梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)即为基于上述梅尔频率的概念而提出的。它利用一组三角滤波器对语音信号短时幅度谱进行频域滤波。其中每个滤波器中心频率和带宽的设置模拟了人耳的听觉感知特性,即在低频段频率分辨率高而在高频段频率分辨率低。LPC模型是基于发音模型建立的,LPCC系数也是一种基于合成的参数。这种参数没有充分利用人耳的听觉特性。实际上,人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是一个对数的关系。MFCC参数的计算是以“bark”为其频率基准的,它和线性频率的转换关系是:

MFCC的计算过程如下:

(1)采用连续分段的方法对语音信号进行分帧处理,为了使帧保持连贯性,令每一帧的帧尾与下一帧的帧头重叠。

(2)将时域信号x(n)后补若干个0以形成长度为N(一般取N=512)的序列,然后经过离散傅立叶变换(DFT)后得到线性频谱X(k),转换公式如式(4) :

(3)求频谱幅度的平方得到能量谱S(m)。

(4)在频域上构造一组三角形滤波器得到每个频带的输出对出频谱,再经过离散余弦变换(DCT)求得梅尔倒频谱参数c(n),如式(5):

3.动态时间规整算法

日本学者Itakura根据语音识别符合多阶段决策的内在特性,将动态规划思想引入到识别中,提出了动态时间规整技术,极大地改进了语音识别的效果,推动了语音识别的发展。由于同一个人在不同的时段说同样的孤立词有可能因为语速不同造成提取的语音长度有差异,所以不能直接将输入的语音和标准模板进行比对。

假设语音参数共有I帧矢量,而参考模板共有J帧矢量,且I≠J,动态时间规整就是要寻找一个时间规整函数j=ω(i),它将测试矢量的时间轴i非线形地映射到模板的时间轴j上,并使该函数ω满足式(6):

式(6)中d[T(i),R((i))]是第i帧测试矢量T(i)和第j帧模板矢量R(j)之间的距离测度,D则是处于最优时间规整情况下两矢量的距离。由于DTW不断地计算两矢量的距离以寻找最优的匹配路径,所以得到的两矢量匹配是累积距离最小的规整函数,这就保证了它们之间存在最大的声学相似特性。实际中,DTW是采用动态规划技术(DP)来加以具体实现的。动态规划是一种最优化算法。

三、系统功能和界面

为了获得稳定的参数,系统的前期处理即在Matlab 7.0上进行大量的实验和仿真。整个系统是以Microsoft Visual C++6.0为开发工具,采用C++为设计语言,在CPU为Intel Pentium 4 3.0G、操作系统为Windows XP的PC机上实现的。

语音评分系统的界面如图2所示,系统开始运行的时候,首先输入一个用户ID,在该文本框的右侧有3个按钮,分别是开始录音、停止录音和录音保存。按下“开始录音”按钮,系统会弹出录音参数对话框,要求用户选择采样频率(采样次数/秒)、位数和声道,确定后即可通过麦克风进行语音录入。录音结束后,系统能够提供基本的录音和播放的功能,并在界面上显示即时录制的波形,本例为用户录入“我为什么非要教书不可”和该句在普通话水平测试标准朗读库中的语音对比。“标准语音”和“原始语音”的两个窗口均可通过鼠标和键盘上的上下左右平移键进行缩放和移动,也可以截取其中的部分声音样本单独存盘。“预加重”“特征提取”“原始特征”“确定”这4个按钮分别对应系统的初始化模块、特征提取模块、模式比对模块和自动评分模块。

图2 语音评分系统的界面

四、实验结果分析及结论

实验的语音采集是由10位20~40岁的被测试者(其中男性5名,女性5名)手持麦克风在普通机房进行录音完成的,他们在情绪平静的情况下发音比较自然。利用4次不同的时间对这10名用户完成4次语音采集,每次说同一句话,共50句,然后在这4次语音样本中选取1个最清晰的作为原始语音。标准语音来源于全国普通话水平测试的标准朗读语音。采用普通声卡,Windows自带的录音软件,采样频率为16Hz,PCM方式,量化精度为8bits。本系统使用13维的MFCC进行特征提取。用户利用本系统评分与参加全国普通话水平测试的分数对比情况如表1所示。

表1 利用本系统评分与参加全国普通话水平测试的分数对比情况表

本文依照汉语发音的特点,提出了基于MFCC的语音评分方法,采用动态时间规整法按照模块化思想设计了该评分系统。评测结果表明,本文的语音评价系统在实际使用中能够获得良好的评价性能,比较符合人的主观感觉,其评价结果能够反映出被测试者的普通话水平。

[1]Tobias Cincarek, Rainer Gruhn, Christian Hacker,et al. Automatic pronunciation scoring of words and sentences independent from the non-native’s first language[J].Computer Speech and Language,2009,23(1):65~88

[2]刘振安,罗永钊.基于特征比较的语音评分方法研究[J].计算机应用.2005,25(12):2928~2930

[3]李俊毅.语音评分[D].硕士,台湾清华大学,2002

[4]Jiang-ChunChen,Jyh-Shing Roger Jang, Jun-Yi Li ,et al. Automatic Pronunciation Assessment for Mandarin Chinese[C].In IEEE International Conference on Multimedia and Expo (ICME) , 2004,1979~1982

[5]Li, W.,Kubichek, R.F..Out put-based objective speech quality measurement using continuous hidden Markov models [C].In:Proceedings. Seventh International Symposiumon Signal Processing and Its Applications,2003,389~392

[6]易克初,田斌,付强.语音信号处理[M].北京:国防工业出版社,2002

[7]胡航.语音信号处理[M].黑龙江:哈尔滨工业大学出版社, 2000,

[8]蔡莲红,黄德智,蔡锐.现代语音技术基础与应用[M].北京:清华大学出版社,2003

[9]陆伟,戴蓓蒨,李辉,等. MFCC中的基音频率信息对说话人识别系统性能的影响[J].中国科学技术大学学报,2009,39(8):859~860

[10]何强,何英.MATLAB扩展编程[M].北京:清华大学出版社,2003

[11]Yu Hongzhi,A Research on Recognition of Tibetan Speakers Based on MFCC and Delta Features[C].In:International Forum on Computer Science-Technology and Applications, 2009. 234~238

[12]张雄伟,陈亮,杨吉斌.现代语音处理技术及应用[M].北京:机械工业出版社,2003

[13]赵力.语音信号处理[M].北京:机械工业出版社,2003

Research of speech evaluation based on MFCC

Wang Na
Fuqing branch of Fujian normal university, Fuqing, 350300, China

In order to solve the common inaccurate pronunciation problems, the paper proposes an algorithm for accomplishing speech evaluation based on MFCC. It takes pre-processing , feature extraction and pattern matching to the test speech and the standard one and tries to find the similarity between them. The result is given by the mechanism. Experimental results show that the algorithm which retains the comparable performance has a strong practicality.

speech evaluation; feature extraction; dynamic time warping; mel-frequency cepstral coefficients (MFCC)

2010-03-18

王娜,硕士,讲师。

猜你喜欢

规整特征提取发音
Hickory, Dickory, Dock
300kt/a硫酸系统规整填料使用情况简介
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
提高日用玻璃陶瓷规整度和表面光滑度的处理方法
电梯的建筑化艺术探索
Playing with h
基于发音机制的贪婪自适应语音时长规整算法
基于MED和循环域解调的多故障特征提取
Playing with /eI/