APP下载

基于LPC的藏语语音基音周期的检测分析

2015-11-17马英陈超贾国庆

现代电子技术 2015年16期

马英+陈超+贾国庆

摘 要: 基音周期是语音信号的重要参数,提取藏语语音基音周期为藏语语音识别和藏语语音合成奠定很重要的基础。这里在分析藏语发音特点的基础上进行基于LPC的藏语语音基音周期提取算法的分析,实践表明,该方法更加符合小信噪比藏语音信号基音周期和提取。在传统LPC分析方法的基础上结合自相关法和倒谱法,分析计算平均相对误差,总结出了符合藏语语音特点的特征提取算法。

关键词: LPC; 藏语语音; 基音周期; 倒谱法

中图分类号: TN912?34 文献标识码: A 文章编号: 1004?373X(2015)16?0013?03

Analysis of Tibetan speech pitch detection based on LPC

MA Ying, CHEN Chao, JIA Guoqing

(School of Physics and Electronic Information Engineering, Qinghai University for Nationalities, Xining 810007, China)

Abstract: Pitch period is an important parameter of speech signal. It is an important foundation to extract Tibetan pitch period for speech recognition and synthesis of Tibetan language. The Tibetan speech pitch extraction algorithm based on LPC is analyzed based on the analysis on the characteristics of Tibetan language pronunciation. In combination with the autocorrelation method and cepstrum method based on traditional LPC analysis method, the average relative error is analyzed and calculated, and the feature extraction algorithm conforming to the phonetic characteristics of Tibetan is summed.

Keywords: LPC; Tibetan speech; pitch period; cepstrum method

语音信号特征参数有很多种,有基音周期,共振峰频率,增益参数等,每一个特征参数都表征语音信号不同的信息,不同的语音信号有着不同的特征参数;因此,语音信号特征参数是语音识别,语音合成中的重要因素。在语音信号分析中,特征参数的提取是否准确决定着语音识别的识别率。然而不同的语音信号有着不同的特征参数提取方法,同种语言的不同方言在语音上相差悬殊,随着语言环境的变化,系统性能会变得很差。因此文章针对青海安多藏语语音信号采用多种提取方法,通过比对,总结出符合藏语语音信号的基音周期提取算法。

1 藏语语音的基本特点

藏语语音发音机制有完整的理论体系,与现代语音学的理论是完全吻合的。藏语语音与西方语言有相似之处,其是一种拼写语音的音素拼音语言,发音特点有自己独特的规律。藏文有30个辅音字母,藏文的音节一般由1~6个字母组成,藏语主要有3大方言:卫藏、康巴、安多[1]。以拉萨为中心向西的高原大部分叫“卫藏”;念青唐古拉山至横断山以北的藏北,青海,甘南,川西北大草原叫“安多”;“康巴”位于横断山区的大山大河夹峙之中。在3大方言中,卫藏和康巴方言有声调,大量鼻化元音和复元音,而安多方言没有这些特点,安多藏语语音的重要特征就是声母清浊音对立,复辅音较多,声母数目比卫藏和康巴方言多,韵母系统都是单元音,没有复元音韵母[2]。因此,安多方言藏语语音信号的特征参数与语音的发音部位、发音方法、发音动力和音势的强弱等息息相关。

2 几种算法存在的问题

在语音信号特征参数提取中有很多算法,经过多次实验,对其中LPC法、自相关法和倒谱法进行分析。在实验中,由于语音样点之间存在相关性,LPC分析可以用过去的样点值预测现在和未来的样点值,而采用LPC方法提取藏语语音信号的特征参数,其算法的运算量较大,并且LPC分析中窗长的选择不合适会影响语音信号特征参数提取的准确性;采用CEP分析方法,虽然可以减少算法的运算量,但CEP谱只有少部分情况下,基音峰值才会变得很突出,这也会使藏语语音基音周期估值的准确率下降;采用自相关法,如果窗长不足够长,周期数不足够多,提取特征参数会产生很大的误差。因此通过多种方法对安多藏语语音信号进行多次的实验,解决存在的相关问题,提高特征参数提取的准确性,并有效地应用于藏语语音识别中。

3 问题的解决

可以采用全极点模型,假设一个随机过程用一个p 阶全极点系统受白噪声激励产生的输出来模拟,则传输函数为[3]:

[H(z)=S(z)E(z)=G1-k=1pakz-k] (1)

式中:P是预测系数;G 声道滤波器增益;S(z)和E(z)分别为输出s(n)信号和输入信号e(n)的z变换,那么可以表示为差分方程[3]:

[s(n)=k=1paks(n-k)+G·e(n)] (2)

对于浊音,激励e(n)是基音周期重复的单位冲激;对于清音,e(n)是稳衡白噪声。定义线性预测器为[3]:

[s(n)=k=1paks(n-k)=G·e(n)] (3)endprint

式(2)表明预测误差序列是s(n)通过具有如下系统函数产生的:

[A(z)=1-k=1pakz-k=G·EzS(z)] (4)

式中A(z)也被称作逆滤波器。由式(4)可得:

[G·E(z)=S(z)·A(z)]

如果将原始语音通过逆滤波器A(z)进行逆滤波,则可获得预测余量信号[ε(n)](理想情况下[ε(n)=G·e(n)])。理论上讲,预测余量信号[ε(n)]中已不包含声道响应信息,但却包含完整的激励信息。对预测余量信号[ε(n)]进行自相关分析、倒谱分析,将可获得更为清晰的基音信息。

3.1 LPC?自相关法

对输入藏语语音分帧加窗后,首先对分帧语音进行LPC分析,得到预测系数[ak]并由此构成逆滤波器A(z);然后将原分帧语音通过逆滤波器滤波,获得预测余量信号[ε(n)];在对预测余量信号做低通滤波后,将所得信号作自相关变换。最终根据所得自相关函数中的基音信息检测出藏语基音周期。LPC?自相关法[3]流程如图1所示。

3.2 LPC?倒谱法

对输入藏语语音分帧加窗后,首先对分帧语音进行LPC分析,得到预测系数[ak]并由此构成逆滤波器A(z);然后将原分帧语音通过逆滤波器滤波,获得预测余量信号[ε(n)];在对预测余量信号做DFT、取对数后,将所得信号的高频分量置零;最后将此信号作IDFT,得到原信号的倒谱。最终根据所得倒谱中的基音信息检测出藏语基音周期。LPC?倒谱法[3]流程如图2所示。

图1 LPC?自相关法

图2 LPC?倒谱法

4 实验仿真

本文使用单项算法和组合算法进行基音周期检测分析,基音周期分别使用自相关法、倒谱法、LPC?自相关法、LPC?倒谱法4种算法进行测试提取,采用一段藏族男生录音,采样频率为16 kHz。原始语音信号时域波形见图3。

图3 原始藏语语音信号时域波形

5 结果分析

5.1 准基音周期的确定

图4为一帧原始藏语语音信号s(n)的时域波形图,从图中可看出1帧信号包括3个完整的基音周期,且每个基音周期有细微差别,在此以3个基音周期的平均值作为实际语音的基音周期。[300-523=82.67],即基音周期为82.67个样点值,则基音周期为82.67×[116]=5.168 75 ms。

图4 一帧语音信号s(n)的时域波形

5.2 残差信号与原始信号的比较分析

图5中[ε(n)]为残差信号,从图中可看出s(n)的幅度是[ε(n)]幅度的约10倍,但它们的主体波形确有98%的相似,只是相位延时了4个样点值。由此得残差信号[ε(n)]的能量要比原信号s(n)的能量小的多,但残差信号确为信号s(n)的激励源。

图5 语音信号的残差信号[ε(n)]

5.3 自相关法与LPC?自相关法的比较分析

图6为s(n)的自相关法检测结果,将s(n)进行自相关变换得出。由图可知P=84,即基音周期为84个样点值,则基音周期为84×[116]=5.25 ms。

图6 自相关法检测分析

图7为LPC?自相关法检测,对s(n)的残差信号[ε(n)]作自相关检测获得。由图可知P=83, 即基音周期为83个样点值,则基音周期为83×[116]=5.187 5 ms。由此可得s(n)残差信号的自相关检测结果要比s(n)的直接自相关检测结果精确的多。

图7 LPC?自相关法检测分析

5.4 倒谱法与LPC?倒谱法的比较分析

图8为s(n)的倒谱法检测,对s(n)直接进行倒谱分析获得。由图可知P=84,即基音周期为84个样点值,则基音周期为84×[116]=5.25 ms。

图8 倒谱法检测分析

图9为LPC?倒谱法检测, 即对s(n)的残差信号[ε(n)]作倒谱分析获得。由图可知P=83, 即基音周期为83个样点值,则基音周期为83×[116]=5.187 5 ms。

图9 LPC?倒谱法检测分析

由此可得s(n)残差信号的倒谱分析结果要比s(n)的倒谱分析结果精确的多。

5.5 LPC?倒谱法与LPC?自相关法的比较分析

为进一步比较LPC?倒谱法与LPC?自相关法的性能,对藏语语音录音进行50次实验。使用2种算法进行基音提取,进行25次大信噪比藏语语音信号基音提取和25次小信噪比藏语语音信号基音提取,并计算平均相对误差。实验结果分别见表1和表2。

表1 大信噪比语音信号平均相对误差

表2 小信噪比语音信号平均相对误差

6 结 语

由以上分析可得,针对安多藏语语音信号基音周期的提取,LPC?倒谱法优于LPC?自相关法, LPC?倒谱法更加符合小信噪比藏语语音信号基音周期的提取,其顽健性更好,准确性更高,在今后的藏语语音识别中得到广泛应用。

参考文献

[1] 顿珠次仁.藏语语音信号降噪算法研究[J].西藏大学学报:自然科学版,2010,25(2):61?65.

[2] 敏生智,耿显宗.安多藏语会话读本[M].西宁:青海民族出版社,2003.

[3] 赵力.语音信号处理[M].北京:机械工业出版社,2007.

[4] 李洪波,于洪志.藏语语音识别的预处理研究[C]//中国中文信息学会二十五周年学术会议论文集.北京:中国中文信息学会,2006:135?137.

[5] 李勇,于洪志,达哇彭措.基于关联规则的藏语语音韵律参数提取[J].微计算机信息,2009(6):255?257.

[6] 姚徐,李永宏,单广荣,等.藏语孤立词语音识别系统[J].西北民族大学学报:自然科学版,2009,30(1):29?36.