同态解卷处理在基音检测中的应用
2013-07-20杨顺辽
杨顺辽
长江大学电子信息学院,湖北荆州 434023
同态解卷处理在基音检测中的应用
杨顺辽
长江大学电子信息学院,湖北荆州 434023
1 引言
人类语音分为浊音和清音,其中发浊音时气流通过声门使得声带产生张弛震荡式振动,从而产生准周期气流脉冲,该气流脉冲激励声道就产生浊音。这种声带振动的频率称为基频,相应的周期就称为基音周期。基音周期具有时变性和准周期性,其大小与声带、发音习惯、发音者年龄、性别和发音时的情感有关[1]。基音周期的估计称为基音检测,是语音处理中一个重要参数,基音检测是语音处理中的关键环节和难点所在。
人们已经提出了多种基音检测方法,如自相关函数法[2]、平均幅度差函数法[3]、小波变换法[4]等,而基于同态滤波的基音检测法也引起了研究者的重视[5]。
基音检测的难点在于声道特性对基音的影响难以去除。本文采用同态解卷处理,将声门激励信号和声道特性进行分离,并对处理结果采用频率不变线性低通滤波器进行滤波,然后再采用自相关法检测基音周期,从而减小声道特性和噪声对基音检测的影响,以提高基音检测的精度。
2 语音信号产生模型
语音信号产生过程较复杂,影响因素多,人们希望建立语音信号产生的数字模型,以利用数字信号处理技术来实现发音器官的模拟。1930年Duddley发明的声码器为语音信号产生模型的建立提供了依据。其基本思想是将语音产生过程分为激励和系统两个部分,语音信号就是激励和系统的卷积结果,如图1所示[6]。
图1 语音信号产生模型
图1所示语音产生模型表明,语音信号中浊音可以看做是一个周期信号激励于系统的响应,而清音是随机噪声激励于系统的响应。显然,浊音中的基音受到了声门模型、声道模型和口唇辐射模型的综合影响,而这些模型会对从浊音中检测出基音的准确性产生影响。
基音频率一般处于80~500 Hz之间,而声道特性中的第一共振峰频率与基音频率最为接近,其对基音检测影响最大。
3 同态解卷
3.1 基本原理
同态解卷处理是以倒谱和复倒谱为基础的。所谓复倒谱,是对序列x(n)的傅里叶变换X(ejω)取对数:
然后再进行傅里叶逆变换所得序列xˆ(n)即为序列x(n)的复倒谱。显然,如果将X(ejω)表示成幅度和相位的形式,则有:即包含了实部和虚部,实部为对数幅度谱,虚部为相位。
所谓倒谱是对序列x(n)的傅里叶变换X(ejω)的幅度取对数,即
然后再进行傅里叶逆变换所得序列cx(n)即为序列x(n)的倒谱。
如果有一个序列x(n)为两个序列x1(n)和x2(n)的卷积,即
则其复倒谱xˆ(n)和倒谱cx(n)为:
也就是将两序列的卷积运算变成了加法运算,即满足广义的叠加原理,满足广义叠加原理的系统就称为同态系统[7]。
复倒谱是可逆的,也就是一个序列可由它的复倒谱恢复出来,即将复倒谱的傅里叶变换取指数运算:
然后再作傅里叶逆变换即可恢复原序列x(n)。
既然复倒谱运算可以将卷积运算关系变为线性求和运算关系,因此可以将激励信号和系统单位脉冲响应加以分离。基音频率低于声道的共振峰频率,因此,在浊音的复倒谱中,“低时”部分对应于频率较高的声道特性,而“高时”部分对应于频率较低的基音。所以可以采用频率不变线性高通滤波器实现解卷处理,以减小声道对基音检测的影响。
3.2 基音检测步骤
根据上述原理,可得出基于同态解卷处理的基音检测步骤如下:
(1)对浊音进行傅里叶变换;
(2)对变换结果取对数然后再进行逆变换;
(3)进行频率不变线性滤波,取出“高时”部分;
(4)进行傅里叶变换;
(5)对变换结果取指数运算并进行傅里叶逆变换;
(6)自相关法进行基音检测。
上述检测流程如图2所示。
图2 基于同态解卷的基音检测流程
4 检测处理结果
4.1 理论模型的处理
为了验证本文方法的可行性,下面通过理论模型进行处理。声门及声道谐振作用的综合影响用下式进行模拟[8]:
而发浊音时的激励信号为:
其中β0=0.98,β1=1,α=r=0.9,θ=π/6,N0=15时的波形如图3所示。其中图3(c)为声道和激励信号的卷积,即声音信号的模拟。
图3(d)为利用同态解卷处理分离出的激励信号,对复倒谱采用的是频率不变线性高通滤波器滤波。显然,采用同态解卷处理分离出的激励与原始激励信号模型基本相同,其周期性保留得较完整,而且基本不受声门和声道特性的影响。表明该方法用于提取基音能够减少声门和声道特性的影响,从而可以提高基音检测的精度。
4.2 实际语音的处理
下面通过一段实际的语音进行基音检测的验证。图4(a)为成年男性发浊音“啊”时的一帧语音时域波形,采样率为16 kHz,帧长为400,从图中可以看出,基音周期为110个样点数,从时域波形中可估计出其基音频率为16 kHz/110= 145.45 Hz。图4(b)为该语音的自相关结果,显然,自相关具有周期性,可以用来检测基音周期,估计出的基音频率也为145.45 Hz。但是,无论是从时域波形还是从其自相关结果来看,都具有明显的高频成分,在进行基音检测时易对检测结果产生影响。
在基音检测处理中为了减小声道特性的影响,往往采用低通滤波预处理然后再进行基音检测,低通滤波器的截止频率一般取900 Hz[5,9],这样处理虽然在一定程度上能减小声道特性的影响,但是仍然含有一定的高频成分,对基音检测还是会存在影响。图4(a)的语音信号经过900 Hz的低通滤波器滤波后的波形及其自相关如图5所示。
图3 理论模型及其处理结果
图4 语音时域波形及其直接自相关
图6(a)为采用本文方法进行同态解卷所得到的基音激励信号。图中存在两个明显的类似于冲激的等间隔脉冲,其间隔为110个样点数。图6(b)为图6(a)的自相关处理结果,图6(b)中检测出的基音周期为110个样点数,即145.45 Hz,与直接相关检测结果相同。但是图6(b)与图4(b)和图5(b)相比较,显然图6(b)中没有明显的其他周期成分,即减小了声道特性对基音检测的影响。
图7为一段高信噪比(60 dB)浊音采用直接相关法、低通滤波后再相关处理法和本文同态解卷后再相关处理方法检测的基音频率检测结果,其中横坐标为语音帧序号,纵坐标为频率,单位为Hz。
图7表明在高信噪比语音中,三种方法均能较准确地检测出基音频率,检测出的频率在145 Hz左右,与时域观察结果一致。
图6 同态解卷分离出的激励信号及其自相关
图7 高信噪比语音三种方法检测基音频率对比
图8 低信噪比语音三种方法检测基音频率对比
图8为受随机噪声干扰的浊音语音(信噪比为17 dB)采用上述三种方法检测出的基音频率。采用直接相关处理检测的基音频率中有16帧出现了错误,误检率为61.5%,错误频率在500 Hz到1 000 Hz之间,处于声道的第一共振峰频率范围内。低通滤波处理后有11帧出现错误,误检率为42.3%,错误频率处于声道第一共振峰范围内。而采用本文方法检测时没有出现将声道共振峰频率错误地检测为基音频率的情况。表明本文方法在基音检测中性能优于另外两种方法,具有较好的抗声道特性影响和抗噪声性能。
表1中列出了不同信噪比时三种方法基音检测的错误率。随着信噪比的降低,本文方法的错误检测率也会增加,但是,其误检率远小于另外两种常用方法。
表1 不同信噪比时基音检测结果对比
5 结束语
同态解卷处理可以将卷积运算的两个分量进行分离,而语音中浊音的产生过程可以看做是基音周期性脉冲与声道特性的卷积,因此,从语音中直接检测基音不可避免地会受到声道特性和噪声的影响。将同态解卷技术用于语音基音检测中,可以减小声道特性和噪声对基音检测的影响。理论模型和实际语音处理结果均表明该方法的可行性和有效性,从而为基音检测提供了一种思路。
[1]冯康,时慧琨.语音信号基音检测的现状及展望[J].微机发展,2004,14(3):95-98.
[2]Shimamura T,Kobayashi H.Weighted autocorrelation for pitch extraction of noisy speech[J].IEEE Trans on Speech Audio Processing,2001,9(7):727-730.
[3]李晋,江成,刘甫.改进的基音检测算法[J].计算机工程与应用,2011,47(3):117-119.
[4]Kadambe S,Boudreaux-Bartels G F.Application on the wavelet transform for pitch detection of speech signals[J].IEEE Trans on Inform Theory,1992,38(2):917-924.
[5]胡立波,吴月萍,孙光中.基于同态滤波的基音检测算法[J].微电子学与计算机,2009,26(4):95-97.
[6]胡航.语音信号处理[M].哈尔滨:哈尔滨工业大学出版社,2005. [7]奥本海姆,谢弗.数字信号处理[M].董士嘉,译.北京:科学出版社,1981.
[8]杨顺辽,李永全.数字信号处理实现与实践[M].武汉:华中科技大学出版社,2011.
[9]陈小利,徐金甫.利用小波变换加权自相关的基音检测法[J].数据采集与处理,2007,22(4):463-467.
YANG Shunliao
Electronics and Information College of Yangtze University,Jingzhou,Hubei 434023,China
Pitch detection is one of the extremely important steps in speech signal processing,but the detection result usually has errors because pitch is influenced by vocal tract characteristics and noise.The excitation signal and vocal tract characteristics in voiced speech are separated by using homomorphism deconvolution,so as to reduce the influence of vocal tract characteristics and improve the pitch detection accuracy.Then autocorrelation is used to detect pitch in excitation signal.The feasibility is verified by theoretical model.The experiment results of real speech signal indicate that the vocal tract characteristics and noise have rarely influence on pitch detection using this method.
homomorphism deconvolution;pitch detection;speech;frequency invariant linear filter
语音处理中基音检测是极为重要的环节之一,然而浊音中的基音往往会受到声道特性和噪声的影响而导致检测结果的误差。利用同态解卷处理,将浊音中的激励信号和声道特性进行分离,然后再在激励信号中利用自相关检测基音,可以减小声道特性和噪声对基音检测的影响,从而提高基音检测的精度。通过理论模型验证了该方法的可行性,而且实际语音信号处理结果表明,该方法在基音检测时可以基本不受声道特性和噪声的影响。
同态解卷;基音检测;语音;频率不变线性滤波器
A
TN912.3
10.3778/j.issn.1002-8331.1203-0044
YANG Shunliao.Application of homomorphism deconvolution processing in pitch detection.Computer Engineering and Applications,2013,49(24):214-218.
杨顺辽(1973—),男,副教授,研究领域为信号处理,语音,图像处理。E-mail:robertysl@yahoo.com.cn
2012-03-02
2012-05-30
1002-8331(2013)24-0214-05
CNKI出版日期:2012-07-16http://www.cnki.net/kcms/detail/11.2127.TP.20120716.1501.050.html
◎工程与应用◎