车载环境下语音端点检测的研究*
2017-03-09张恒,周萍
张 恒,周 萍
(桂林电子科技大学 电子工程与自动化学院,广西 桂林 541000)
车载环境下语音端点检测的研究*
张 恒,周 萍
(桂林电子科技大学 电子工程与自动化学院,广西 桂林 541000)
语音端点检测直接决定了语音识别的精度和速度。车载环境是一个非常复杂的环境,信噪比(SNR)有可能出现很低的情况,对于传统的时域端点检测方法来说,在这种环境下的端点检测效果很差,而双门限在高信噪比条件下,端点检测的效果非常好,识别率很高,这就使得提高车载环境下语音SNR非常关键。文章提出采用改进的小波去噪和改进的双门限方法进行端点检测。实验结果表明,综合改进小波去噪和改进双门限的方法虽然有一定量的信号失真,但失真在可接受范围之内,并且在不增大运算量的情况下端点检测的效果比传统的双门限效果要好,表明了本文算法的有效性。
车载环境;小波去噪;双门限;端点检测
0 引言
随着语音识别技术的研究和发展,应用语音技术开发的产品已涉及到人们生活的多个方面,有声控电话交换、语音拨号系统、声控智能玩具、医疗服务等,促进了整个社会经济的发展,在未来也将带来社会科技的变革。目前,语音识别技术已经应用在很多玩具车上,很多厂商也正在加快速度研究车载语音系统。经过几十年来人们对语音识别技术的探索和研究,语音识别技术以及用于开发语音的硬件设备都在不断地改进更新,语音识别产品已经逐步从实验室走向工厂,各厂商已经推出各种系统的汽车产品。
语音端点检测在语音信号处理中是一个极其重要的环节,它决定了后面的处理结果,比如对语音信号的特征提取、模式匹配时的正确率。车载环境下的语音噪声非常复杂,车内发动机声音、轮胎与路面之间的摩擦声、空气扰动、窗外嘈杂声等[1],使得信噪比降低。在低信噪比的条件下,使用传统的双门限端点检测方法,会大大降低识别率,双门限在信噪比较高时有非常好的效果,而使用频率或其他模式匹配的检测方法会增加其运算量,不利于车载环境下的实时性要求,因此本文提出一种基于改进的小波降噪和改进的基于短时能量与过零率双门限端点检测的方法,最大限度地还原语音有效信号,为之后的特征提取和模式匹配提供良好的资源。
1 小波去噪
小波去噪在处理非平稳信号上有很大的优势,其中关键的步骤是阈值的选取,这对于去噪的效果影响较大。
1.1 小波变换
小波变换(Wavelet Transform,WT)是近几十年发展起来的一种新的数学分析方法,特别是近十几年,在很多领域都有广泛的应用。小波变换的实质是由一个低通滤波器和一系列带通滤波器组成。它是短时傅里叶变换(STFT)的变化形式,继承和发展了局部化的思想,具有多频率分析、能够聚焦到信号的细节,被称作是“数学显微镜”[2]。小波变换能随信号频率的改变而调整分析窗口大小,具有一定的自适应性,能够解决很多Fourier不能解决的问题,特别是在非平稳信号中,小波变换的优势更加突显。
1.2 小波去噪原理
基于小波变换的优势,小波去噪成为小波变换重要的应用之一。去噪的方法主要有:模具极大值检测法、相关性去噪、阈值法、平移不变量小波去噪法[3]。其中阈值法运用较为广泛,其算法运算量低,易于实现,且效果很好。本文主要基于改进的阈值法进行去噪。小波去噪分为3个过程,其步骤可总结为[4]:(1)小波分解;(2)阈值处理;(3)小波重构。
小波阈值去噪主要有软阈值和硬阈值法,它们都具有自己的优缺点,通常采用两者结合的方式对小波系数进行估计。软阈值和硬阈值法是1994年由Donoho在小波变换的基础上提出的[5]。下面分别介绍它们以及本文改进的阈值法。
(1)硬阈值法和软阈值法
硬阈值,当小于等于阈值时将小波系数置零,当大于阈值时保持小波系数不变,其阈值函数如式(1):
(1)
软阈值,当小于等于阈值时将小波系数置零,当大于阈值时对小波系数阈值进行收缩处理,其阈值函数如式(2)[6]:
(2)
对于上面的软、硬阈值,要根据具体的噪声环境而做出选择,因此其阈值法具有一定的局限性,不能很好地适用于强噪声或复杂噪声环境下。基于上面阈值函数的缺陷,本文提出了以下改进的阈值法,使其能运用到车载环境中。
(2)本文改进的阈值法
为了克服阈值法的缺点,本文采用如下的阈值函数进行去噪:
(3)
2 改进的双门限算法
由于双门限算法简单可行、复杂程度低、运算量小、实时性较好等,很多学者或科研人员在其上改进各种算法。
2.1 双门限算法原理
语音信号一般可分为无声段(静音段)、清音段、浊音段,由于他们的能量是有一定区别的,显然浊音段能量大于清音段,清音段大于无声段,但在实际检测过程中,由于噪声以及清音段本身能量较低的特点,使得无声段与清音段难以区分[7],所以还有一种信号特征用于其检测,即短时过零率。短时过零率表示信号穿过横坐标(零电平)的次数。短时能量和短时过零率函数定义分别为式(4)、式(5):
(4)
(5)
对于上面式(4)和式(5),x(m)为语音信号,En为能量,h(n-m)为相关的滤波器,Zn为过零率。
2.2 本文改进的双门限算法
语音开始和结尾对于端点检测至关重要,因为阈值的设定要通过静音段确定,而为了增强检测的适应性,应根据具体的噪声环境确定能量阈值,而不能单一运用一个阈值到所有的信噪比环境下。通常需要通过能量的最大值max和最小值min来确定一个阈值,即采用一种折中的方法选取阈值。参考文献[7]采用的是当能量的最大值max比上能量的最小值min小于33.33时,阈值下限ITL设置为0.03max+0.97min,反之ITL设置为4min;阈值上限ITU设置为4ITL[8]。
由于低信噪比环境下以上双门限算法有一定局限性,端点检测的效果很差,通过大量的采集数据和实验,本文得出如下的改进门限法。设置能量阈值的上、下限如式(6)所示:
(6)
IMM为前15帧的能量幅值的平均值。
通过前面改进的小波去噪方法提高了信噪比,使得端点检测识别率提高,这样在车载坏境下的特征提取和模式匹配准确度会提高。下面给出实验结果。
3 实验结果
通过多次采集不同车载环境下的噪声,采用sym8小波,分解层数为5时效果比较明显。图1给出了改进小波去噪效果,分别在-5 db、0 db、5 db时的去噪效果比较,其横坐标为语音的采样点数,纵坐标为语音信号幅度值。表1是几种不同噪声环境下输出的SNR和MSE。从表1中可以得出在低信噪比的环境下小波去噪发挥了它的优势。
通过小波去噪后,得到了更好的语音资源,此时将去噪后的语音进行端点检测会得到更好的效果[9],表2列出了不同信噪比情况下几种不同环境下车载语音端点检测结果,从中可以看出,“我到北京去”这段语音相比于传统的双门限,去噪以及改进后的双门限检测效果更好,其检测率高于传统双门限检测率,且没有增加算法的运算量,使实时性得到保障。
从图1和表1数据分析,小波去噪在车载强噪音环境下效果较为明显,改进的双门限检测方法也具有一定适应性,能够在车载多变的噪声环境下进行检测。从表1可以看出,在车载高SNR条件下,检测效果有明显的提升;在低SNR下,虽然检测效果有所下降,但相比于传统的检测效果还是有所提升。通过信噪比SNR和均方误差MSE衡量语音去噪的效果,从表中可以看到降噪明显。通过表2的对比看出,端点检测率提高了,表明语音检测的有效性。
4 结论
对于车载环境下,噪声是比较大、比较复杂的,低SNR会使传统双门限检测方法的识别率大大降低[10],对于这一缺点,本文首先采用了改进小波去噪算法提高车载环境下的SNR,再使用改进的双门限算法进行端点检测。从实验结果来看,失真不影响检测效率,且提高了检测率,证明本文算法切实可行。
[1] 马龙华,郝燕玲.车载环境下语音识别方法研究[D].哈尔滨:哈尔滨工程大学,2009.
[2] 吴勇,吴传生.基于小波去噪研究方法[D].武汉:武汉理工大学,2007.
[3] 金宝龙,李辉,赵乃杰,等.一种新的小波阈值去噪算法[J].弹箭与制导学报,2011,31(1):167-169.
[4] 赵广超,肖斌,国闯,等.小波分析理论与图像降噪处理[J].微型机与应用.2011,30(19): 35-37.
[5] 段永刚,马立元,李永军,等.基于小波分析的改进软阈值去噪算法[J].科学技术与工程,2010,10(23):5755-5658.
[6] 杨岳飞,刘辉,谭检平.带噪语音信号小波去噪算法研究[J].计算机工程与应用,2015,51(14):211-213.
[7] 陈东钰,周萍.基于双门限算法的语音端点检测和声韵母分离研究[J].桂林电子科技大学学报,2011,31(6):481-482.
[8] 刘庆升,徐霄鹏,黄文浩.一种语音端点检测的探究[J].计算机工程,2003,29(3):120-121.
[9] 鲁远耀,周妮,肖珂,等.强噪音环境下改进的语音端点检测算法[J].计算机应用,2014,34(5):1386-1390.
[10] 刘华平,李昕,徐柏龄,等.语音信号端点检测方法综述及展望[J].计算机应用研究,2008,25(8):2278-2283.
Research on speech endpoint detection under on-board environment
Zhang Heng, Zhou Ping
(Shcool of Electronic Engineering and Automation, Guilin University of Electronic Technology,Guilin 541004, China)
The endpoint detection is an important part in signal processing. Endpoint detection directly determines the accuracy and speed of the voice recognition. Car environment is a very complex environment, the signal-to-noise ratio of the signal possibility is very low, for the traditional time domain endpoint detection method, in this environment the endpoint detection effect is very poor. The double door limit under the condition of high SNR, endpoint detection effect is very good, the recognition rate is very high, this makes the prompt on-board environment voice SNR is critical. In this paper, the improved wavelet denoising and the improved double threshold algorithm is adopted for endpoint detection. The experimental results show that the integrated method of wavelet denoising and double threshold though there is a certain amount of signal distortion, the distortion in the range of acceptable, and in the case of not increase the computational complexity, the endpoint detection effect is better than traditional double threshold effect, which show the effectiveness of the algorithm in this paper.
on-board environment; wavelet denoising; dual-threshold; endpoint dectect
广西研究生教育创新计划资助项目(YCSZ2015152)
TN912.34
A
10.19358/j.issn.1674- 7720.2017.05.007
张恒,周萍.车载环境下语音端点检测的研究[J].微型机与应用,2017,36(5):21-23.
2016-12-01)
张恒(1991-),通信作者,男,硕士研究生,主要研究方向:语音识别、车载语音。E-mail:282078547@qq.com。
周萍(1961-),女,硕士,教授,主要研究方向:语音识别、智能控制。