语音识别中小波分析的应用
2014-10-17刘豫军
刘豫军 夏 聪
(珠海多玩信息技术有限公司 广东 519000)
1 语音信号特征简述
语音信号是一种时变、非平稳的随机信号,其主要频带特征和信号特征如下:
(1)频带特征
人说话声音频率范围是 300Hz~3400Hz,男性大约在250Hz~2000 Hz之间,女性则大约在450Hz~4000 Hz之间。
(2)信号特征
清音:没有周期性,主要在高频部分,易混于噪音;
浊音:接近周期信号,主要分布在低频部分;
噪音:语音之间间隙,纯噪音的“无声区”。
图1 语音信号特征图谱
2 当前语音识别技术的难点
目前,国内已有科大讯飞、云之声等为代表的高新技术企业以及高校、科研院所等单位,在语音识别技术研究领域取得了不少成果,但是依然面临着产业化发展的技术瓶颈,主要表现在以下几个方面:
(1)语音识别系统的适应性差;
(2)高噪声环境下语音识别进展困难;
(3)如何把语言学、生理学、心理学方面的研究成果量化、建模并用于语音识别,还需深入研究;
(4)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;
(5)若将语音识别系统商品化,还有识别速度、拒识问题以及关键词/句检测技术等细节问题需要解决。
3 小波分析的基本原理及其在语音识别中的应用
(1)基本原理
小波分析是一种强有力的信号分析工具,它是时间和频率的局部变换,能有效的从信号中提取信息。例如,在信号的高频域部分,运用小波分析可以取得较好的时间分辨率;在信号的低频域部分,则取得较好的频率分辨率;在提取识别特征前,用小波进行预处理,能够选取语音信号的有用信息,并且有效抑制无关信息对识别所产生的干扰。
(2)小波分析在语音识别中的应用
小波分析在语音识别中的作用十分突出,尤其对语音数据的预处理至关重要,主要应用包括语音信号的降噪处理、语音信号压缩与重构以及幅度突变信号的检测等。
1)语音信号的降噪处理
降噪处理的基本过程可分为三个步骤:①一维信号的小波分解;②小波分解高频系数的阈值量化;③一维小波重构。
主要特点:①高频部分所影响的是小波分解的第一层细节;②低频部分所影响的是小波分解的最深层和最低频层;③高频系数的幅值随着分解层次的增加而迅速的衰减,且其方差也有同样的变化趋势。
2)语音信号压缩与重构
语音信号压缩与重构主要包括三个步骤:①信号的小波分解;②对高频系数进行阀值量化处理;③对量化后的系数进行小波重构。
3)幅度突变信号的检测
小波分析能够检测信号幅值变化的准确时间,能够准确地将正弦信号幅度发生跳变的时间点检测出来。
(3)典型技术解决方案
1)利用Matlab消噪
①用ddencmp生成信号的默认阀值,后利用wdencmp进行消噪;②用 wthresh函数进行给定阀值量化处理,比默认阀值可信度高;③小波分解结构中的高频系数全部置 0,强制消噪处理。
图2 传统的语音去噪流程方法
传统的语音去噪流程直接对语音信号进行阈值处理,信号的高频部分置0,造成去噪后信号的失真等问题。
利用Matlab消噪,是在传统语音信号去噪技术的基础上,通过改进算法和阈值函数来实现的,即先进行清浊音分离,后用不同阈值进行处理。
➢ 改进算法
①语音信号的清浊音分离(清浊音判定方法:清音在较高的频率段上能量比较强,而浊音的能量主要分布在较低的频率上);②对清音段和浊音段分别进行不同的阈值处理;③离散小波反变换,获得去噪后的语音信号。
图3 语音信号改进算法
➢ 改进阈值函数
常用的几种阈值函数主要有:硬阈值函数、软阈值函数、折中阈值函数和μ律阈值函数等。
这些阈值函数使用中的缺点:①硬阈值法,去噪效果不理想,重构产生振荡;②软阈值法,重构信号存在较大的失真;③前三种阈值函数,|X|≤T时都等于0,会导致去噪后的信号产生较大失真。
改进的阈值函数,即二次小波分解全局阈值函数,具有以下优点:①输入信噪比较低时:效果和折中阈值法差不多,克服了μ律阈值法去噪效果不佳的缺点;②输入信噪比较高时:其去噪效果和μ律阈值法差不多,相对折中阈值法而言输出信噪比有所改善。
图4 改进的二次小波分解全局阈值函数
➢ 采用改进算法进行去噪的具体流程
①首先对信号进行三层小波分解,三个高频系数和一个低频系数;
②其高频部分由噪声和信号两部分混合组成,对高频部分进行二次小波分解,得到二次分解后的6个高频系数和6个低频系数;
③此时对各高频部分分解后得到高频系数利用全局阈值进行去噪处理,得到处理后的3个高频部分;
④将处理后高频系数和第一次分解的低频系数再经过小波逆变换,得到去噪后的重构信号。
2)基于小波包分解的语音特征提取
该方法主要是利用小波树已分解出来的各级系数来提取某类目标的信号特征,具体操作步骤如下:
①首先对信号进行多尺度小波树分解,分别提取从低频到高频的各个频段成分的信号特征;
②对小波树的各级分解系数重构,提取各频带范围内的信号;
③求各频带信号的总能量;
④构造特征向量。
该种方法可以使语音信号特征在不同分辨率的不同子空间中显示出来,得到的各个频带内的能量信号比原始信号有更好的类别可分性。
5 语音识别小波分析技术的发展方向
上文主要介绍了国内外主流的语音识别小波分析技术及其技术路线。可以看出,目前国内小波分析技术有了较大进步,主要是通过对算法和函数的局部改进,有效弥补了传统语音去噪技术的诸多不足,具有一定的技术推动作用。
随着神经网络技术的不断发展,未来语音识别小波分析技术将会呈现与神经网络相结合的发展趋势,目前比较看好的是小波混沌神经网络技术(wavelet chaotic neural network,wcnn)。该技术将小波分析作为神经网络的前置处理,为神经网络隐含层提供输入特征向量,然后再提供给混沌神经元部分进行识别,具有响应速度快、识别精度高等优点,是未来小波分析在语音识别领域的技术发展趋势之一。
6 语音识别小波分析技术的应用前景分析
现阶段,语音识别正在人们日常工作和生活的各个方面愈加广泛应用。但由于语音环境的高度复杂性,现有语音识别系统无一例外在噪声环境下遭遇识别盲区,为语音产品的大规模推广应用制造了障碍。
因此,语音数据预处理环节的去噪技术研究,对语音识别技术的发展具有十分重要的理论和现实意义。而小波分析技术的应用则为去噪技术提供了新的解决思路,未来若能与神经网络技术相结合,实现优势互补,必将极大推动语音识别技术的快速发展,为促进语音产品早日实现产业化奠定基础。
[1]袁莉芬等,一种改进型的小波变换语音去噪算法,《现代电子技术》,2009年第18期.
[2]马道钧、刘然,小波变换在语音识别中的应用研究,北京,北京电子科技学院学报,2007.
[3]李从清等,小波变换的语音去噪方法,《计算机工程与应用》2009,45(36).
[4]王旭等,基于小波混沌神经网络的语音识别,《计算机应用研究》,2008.7-25卷-7期.