改进的小波变换HMM语音识别算法*

2011-12-17洪淑月施晓钟

浙江师范大学学报（自然科学版） 2011年4期

洪淑月，施晓钟，徐皓

(1．浙江师范大学数理与信息工程学院，浙江金华 321004;2．浙江师范大学行知学院，浙江金华321004)

0 引言

语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连［1］．随着人们对语音识别认识的深入，人们对语音识别也提出了越来越高的要求．小波分析作为一种强有力的信号分析工具，近年来被广泛地应用于图像处理和语音处理中，它是时间和频率的局部变换，能有效地从信号中提取信息．通过小波变换，在信号的高频域部分，可以取得较好的时间分辨率;在信号的低频域部分，可以取得较好的频率分辨率，这种特性使得小波特别适合于语音信号处理［2］．隐马尔可夫模型(Hidden Markov Models:HMM)，作为语音信号的一种统计模型，目前正在语音处理各个领域中获得广泛的应用［3-4］．语音识别系统的识别率十分依赖基于HMM模型的训练技术，然而经典的训练算法(Baum-Welch算法)有一个致命的缺陷，即所得最终解依赖于初始值的选取，故只得局部最优解，影响了系统的最终识别率，尤其高噪声环境下语音识别进展困难，必须寻找新的信号分析处理方法［5-6］．本文改进思路，将进化算法寻找最优B初值与Baum-Welch算法相结合来训练HMM模型，使得整个语音识别系统的识别率大大提升．

1 小波去噪的原理

在实际运用中，去除语音信号中的背景噪声显得尤为重要．小波变换是时间和频率的局域变换，能够有效地从信号中提取信息．它不但可以检测到低信噪比信号中的边缘信号，而且可以滤去噪声从而恢复原信号．小波变换的语音降噪原理如下，令观察信号为

W是正交阵，且Q=σ2uI，所以P=σ2uI．因此，可得到一个重要的结论:平稳白噪声的正交小波变换仍然是平稳的白噪声［7］．

由该结论可知，对于如同式(1)的加噪声模型，经正交小波变换后，最大程度地去除了s(n)的相关性，其能量将集中在少数小波系数上．小波变换具有一种“集中”的能力，能使信号和噪声在不同尺度上所表现出的特征不同，对于信号函数，随着尺度的增大，小波变换系数也增大;对于噪声，其小波变换系数随着尺度的增大而减小．选择一个合适的阈值对小波系数进行阈值处理，就可以达到滤除噪声而保留有用信号的目的．

2 HMM的改进

2．1HMM 模型

HMM模型作为语音信号的一种统计模型，今天正在语音处理各个领域中获得广泛的应用．语音识别系统的原理图1所示［8］．

HMM过程是一个双重随机过程:一重用于描述非平稳信号的短时平稳段的统计特征(信号的瞬态特征);另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段，即短时统计特征的动态特性(隐含在观察序列中)．人的言语过程本质上也是一个双重随机过程，语音信号本身是一个可观测的时变序列．可见，HMM合理地模仿了这一过程，是一种较为理想的语音信号模征参量．HMM模型通常表示成

2．2HMM的3个基本问题

图1 HMM语音识别系统

这3个问题目前都已解决，通常情形下评估问题使用“前向-后向”算法解决，解码问题使用Viterbi算法解决，训练问题使用Baum-Welch算法解决［9］．

2．3 利用遗传算法改进HMM

语音识别系统的识别率十分依赖基于HMM模型的训练技术，经典的训练算法(Baum-Welch算法)有一个致命的缺陷，即所得最终解依赖于初始值的选取，故往往只得局部最优解，影响了系统的最终识别率．改进思路是将遗传算法寻找最优B初值与Baum-Welch算法相结合来训练HMM模型，使得整个语音识别系统的识别率大大提升．

进化Baum-Welch算法的设计如下:

因此，A中只需5个参数形成染色体的一部分，即

所以在遗传操作后还需对B部分作归一化操作．

2)适应函数．遗传算法中，适应函数作为区分个体优劣的标准，需保证优秀个体的适应度比差的个体的适应度高．这里个体的适应度用各个训练样本的对数似然概率表示，即

式(3)中:O(k)表示用于训练模型的第k个观测序列;P(O(k)|λ)由Viterbi算法求出．

3)选择策略．文中采用了基于排名的非线性选择．在每一代中，将群体成员按适应值从高到低依次排列，按照排名分配选择概率，适应值高的个体选择概率也就相应地高．

4)遗传算子和控制参数．遗传算子包含杂交算子和变异算子，它直接影响到算法的最终解．杂交算子相当于一个局部搜索操作，它产生父代附近的2个子代，而变异算子则使得个体能够跳出当前的局部搜索区域，两者的结合正好体现了进化算法的精髓所在．实验中采用了3个单点杂交，一点对应一个状态．在个体中A部分随机取一点，将2个父体该点的对应值互换;再对每一状态在B的两部分中个体随机选取一个点，将2个父体该点后的分量进行互换，这样就完成了杂交的操作．变异算子采用均匀性变异．实验中种群大小取40，杂交概率取0．7，变异概率取0．001．

5)终止策略．常用的终止准则是预先设置最大进化的代数或预先设置一个适应值改善的门限值．对于前一种准则，在进化代数到达预置值时进化终止．后一种情况下，在适应值改善低于该门限值时进化停止．本系统取最大进化代数为100．

3 改进型系统设计

基于小波变换和改进型HMM的系统设计模型如图2所示．

改进后的系统在预处理之后加入小波变换，可以对瞬间突变的语音信号进行检测与分析，有效降低原始语音信号中的噪声．小波降噪后进行端点检测，之后对语音信号进行特征参数提取MFCC，然后进行矢量量化和编码，再将编码得到的码本使用改进后的算法训练HMM，最后得到输出结果．

图2 改进型系统设计框图

4 实验结果分析

实验基于HMM对人体语音识别系统进行．训练数据取自10人，在不同SNR(高斯白噪声)下，词汇量分别为10，20，30，40，50个，共600个实验样本，其中300个样本用于训练，另外300个用于检测实验结果．时间长度为5～10 s，采样频率为8 kHz，A/D转换精度为16 bit，并采用单声道语音进行识别测试．实验结果如表1所示．

表1 4种系统的识别率比较

表1中，系统Ⅰ为基于HMM的语音识别系统;系统Ⅱ为基于小波变换和HMM的语音识别系统;系统Ⅲ为基于改进HMM的语音识别系统;系统Ⅳ为基于小波变换和改进HMM的语音识别系统．因此，可得到以下一些结论:

1)在高噪声环境下，小波降噪对语音系统识别率可提升5% ～7%．随着语音质量(信噪比)的提高，小波降噪对识别率的改善越来越小，当信噪比大于35 dB时，小波降噪系统识别率的改善并不明显．图3是利用表1中的实验数据(词汇量为20)制成的小波降噪的识别率比较图．

图3 小波变换对系统影响比较

图4 系统受词汇量影响比较

2)基于遗传算法的改进HMM模型对系统语音识别率有较大改善，平均提高了4个百分点，且由图4可以看出改进后的系统识别率受词汇量大小影响不大．

3)改进后的语音识别系统，即系统Ⅳ在实验中表现最优，各种环境下其识别率都是最高的，基本达到了理论预期结果．

5 结语

提出一种语音识别系统的改进方法，通过小波变换和遗传算法对传统语音识别方法作了一定改进．改进后的语音识别算法性能提升明显，尤其是在恶劣噪声环境下，该算法基本达到了设计目的和现实要求．所提出的方法综合性能优于单独应用HMM模型和小波变换与HMM模型结合的语音识别方法．

［1］刘么和．语音识别与控制应用技术［M］．北京:科学出版社，2008:1-35．

［2］Zhou Dexiang，Wang Xianrong．The improvement of HMM algorithm using wavelet dek-noising in speech recognition［C］//2010 3rd International Conference on Advanced Computer Theory and Engineering(Ⅳ)，Chengdu:Int Assoc Comput Sci Inf Technol，2010:4438-4441 ．

［3］García-Moral A I，Solera-Ureña R，Peláez-Moreno C．Data balancing for efficient training of hybrid ANN/HMM automatic speech recognition system［J］．IEEE Transactions on Audio，Speech and Language Processing，2011，19:468-481．

［4］Terashima R，Yoshimura T，Wakita T．Prediction method of speech recognition performance based on HMM-based speech synthesis technique［J］．IEEJ Transactions on Electronics，Information and Systems，2010，130:557-564．

［5］Borgstrom B J，Alwan A．HMM-based reconstruction of unreliable spectrographic data for noise robust speech recognition［J］．IEEE Transactions on Audio:Speech and Language Processing，2010，18:1612-1623．

［6］Hahm S J，Ohkawa Y I．Speech recognition under multiple noise environment based on multi-mixture HMM and weight optimization by the aspect model［J］．IEICE Transactions on Information and Systems，2010，93(9):2407-2416．

［7］胡广书．现代信号处理教程［M］．北京:清华大学出版社，2004:397-398．

［8］Rabiner L R，Juang B H．Fundamentals of Speech Recognition［M］．New Jersey:Prentice-Hall，1999:321-370．

［9］吴朝晖，杨莹春著．说话人识别模型与方法［M］．北京:清华大学出版社，2009:21-76．