一种改进的孤立词语音识别系统设计

2016-07-01吴进，张青

西安邮电大学学报 2016年1期

关键词：维纳滤波语音识别特征提取

吴　进，张　青

(西安邮电大学电子工程学院, 陕西西安 710121)

一种改进的孤立词语音识别系统设计

吴进，张青

(西安邮电大学电子工程学院, 陕西西安 710121)

摘要:针对孤立词语音识别系统设计一个改进的系统。该系统通过维纳滤波滤除噪声得到估计语音，对该语音进行双门限端点检测和特征提取得到端点范围内的特征向量，采用改进动态时间规划算法计算该特征向量与模板特征向量之间的欧式距离得到识别结果。仿真对比实验结果表明，改进系统在识别效果和识别效率方面有提高。

关键词:语音识别；双门限端点检测；特征提取；维纳滤波；改进的动态时间规划

语音识别技术把人类语言转化为机器可读语言[1]，应用于移动通信，工业控制及医疗等领域。

语音信号在传输过程中会受到来自外界环境和通讯设备内部噪声的干扰，很多场合需要对语音信号减噪，提高语音质量,达到好的识别效果。目前，减噪的方法有小波和子空间[2]、子带能量规整的感知线性预测系数[3]、多频带谱减法[4]、最小均方误差估计[5]、维纳滤波[6]，以及卡尔曼滤波[7]等，这些方法均可以提高语音识别系统的噪声鲁棒性，但系统存在计算量大，复杂度高等问题。

本文设计一个改进孤立词语音识别系统。拟采用维纳滤波提高系统识别效果，利用改进的动态时间规划算法(Dynamic Time Warping，DTW)降低复杂度和运算量。

1基本原理

1.1维纳滤波原理

维纳滤波器是一种线性滤波器。输入带噪语音

y(n)=s(n)+d(n)(n=0,1,2,…,N)。

其中s(n)为纯语音，d(n)为噪声,经过系统函数为h(n)的维纳滤波，输出估计语音[8]

(1)

根据正交性原理，系统函数h(n)对每个m满足[8]

(2)

将式(1)代入式(2)，并取傅里叶变换，可以得到维纳滤波器的谱估计器[8]

(3)

式中Py(k)为y(n)的功率谱密度；Psy(k)为s(n)和y(n)的互功率谱密度。因信号和噪声互不相关，则有

Py(k)=Ps(k)+Pd(k)。

(4)

式中Ps(k)为语音功率谱密度，Pd(k)为噪声功率谱密度，将式(4)代入式(3)可得

(5)

对式(1)进行傅里叶变换得到估计信号的频域表达式

(6)

1.2双门限端点检测及特征提取

1.2.1双门限端点检测

(7)

第i帧语音的短时过零率为

(8)

通过短时能量和短时过零率的取值设置门限，判决语音信号的起始端点。

1.2.2特征提取

梅尔倒谱系数[10](Mel-scale Frequency Cepstral Coefficients，MFCC)特征提取原理如图1所示。

图1　MFCC特征提取原理

MFCC特征提取步骤描述如下。

步骤1对滤波后的信号做预处理与离散傅里叶变换。

设语音信号的离散傅里叶变换为

其中输入语音信号为x(n)，傅里叶变换次数为N。

步骤2计算功率谱，并用三角滤波器组对功率谱进行带通滤波。

步骤3计算滤波器组输出的对数能量

式中Hm(k)为三角滤波器的频率响应，m为三角滤波器的个数。

步骤4对数功率谱经离散余弦变换[10]得MFCC系数。

1.3DTW算法及其改进

动态规划算法[11]是在网格中找到一条经过若干格点的路径。路径通过的格点，需计算帧的匹配距离。路径从(1,1)开始到(N,M)结束，其原理如图2所示。

图2　DTW算法原理

DTW算法运算量大，采用改进的DTW算法[12]不必全部保存帧匹配距离矩阵和累计距离矩阵，只需计算平行四边形之内格点对应帧的匹配距离即可，其原理如图3所示。

图3　改进的DTW原理

X轴上的各个帧无需与Y轴上的各个帧进行匹配，只需匹配与Y轴相邻的部分帧，累计距离为

D(x,y)=d(x,y)+min[D(x-1,y),

D(x-1,y-1),D(x-1,y-2)]，

由X轴上后一列用到前一列的累计距离，故整个距离矩阵由矢量D和d分别保存。

2改进系统设计

改进系统与基于维纳滤波的孤立词识别系统的区别在于应用改进的DTW算法，而与卡尔曼滤波的区别在于应用维纳滤波和改进的DTW算法。其原理如图4所示。

图4　改进系统原理

改进系统关键步骤如下。

步骤1带噪语音信号y(n)傅里叶变换到频域。

步骤2利用最小均方误差准则使均方误差ε最小，结合式(1)与式(2)以及纯净语音和噪声互不相关，可以得到维纳滤波估计器的系统函数式(5)。

步骤4计算短时能量式(7)和短时过零率式(8)，并根据其值设置门限，进行双门限端点检测得到语音信号的起始端点。

步骤5利用梅尔倒谱系数提取特征向量，并截取起始端点范围内特征向量。

步骤6利用改进的DTW计算参考模板与测试模板特征向量间的累计距离，得到孤立词0～9的识别结果。

3仿真实验与结果分析

实验中所用语音文件均是在安静的环境下录制，噪声文件取自Noisex数据库中的高斯白噪声，并在Matlab R2011b平台上实现。先将基于维纳滤波的孤立词语音识别系统与基于卡尔曼滤波的孤立词语音识别系统进行识别效果对比，然后将基于维纳滤波的孤立词语音识别系统和改进的系统进行识别效率对比。

3.1识别效果对比

选取DTW模式匹配过程中的欧式距离作为对比参数，对比基于维纳滤波的孤立词语音识别系统与基于卡尔曼滤波的孤立词语音识别系统的识别效果，结果如表1、表2和图5所示。其中表1为基于卡尔曼滤波系统测试语音与模板语音之间的欧式距离，表2为基于维纳滤波系统测试语音与模板语音之间的欧式距离，图5为两种系统欧式距离对比折线图(注:表1和表2的横向代表模板语音0～9，纵向代表测试语音0～9，中间数据为识别过程中两个模板间的欧式距离)。

表1 基于卡尔曼滤波系统测试语音与模板语音的欧式距离

表2　基于维纳滤波系统测试语音与模板语音欧式距离

图5　基于维纳滤波与卡尔曼滤波识别的欧式距离

对比表1和表2可以看出，表1中对孤立词0和3的识别，其匹配距离不是所在行列中最小的，表2中孤立词0～9的匹配距离小于其所在的行列，故基于卡尔曼的系统识别效果相对不好，而基于维纳滤波的系统识别效果好。由图5可见，采用维纳滤波的孤立词语音识别系统的识别效果较好，系统具有鲁棒性。

3.2识别效率对比

选取DTW模式匹配过程中的欧式距离作为对比参数，对比改进系统与基于维纳滤波的孤立词语音识别系统的识别效率，结果如表2、表3和图6所示。其中表3为改进系统测试语音与模板语音之间的欧式距离，图6为两种系统欧式距离对比折线图(注:表3的横向代表模板语音0～9，纵向代表测试语音0～9，中间数据为识别过程中两个模板间的欧式距离) 。

表3　改进系统测试语音与模板语音欧式距离

图6改进系统与基于维纳滤波系统欧式距离

对比表2和表3可以看出，表3中对孤立词0与3的识别，其匹配距离不是所在行列中最小的，说明改进系统在识别效果方面较好，系统具有噪声鲁棒性。对比图5和图6可以看出，欧式距离最小的是改进系统，说明改进系统降低了运算量及复杂度，提高了系统识别效率。

4结束语

设计了一种改进的孤立词语音识别系统，实现了系统的噪声鲁棒性，且提高了系统识别效率。通过仿真实验对比基于卡尔曼滤波的孤立词语音识别系统，基于维纳滤波的孤立词语音识别系统与改进系统，结果表明，改进系统在噪声鲁棒性和系统性能方面有提高。

参考文献

[1] 李晓霞，王东木，李雪耀.语音识别技术评述[J].计算机应用研究，1999，10(1)：1-3.

[2] 吴昊，鲁周迅.Symlets小波和子空间联合增强下的语音识别[J].计算机工程与应用，2011，47(5)：141-145.

[3] 蔡尚，金鑫，高圣翔，等.用于噪声鲁棒性语音识别的子带能量规整感知线性预测系数[J].声学学报，2012，37(6)：668-672.

[4] 万义龙，张天琪，王志朝，等.基于多频带谱减法的抗噪声语音识别研究[J].电视技术，2013,37(23):183-187.

[5] 容强，肖汉.基于MMSE维纳滤波语音增强方法研究与matlab实现[J].计算机应用与软件，2015，32(1)：153-156.

[6] 白文雅，黄建群，陈智怜.基于维纳滤波语音增强算法的改进实现[J].语音技术，2007，31(1)： 44-46,50.

[7]SUMITHRA M G., RAMYA M S, THANUSKODI K. Noise Robust Isolated Word Recognition[C]//International Conference on Communication and Computational intelligence, Erode:IEEE, 2010:362-367.

[8] 宋知用.MATLAB在语音信号分析与合成中的应用[M].北京：北京航空航天大学出版社，2013:195-197.

[9] 韦国刚，周萍，杨青.一种简单的噪声鲁棒性语音端点检测方法[J].测控技术，2015，34(2)：31-34.

[10]俸云，景新幸，叶懋.MFCC特征改进算法在语音识别中的应用[J].计算机工程与科学，2009，31(12)：146-148.

[11]朱淑琴，赵瑛.DTW语音识别算法研究与分析[J].微计算机信息，2012，8(5)：150-151,163.

[12]胡金平，陈若珠，李战明.语音识别中DTW改进算法的研究[J].微型机与应用，2011，30(3)：30-32.

[13]VIKRAMJIT M,HOSUNG N,ESPY-WILSONil C Y, et al. Articulatory Information for Noise Robust Speech Recognition[J]. IEEE Transactions on Audio, Speech & Language Processing-TASLP, 2011, 19(7):1913-1924. DOI: 10.1109/TASL.2010.2103058.

[14]FARDKHALEGHI P, SAVOJI M H. New approaches to speech enhancement using phase correction in Wiener filtering [C]//2010 5th International Symposium on Telecommunications(IST),Tehran:IEEE, 2010:895-899.DOI:10.1109/ISTEL.2010.5734149.

[15]IBRAHIM A, MILNER B.Visually Derived Wiener Filters for Speech Enhancement[J].IEEE Transactions on Audio, Speech & Language Processing-TASLP, 2011, 19(6):1642-1651. DOI: 10.1109/TAS L.2010.2096212.

[16]SHARON G, COHER I. Speech Enhancement Based on the General Transfer Function GCS and Postfiltering [J].IEEE transaction on speech and audio processing-IEEE SAP, 2004, 12(6):561-571. DOI: 10.1109/ T SA .2004.834599.

[责任编辑：祝剑]

The design of an improved isolated word speech recognition system

WU Jin,ZHANG Qing

(School of Electrical Engineering，Xi’an University of Posts and Telecommunications，Xi’an 710121，China)

Abstract:An improved system is proposed for the isolated word speech recognition system. In this improved system, wiener filtering is used to filter out noise effectively and to obtain estimation of speech. Double threshold endpoint detection and feature extraction are carried out on the speech to obtain feature vector within the scope of the endpoint. Recognition results can then be got by using the improved dynamic time programming algorithm to calculate the Euclidean distance between the vector and template feature vector. Simulation experiments show that the improved system is better in terms of recognition effect and the recognition efficiency.

Keywords:speech recognition, double threshold endpoint detection, feature extraction, wiener filtering, modified dynamic time programming

doi:10.13682/j.issn.2095-6533.2016.01.015

收稿日期：2015-08-14

基金项目：国家自然科学基金资助项目(61272120)

作者简介：吴进(1975-)，女，教授，从事信号与信息处理方向的研究。E-mil:huatao2000@126.com 张青(1990-)，女，硕士，研究方向为电路与系统。E-mil:984676981@qq.com

中图分类号：TP391

文献标识码：A

文章编号：2095-6533(2016)01-0076-05