低信噪比环境下语音识别的鲁棒性方法研究

2020-01-19刘伟波曾庆宁罗瀛郑展恒

声学技术 2019年6期

刘伟波，曾庆宁，罗瀛，郑展恒

低信噪比环境下语音识别的鲁棒性方法研究

刘伟波，曾庆宁，罗瀛，郑展恒

(桂林电子科技大学信息与通信学院，广西桂林 541004)

针对噪声环境下语音识别率急剧下降的问题，提出了一种基于语音时频域稀疏性原理的改进最小方差无畸变响应波束形成与改进维纳滤波结合的算法。该算法首先利用麦克风阵列语音信号的空间信息，通过基于时频掩蔽的改进最小方差无畸变响应波束形成器，增强目标声源方向的语音信号，抑制其他方向噪声的干扰，然后再使用改进的维纳滤波器去除残留噪声并提高语音可懂度，对增强后的语音信号提取梅尔频率倒谱系数作为特征参数，使用隐马尔可夫模型搭建语音识别系统。实验结果表明，该方法能够有效提高低信噪比环境下的语音识别率，具有较好的鲁棒性。

时频掩蔽；最小方差无畸变响应；改进维纳滤波；语音识别

0 引言

语音识别技术是模式识别的一个分支，主要目的是让机器理解人类口述语言的内容，从而进行人机交互，涉及到包括信号处理、模式识别、发声和听觉机理在内的多个领域。近年来，语音识别技术取得了显著的进步，逐步从理论研究走向市场应用，广泛应用于工业、家庭服务、医疗等各个领域[1]。

目前应用较为广泛的语音识别方法主要有动态时间规整(Dynamic Time Warping, DTW)、隐马尔可夫模型(Hidden Markov Model, HMM)和深度神经网络(Deep Neural Network, DNN)等[2]。在这些识别系统中，一般是使用理想环境下采集的纯净语音训练模型，应用在现实生活的实际场景中。但是在实际场景下，人的语音不可避免地受到周围环境噪声或干扰的影响，导致语音识别率急剧下降。近年来，如何提高噪声环境下语音的识别率是现阶段研究人员关注的焦点问题。为解决噪声干扰问题、提高语音可懂度和语音识别率，研究人员提出了多种方法，如谱减法、基于维纳滤波(Wiener Filter, WF)的方法、子空间分解法等[3]。这些算法虽然在一定程度上能够有效去除噪声，但同时也不同程度地产生语音畸变，导致增强后语音的识别率并没有得到明显的改善，而多通道麦克风阵列算法与单通道语音增强算法相比，能更好地提取目标方向语音的方位信息并抑制干扰，进而提高语音信号的可懂度。较为常见的多通道处理方法有固定波束形成，广义旁瓣抵消(Generalized Sidelobe Canceller, GSC)，相干滤波(Coherence Filter, CF)等。曾庆宁等[4]提出了基于子带谱减与广义旁瓣抵消的算法，该算法提高了语音通信系统在噪声环境下的性能。ZHANG等[5]提出了一种基于深度神经网络的麦克风阵列降噪算法，有效地提高了真实噪声环境下的语音识别率。方义等[6]提出了一种抑制方向性噪声的双耳近场语音增强算法，该算法利用双耳时间差和声级差，在有效去除噪声、提高语音可懂度的同时，保留了目标语音的空间信息。

为进一步提高噪声环境下语音识别系统的识别率，本文使用声学人工头采集四通道麦克风阵列的语音信号。首先利用基于时频掩蔽的改进最小方差无畸变响应(Time Frequency Masking Minimum Variance Distortionless Response, TFMVDR)波束形成器增强目标声源方向的语音信号，抑制其它方向的干扰。然后再通过改进维纳滤波(Modify Wiener Filter, MWF)，去除波束形成后的噪声残留并提高语音的可懂度，实验结果表明，本文提出的TFMVDR- MWF算法对低信噪比环境下的语音，能够有效提高其可懂度，并且能够提升噪声环境下的语音识别率。

1 基于时频掩蔽的MVDR波束形成器

MVDR波束形成器是由Capon首先提出的一种自适应麦克风阵列波束形成器，是典型的约束最佳波束形成技术[7]。该波束形成器的原理是依据一定的优化准则，使目标声源信号在一定的约束条件下无失真地输出，以达到使输出噪声方差最小，能够有效抑制噪声和降低干扰的目的。

时频掩蔽作为一种新的对混合信号进行盲源分离的算法而受到广泛关注，主要应用在语音增强、语音分离等领域。其利用语音信号在时频域的近似稀疏性原理[8]，可以直接将语音时频分量分解成各个源信号，在每个时频点的混合信号可看做单个源信号的混合，即在每个时频点至多有一个活跃的源信号。在短时傅立叶变换域，含噪语音信号可以看做是多个信号的混合，其中语音信号的能量要远大于其它噪声信号的能量。本文利用语音信号这种在时频域的稀疏性原理[9]，通过基于时频掩蔽的改进MVDR波束形成器增强目标声源方向的语音信号，能够有效抑制噪声干扰，其由三个部分组成，包括时频掩蔽估计、导向矢量估计与波束形成，如图1所示。

图1 基于时频掩蔽的MVDR波束形成器

1.1 波束形成

麦克风采集到的含噪麦克风阵列语音信号模型可表示为

1.2 时频掩蔽估计

考虑到语音信号在时频域的稀疏性，每个时频点的语音信号可以通过聚类方法分为两类[11]：一类是含噪语音信号，另一类是噪声信号，在这种假设情况下，阵元接收到的语音信号可以改写为

2 改进维纳滤波

式中，为修正系数，取值范围为(0,1)，本文中取=0.2。对于幅度谱畸变大于6.02 dB的语音畸变区域进行限制：

式中，为限制系数，取值范围为(0,1)，本文取0.8。对修正后的语音幅度谱进行逆傅里叶逆变换即得到最终增强后的语音[12]。

3 语音识别

本文采用基于高斯混合模型的隐马尔可夫模型进行语音识别系统的搭建，使用经TFMVDR- MWF算法增强后的语音提取梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)作为声学特征，通过Viterbi解码匹配最佳状态序列从而得到识别结果[1]。考虑本文实验使用的语音库的特点，采用适用于非特定人语音识别的连续混合密度隐马尔可夫模型(Continuous Mixture Densities Hidden Markov Model, CMHMM)训练语音模型。

3.1 梅尔频率倒谱系数(MFCC)

图2 MFCC参数提取过程

3.2 隐马尔可夫模型(Hidden Markov Model, HMM)

本文采用从左向右单向、带自环、带跨越的拓扑结构进行建模，该结构对于非特定人语音识别具有较好的识别效果。

4 实验与分析

本文中的实验数据在安静、开放的实验室环境下，使用KEMAR人工头设备以及M-Audio多路音频采集器采集。研究表明，模拟人体头部的双耳特征采用四元麦克风阵列结构，左右两边分别放置两个微型麦克风构成两个子阵列，能够充分利用其中既有距离较远又有距离很近的麦克风的特点，更好地提取目标声源信号的空间方位信息，抑制其他方向的噪声干扰[15]。本文采用左右各两个微型麦克风的四元麦克风阵列，每个子阵列中的两个微型麦克风的间距为2 cm，两个子阵的间距为16 cm，采集过程中，说话人位于双耳阵列结构中心线上正前方1～1.5 m处，噪声源位于除说话人方向外的任意方向[18]。本文实验数据共有24人参与录制，其中男18人，女6人，录制的语音数据的内容分别为：火灾、爆炸、抢劫、盗窃、中毒、溺水、晕倒、救命、危险、受伤、救护车、消防车，每条语句的长度在0.5～1.5 s之间，每人读取两遍，共576条语句[14]。抽取14人的语音作为训练样本训练语音模型，另外10人的语音作为测试集。噪声选用四种常见噪声，分别为white噪声、babble噪声、pink噪声和volvo噪声。语音与噪声采样频率为44.1 kHz，实验仿真时统一降采样至16 kHz，采样精度为16 bit，实验阶段采用Hamming窗，帧长为512点，帧移为256点。本文采用的特征参数为每帧包括12维梅尔频率倒谱系数及其一阶差分共24维的特征向量，模型采用包含4个状态，每个状态包含3个高斯概率密度函数的连续混合密度HMM模型。

4.1 实验一

为验证本文提出的TFMVDR-MWF算法对噪声环境下语音可懂度的提升效果，实验采用GSC、CF-MVDR、CF-MVDR-MWF[14]以及本文提出的TFMVDR- MWF算法对噪声的抑制效果进行对比实验。表1列出了一段语音在white噪声环境下且不同信噪比的主观语音质量评估(Perceptua Evaluation of Speech Quality, PESQ)得分[3](精确至小数点后两位)。

表1 white噪声环境下不同信噪比的PESQ得分

由表1可知，相比三种对比算法，本文提出的TFMVDR-MWF算法的PESQ值提升较为明显。这表明其能够有效去除噪声，提高语音的可懂度，尤其在低信噪比环境下表现良好，因此可应用于语音识别系统前端对语音进行去噪处理，进而提升语音识别的准确率。

图3、4分别为对测试的一段语音在加入white噪声且信噪比为0的环境下进行对比试验得到的语音信号增强后的时域仿真图与语谱图。可以看出，图3(c)中CF-MVDR算法与图3(d) 中GSC算法处理后依然有较多的噪声残留和毛刺产生，而图3(e)中CF-MVDR-MWF算法有轻微噪声残留，但是经人耳试听明显感觉语音畸变严重，这在实际场景中是难以接受的；由图3(f)可以看出，经TFMVDR- MWF处理后含噪语音中的噪声得到明显消除。由图4(f)语谱图可以看出经TFMVDR-MWF处理后语音的可懂度得到提升，有轻微畸变，但经多人主观试听，在人耳可以接受的范围内。经以上实验可知，本文提出的TFMVDR-MWF算法具有良好的去噪效果，特别在低信噪比环境下依然具有较高的鲁棒性，适合应用在实际场景下的语音识别任务中。

4.2 实验二

本文语音识别实验中，采用由两个子阵列构成的麦克风阵列，在安静的实验室环境下录制语音库，其中14人的语音(共336句)作为训练样本，使用连续HMM声学模型训练语音模型，实验中使用音库(共240句)中，含噪语音信号信噪比分别为-5、0、5、10、15 dB。在连续 HMM模型中，用概率密度函数来表示输出概率，一般选择用多个高斯概率分布的加权求和来表示输出概率密度函数，本文采用从左向右单向、带自环、带跨越的拓扑结构进行建模。

图3 信噪比为0时的white噪声环境下不同算法处理后的语音时域仿真图

图4 信噪比为0的white噪声环境下不同算法处理后语音语谱图

取自Noise-92库的white噪声、babble噪声、pink噪声与volvo噪声等四种噪声添加到待测试语为验证本文TFMVDR-MWF算法对噪声环境下语音识别的提升效果，采用3种算法做对比实验，分别为GSC、CF-MVDR、CF-MVDR-MWF。图5分别为在white噪声、babble噪声、pink噪声与volvo噪声环境下经4种算法增强后语音的识别率。通过图5的对比试验结果可知，GSC算法对低信噪比环境下语音识别率的提升效果并不明显，而CF-MVDR算法由于利用了麦克风阵列的方位信息，取得了优于GSC的效果；CF-MVDR-MWF算法相对于使用前两种算法的识别率有明显的提升，但是该算法的复杂度较高；本文的TFMVDR-MWF算法能够准确估计麦克风阵列语音信号的导向矢量，充分利用了麦克风阵列的方位信息，并对畸变较大的区域进行修正，取得了较好的降噪效果，提升了语音的可懂度。在-5 dB white噪声环境下的识别率提高到了60.3%，与CF-MVDR-MWF相比相对提升8.04%；在-5 dB pink噪声环境下经TFMVDR-MWF算法处理后语音的识别率提高到63.8%，与CF-MVDR-MWF相比相对提升了12.63%。实验表明，本文的TFMVDR-MWF算法取得了更好的效果，并且降低了算法复杂度。由于在实际场景中，white噪声和pink噪声的存在较为广泛，其频带较宽而对语音识别率的影响较大，因此本文算法具有较高的使用价值，可应用于家居型机器人、智能语音交互设备等方面。

图5 不同背景噪声环境下语音识别正确率

5 结论

为解决噪声环境下语音识别率低的问题，本文提出了一种基于时频掩蔽的改进最小方差无畸变响应波束形成与改进维纳滤波结合的算法。首先使用TFMVDR波束形成增强目标声源方向的语音信号，抑制其他方向的噪声干扰，然后通过MWF对畸变较大的区域进行修正，进一步提高语音的可懂度。经实验验证，该算法能够有效提高噪声环境下语音的可懂度，提升语音识别率，尤其在低信噪比环境下效果依然较为明显，说明本文算法具有良好的鲁棒性。

[1] 赵力. 语音信号处理[M]. 北京: 机械工业出版社, 2003.

ZHAO Li. Speech signal processing[M]. Beijing: Machinery Industry Press,2003.

[2] 王山海, 景新幸, 杨海燕. 基于深度学习神经网络的孤立词语音识别的研究[J]. 计算机应用研究, 2015, 32(8): 2289 -2291.

WANG Shanhai, JING Xinxing, YANG Haiyan. Study of isolated speech recognition based on deep learning neural network [J]. Application Research of Computers, 2015, 32(8): 2289-2291.

[3] LOIZOU P C. Speech enhancement: theory and practice[M]. Boca Raton: Crc Press, 2013.

[4] 曾庆宁, 肖强, 王瑶, 等. 一种双微阵列语音增强方法[J]. 电子与信息学报, 2018, 40(5): 1187-1194.

ZENG Qingning, XIAO Qiang, WANG Yao, et al. A dual micro-array speech enhancement method[J]. Journal of Electronics & Information Technology, 2018, 40(5): 1187 -1194.

[5] ZHANG X L, WANG Z Q, WANG D L . A speech enhancement algorithm by iterating single- and multi-microphone processing and its application to robust ASR[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2017: 276-280.

[6] 方义, 冯海泓, 陈友元, 等. 一种抑制方向性噪声的双耳语音增强算法[J]. 声学学报, 2016, 41(6): 897-904.

FANG Yi, FENG Haihong, CHEN Youyuan, et al. A binaural speech enhancement algorithm that suppresses the directional noise[J]. Acta Acustica, 2016, 41(6): 897-904.

[7] CAPON J, GREENFIELD R J, KOLKER R J. Multidimensional maximum-like lihood processing of a large aperture seismic array. Proc. IEEE, 1967, 55(2): 192-211.

[8] 刘瑾. 基于盲源分离的语音增强方法研究[D]. 大连: 大连理工大学, 2006.

LIU Jin. Study on blind source separation based speech enhancement methods[D]. Dalian: Dalian University of Technology, 2006.

[9] PENGCHENG M U, DAN L I, YIN Q Y, et al. Robust MVDR beamforming based on covariance matrix reconstruction[J]. Science China(Information Sciences), 2013, 56(4): 1-12.

[10] GOUDA A M, TAMAZIN M, KHEDR M. Robust automatic speech recognition system based on using adaptive time-frequency masking[C]//International Conference on Computer Engineering & Systems IEEE, 2017: 181-186.

[11] HIGUCHI T, ITO N, ARAKI S, et al. Online MVDR beamformer based on complex gaussian mixture model with spatial prior for noise robust ASR[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2017, 25(4): 780-793.

[12] 郭利华, 马建芬. 具有高可懂度的改进的维纳滤波的语音增强算法[J]. 计算机应用与软件, 2014, 31(11): 155- 157.

GUO Lihua, MA Jianfen. An improved wiener filtering speech enhancement algorithm with high intelligibility[J]. Computer Applications and Software, 2014, 31(11): 155-157.

[13] 王瑶, 曾庆宁, 龙超, 等. 低信噪比环境下语音端点检测改进方法[J]. 声学技术, 2018, 37(5): 55-65.

WANG Yao,ZENG Qingning, LONG Chao, et al. An improved speech endpoint detection method with low SNR[J]. Technical Acoustics, 2018, 37(5): 55-65.

[14] 王群, 曾庆宁, 郑展恒. 低信噪比环境下的麦克风阵列语音识别算法研究[J]. 科学技术与工程, 2017, 17(31): 101-107.

WANG Qun, ZENG Qingning, ZHENG Zhanheng. Speech recognition based on microphone array in low SNR[J]. Science Technology and Engineering, 2017, 17(31): 101-107.

[15] 宋知用. MATLAB在语音信号分析与合成中的应用[M]. 北京: 北京航空航天大学出版社, 2013.

SONG Zhiyong. Application of MATLAB in speech signal analysis and synthesis[M]. Beijing: Beihang University Press, 2013.

[16] HIGUCHI T, ITO N, YOSHIOKA T, et al. Robust MVDR beamforming using time-frequency masks for online /offline ASR in noise[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2016: 5210-5214.

[17] 程小伟, 王健, 曾庆宁, 等. 噪声环境下稳健的说话人识别特征研究[J]. 声学技术, 2017, 36(5): 83-87.

CHENG Xiaowei, WANG Jian, ZENG Qingning, et al. A study of robust speaker recognition feature under noisy environment[J], Technical Acoustics, 2017, 36(5): 83-87.

[18] 毛维, 曾庆宁, 龙超. 双微阵列语音增强算法在说话人识别中的应用[J]. 声学技术, 2018, 37(3): 55-62.

MAO Wei, ZENG Qingning, LONG Chao. Application of dual-mini microphone array speech enhancment algorithm in speaker recognition[J]. Technical Acoustics, 2018, 37(3): 55-62.

Research on the robustness method of speech recognition in low SNR environment

LIU Wei-bo, ZENG Qing-ning, LUO Ying, ZHENG Zhan-heng

(School of Information and Communication, Guilin University of Electronic Technology, Guilin 541004, Guangxi, China)

Aiming at the sharp drop problem of speech recognition rate under noisy environment, an algorithm combining the improved minimum variance distortionless response beamforming and the improved Wiener filter based on time-frequency sparsity of speech is proposed in this paper. The algorithm first utilizes the spatial information of the microphone array speech signals to enhance the speech signal in the target sound source direction and to suppress the noise interference from other directions by the improved minimum variance distortionless response beamformer based on time-frequency masking, then uses an improved Wiener filter to remove residual noise and improve speech intelligibility. The mel-frequency cepstrum coefficients are extracted from the enhanced signal as characteristic parameters to build a speech recognition system of hidden Markov model. The experimental results show that the method proposed in this paper can effectively improve the speech recognition rate under low SNR environment and has strong robustness.

time-frequency masking; minimum variance distortionless response; modify wiener filter; speech recognition

TN912.34

1000-3630(2019)-06-0650-07

10.16300/j.cnki.1000-3630.2019.06.009

2018-05-16;

2018-07-18

国家自然科学基金项目(61461011)、“认知无线电与信息处理”教育部重点实验室2016年主任基金(CRKL160107)、广西自然科学重点基金(2016GXNSFDA380018)、桂林电子科技大学研究生科研创新项目(2017YJCX16、2017YJCX20)。

刘伟波(1991－), 男, 河南商丘人, 硕士研究生, 研究方向为语音信号处理。

刘伟波,E-mail: wbl1975420119@yeah.net