联合相位谱补偿的改进型谱减法语音增强
2022-05-30刘龙威夏秀渝
刘龙威 夏秀渝
摘要:为了改善谱减法存在的“音乐噪声”残余大,重构语音时使用带噪相位的缺陷,提出了一种联合相位谱补偿的改进型谱减法语音增强算法。引入改进型噪声估计方法来得到更准确的噪声谱,依据带噪语音谱与估计的噪声谱的信噪比构造一个线性函数来调整过减因子进行谱减,通过相位补偿函数对带噪语音的相位谱进行补偿,将谱减后的语音幅度谱与补偿后的相位谱进行结合,通过IFFT及重构得到去噪语音。仿真实验表明,在使用联合相位谱补偿的改进型谱减法对带噪语音进行处理后,语谱图更加清晰,PESQ及STOI评分也有所提高。
关键词:噪声估计;相位谱补偿;谱减法;语音增强
中图分类号:TP391.4文献标志码:A文章编号:1008-1739(2022)13-69-5
0引言
由于各种各样的环境因素和信道因素影响,以及各种干扰的存在,在语音的传递过程中总是难以避免地掺杂噪声,使语音质量受到损失。语音增强算法的主要目的是去除语音信号中掺杂的噪声,最大程度地提取出原始語音信号。经过研究人员多年的研究,已有多种语音增强算法被相继提出,其中基于谱减法的语音增强算法由于算法框架简单、易于处理且效果明显,得到了广泛研究与应用[1]。但是由于传统谱减法对噪声谱的估计不准,需要采用半波整流来进行优化,进而会使语音频谱的随机频率位置出现小的独立峰值,变换在时域中会形成大量的“音乐噪声”[2],并且和大多数语音增强算法一样,传统谱减法也认为人耳对相位信息的敏感度不高,因此只关注幅度谱的修正,相位谱仍采用带噪语音相位。近些年,越来越多的科学研究表明,语音的相位信息有利于提升语音可懂度[3],因此本文针对谱减法存在的“音乐噪声”残留多以及使用带噪相位的问题,提出联合相位谱补偿的改进型谱减法,使用本文提出的改进型噪声估计方法与谱减方法来减少“音乐噪声”,并联合相位谱补偿方法一定程度上恢复纯净语音相位,最后重构出纯净语音。实验仿真表明,本文算法提高了去噪语音的质量以及可懂度。
1传统谱减算法
③重构时的相位采用补偿后的相位谱。补偿函数由式(8)可得,其中补偿因子选取文献[5]中证明的最优经验值3.74。由式(10)和式(11)可以得到新的相位谱。经过改进谱减算法处理后的幅度谱为|( )|,将二者进行结合,经过IFFT即可得到增强后的语音序列( )。
改进算法的结构如图2所示。
4实验仿真
本实验所用的原始语音数据是在无噪声干扰环境下录制的,语音采样频率为8 000 Hz,所选取的采样精度为16 bit,实验中所使用的窗函数为汉宁窗,帧长为200,帧重叠为80。噪声采用高斯白噪声,分别在0,5,10 dB的情况下进行测试,使用语谱图以及PESQ和STOI值来评价增强后的语音性能。
语谱图反映了语音信号的动态频谱特性,在语音分析中具有重要的实用价值,被称为可视语音。纯净语音及带噪语音的波形图如图3所示。在5 dB下传统谱减法、改进型谱减法(未结合相位补偿的算法)以及本文算法的去噪波形图及语谱图如图4~图6所示。
从去噪语音波形图以及语谱图中可以看出,本文算法处理后毛刺减少,纯净语音成分的时域波形更加突出,波形失真程度也有所降低,同时语谱图更加清晰,这表明“音乐噪声”大大降低,带噪语音信号的增强效果明显。
PESQ是感知语音质量评估测度,取值-0.5~4.5。研究表明,在移动设备、固化设备和VoIP应用中,采用该测度所得结果均与主观听音测试具有高相关度[9],可以可靠地用于预测编解码器在有传输信号错误、丢包或在不同信号延迟情况下的主观语音质量。不同信噪比下谱减法与本文算法的PESQ值对比如表1所示。
STOI是短时客观可懂度,是衡量语音可懂度的一个重要指标,取值0~1。数值越接近1,表示增强后的语音信号越容易被理解。不同信噪比下谱减法与本文算法的STOI值对比如表2所示。
对比表1和表2中的PESQ值和STOI值可以发现,相比较于谱减法、维纳滤波法、MCRA谱减法以及文献[10]提出的改进型谱减法,采用本文算法处理后的值均有一定提高。同时,通过主观试听测试表明,在噪声环境下,“音乐噪声”残留更小,而且增强后的语音听起来更加舒适,感知质量和可懂度也有了进一步提高。
5结束语
本文分析了传统谱减算法以及传统相位谱补偿算法的增强原理,并针对谱减算法的“音乐噪声”以及使用带噪相位的问题,提出了联合相位谱补偿的改进型谱减法,对MCRA算法进行改进得到更准确的噪声谱估计并减少了时延,依据带噪语音谱与估计噪声谱的信噪比构造一个线性函数,通过该函数调整过减因子进行谱减,在保留原始语音的基础上尽可能去除噪声,最后重构时的相位采用补偿后的相位谱,一定程度上恢复语音相位。通过大量实验验证了该算法在不同的信噪比下,语谱图呈现的增强效果以及PESQ值和STOI值均有所提升。
参考文献
[1]马英,张凌飞,冯桂莲.基于“音乐噪声”的修正谱减法算法分析[J].青岛大学学报(自然科学版), 2017, 30(3): 25-28.
[2]吴卫鹏.基于改进谱减的语音增强算法研究[D].南京:南京邮电大学, 2019.
[3] LANGARANI M S E, VEISI H, SAMETI H. The Effect of Phase Information in Speech Enhancement and Speech Recognition [C]//2012 11th International Conference on Information Science, Signal Processing and their Applications(ISSPA). Montreal:IEEE, 2012: 1446-1447.
[4]陳欢,邱晓晖.改进谱减法语音增强算法的研究[J].计算机技术与发展, 2014, 24(4): 69-71.
[5] STARK A P, W?JCICKI K K, LYONS J G, et al. Noise Driven Short-time Phase Spectrum Compensation Procedure for Speech Enhancement[C]//Ninth Annual Conference of the International Speech Communication Association.New York:[s.n.],2008:120-125.
[6]熊晶.语音增强中噪声估计的研究[D].兰州:兰州交通大学, 2015.
[7] COHEN I, BERDUGO B. Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement[J]. IEEE Signal Processing Letters, 2002, 9(1): 12-15.
[8]张开生,赵小芬,王泽,等.基于总体平均经验模态分解和一步式字典学习联合去噪的语音端点检测算法[J].科学技术与工程, 2020, 20(35): 14536-14542.
[9]邸晓伟,王哲.基于MCRA和OM-LSA的语音增强算法[J].中国无线电, 2021(5):70-73.
[10]武鹏鹏,赵刚,邹明.基于多窗谱估计的改进谱减法[J].现代电子技术, 2008, 31(12): 150-152.