APP下载

动态特征联合新掩模优化神经网络语音增强

2021-07-01梅淑琳贾海蓉王晓刚武奕峰

西安电子科技大学学报 2021年3期
关键词:掩模比率语音

梅淑琳,贾海蓉,王晓刚,武奕峰

(1.太原理工大学 信息与计算机学院,山西 太原 030024;2.中国联通 山西省分公司网络优化中心,山西 太原 030000)

语音增强是从噪声背景中提取有用信号,降低干扰并减少失真的技术,可以应用在人工智能、助听器、语音识别等领域。目前,语音增强的方法可分为无监督和有监督两类。无监督语音增强大多基于平稳噪声、语音噪声不相关等不合理假设,导致抑制非平稳噪声能力弱,产生语音失真现象;具有代表性的算法有谱减法、维纳滤波等[1]。有监督语音增强通过学习信号的统计特性来抑制噪声,在低信噪比环境和非平稳噪声上有着明显的优势,可分为基于浅层和深层模型两种。浅层模型包括隐马尔科夫、浅层神经网络等。该模型由于层数及每层节点数目都很少,且用于训练的数据也很小,限制了学习能力,性能不能有效提升。深层模型能够深入学习语音间非线性关系[2],极大地提高了其在未知噪声环境中的泛化性能。大致可以分为3类:基于特征映射的语音增强,输入和输出信号的声学特征;基于时频掩蔽的语音增强,输入声学特征,输出时频掩蔽;基于信号近似的语音增强,是前两种方法的融合,训练模型预测掩蔽值,最终优化目标是估计语音与纯净语音的均方误差,使网络收敛到一个最优点。因此处理非平稳噪声性能较好,成为研究热点[3-6]。

近年来,人们提出了几种有效的学习算法,有效提升了网络的性能。文献[3]提出一种集成幅度谱,理想二值掩蔽到神经网络的算法,能有效去除噪声,但有一定程度失真。文献[4]提出联合对数梅尔功率谱(Log-Mel Frequency Power Spectrum,LMPS)、梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)和理想比率掩模(Ideal Ratio Mask, IRM)优化的算法;特征考虑了听觉感知,掩模是软判决,但很难处理清音,整体听感不连续。文献[5]提出一种Gammatone域耳蜗表示(Cochleagram)的语音特征。Gammatone是耳蜗滤波标准模型,但不能兼顾语音整体和瞬变信息。文献[6]提出多分辨率耳蜗表示(Multi-Resolution CochleaGram,MRCG),其连接4个不同分辨率的对数耳蜗,同时考虑语音局部和全局信息,但是特征维数太大,算法复杂性高。

为此,笔者提出了动态特征联合自适应比率掩模优化神经网络的语音增强算法。动态特征融合了对数梅尔功率谱、梅尔倒谱系数、多分辨率听觉倒谱系数(Multi-Resolution Auditory Cepstral Coefficients, MRACC),并通过求导捕捉语音瞬变信息,全面表示语音的非线性结构,减小失真。另外,为了模仿人类听觉感知,精确表示每个时频单元的掩模值,新提出自适应比率掩模,进一步提高重建语音质量。设计对比实验,验证了新算法的优势。

1 动态特征与自适应比率掩模联合优化神经网络语音增强

1.1 动态特征

不同的语音特征反映了语音信号的不同属性。LMPS经过梅尔滤波器组对频谱进行平滑化,并消除谐波的作用,突显语音的共振峰;MFCC体现带噪语音功率谱各个维度的关系;MRACC是改进的MRCG特征,有4个不同分辨率稀疏表示的Cochleagram,能够表示整体和局部信息。为了全面表示语音非线性结构,对这3种特征进行拼接互补,可获取较完整的静态特征;再对拼接特征求一阶二阶差分导数,捕获语音的瞬变信息;差分特征描述了语音相邻帧的联系,避免只依赖网络获得语音时变信息。动静特征结合改善了现有特征表示语音结构方面的不充分不完整性,使重构语音失真较小且语音可懂度高。

图1所示为动态特征提取框图。

具体提取过程如下:

(1) 语音信号经过梅尔滤波、取对数和离散余弦变换而得到对数梅尔功率谱、梅尔倒谱系数特征;同时,经过 Gammatone滤波,得到4个64通道CochleaGram(CG)并对其进行分帧加窗,幂律变换获得4个不同分辨率的CG1、CG2、CG3、CG4,拼接后对整体进行离散余弦变换,得到MRACC特征。

(2) 将3个语音特征进行拼接,得到拼接静态特征M,即

M(i,m)=[MLMPS(i,m);MMFCC(i,m);MMRACC(i,m)],

(1)

其中,i表示帧数,m是特征维度索引。MLMPS(i,m)、MMFCC(i,m)、MMRACC(i,m)分别表示LMPS、MFCC、MRACC特征。

(3) 对拼接静态特征求一阶二阶差分导数,得到差分特征ΔM和Δ(ΔM):

(2)

(3)

其中,k是索引,表示当前帧的前两帧和后两帧。

(4) 融合所得到的特征,形成动态特征Ω:

Ω(i,m)=[M(i,m);ΔM(i,m);Δ(ΔM(i,m))]。

(4)

图1 动态特征提取框图

1.2 自适应比率掩模

在基于信号近似的神经网络语音增强中,掩模是重构语音的关键[9]。为提高重构语音的质量,笔者提出一种自适应比率掩模。首先,利用带噪语音内部通道间的相关性(Inter-Channel Correlation,ICC)因子自适应调整语音和噪声的能量比例,提高了每个时频单元掩模的精确度;其次,自适应地调节传统掩模和平方根掩模的比例,让其能充分发挥各自的优势,使增强语音的可懂度和清晰度同时达到最好;最后用Gammatone通道权重修改每个通道内的掩模值,使其信号能量集中在低、中频段,模仿了人类听觉系统,进一步提升了语音可懂度。

图2所示为自适应掩模原理图。

图2 自适应掩模原理图

具体过程如下:

(1) 内部通道间的相关性自适应因子ρx(c,m)、ρd(c,m)是分别第c个通道第m帧中纯净与带噪语音、噪声与带噪语音功率谱之间的归一化互相关系数。

(5)

(6)

其中,yc,m、dc,m、xc,m是带噪语音、噪声和纯净语音在c通道m帧中的幅度谱矢量。

(7)

其中,Px(c,m)和Pd(c,m)分别表示第c通道第m帧的纯净语音能量和噪声能量。

(3) 自适应掩蔽系数α是带噪语音信噪比,可表示为

(8)

其中,μSNR(c,m)表示第c通道第m帧的信噪比。

(4) 应用Gammatone通道权重轮廓β修改每个通道的比率掩模,公式如下:

(9)

其中,ψ(c)为第c个通道的响度级别。

(10)

1.3 神经网络模型

为了利用神经网络强大的非线性映射能力,笔者设计了具有4层结构的神经网络模型。其中包含2个隐层,每个隐层设有1 024个节点,输出层设有64个节点,分别将线性整流函数(Rectified Linear Unit, ReLU)和Sigmoid函数用作隐层和输出层的激活函数。采用最小均方误差(Mean Square Error,MSE)作为模型的代价函数。训练神经网络采用自适应随机梯度算法,随机初始化网络,并用丢弃法Dropout来提升模型对噪声的泛化能力,输入层的Dropout比例为0,每个隐层的Dropout比例设为0.2,用于隐层单元的稀疏正则化。网络将重构语音与纯净语音的误差反馈传递,调优更新网络参数。采用自适应学习速率ε,初始化为0.08,随着训练步数线性减小,直至0.001。初始的动量系数设为0.5,在前5次逐渐涨到0.9,随后就保持0.9不变,网络采迭代次数为20次。经过反复执行上述步骤对网络权值进行一系列迭代更新,训练完成就得到一个神经网络模型。

1.4 基于动态特征和自适应比率掩模的神经网络语音增强

在训练阶段,以最小化最小均方误差代价函数为目标,提取语音数据样本中的训练集的动态特征、自适应比率掩模作为神经网络模型的输入。为了保持训练过程的稳定,输入和输出均进行均值方差归一化处理,训练得到最优的网络模型并进行保存。在测试阶段,提取测试样本集的归一化处理后的动态特征输入到训练好的神经网络模型中预测自适应比率掩模,最后结合带噪语音的相位重构语音,输出得到最佳增强结果。图3所示为基于动态特征和自适应比率掩模的神经网络语音增强系统框图。

图3 基于动态特征和自适应比率掩模的神经网络语音增强系统框图

2 仿真实验与结果分析

2.1 实验数据

实验选用IEEE语音库、NOISE-92噪声库中的White、Babble和F16噪声。用50条纯净语音在每种噪声下创建信噪比为-10 dB、-5 dB、0 dB、5 dB和10 dB的750条训练集。使用10条语音在相同条件下创建150条测试集。评价指标采用分段信噪比(Segmental SNR,SegSNR)、主观语音质量(Perceptual Evaluation of Speech Quality,PESQ)和短时客观可懂度(Short Term Objective Intelligibility,STOI)。

2.2 对比实验与结果分析

为了验证文中联合动态特征和自适应掩模的有效性,设计3组算法来对实验结果进行讨论。

算法1采用3种特征中效果最好的MRACC特征和IRM来训练神经网络。

算法2采用联合LMPS、MFCC和MRACC和IRM训练神经网络。

算法3采用笔者提出的动态特征和自适应掩模联合训练神经网络。

以被5dB,Babble噪声污染的语音为例,分别给出了3种实验下的增强语音。图4所示为增强语音的时域波形,图5所示为增强语音的语谱图。

图4 5 dB的Babble噪声下的时域波形图

从图4、图5可以看出,前两个实验能够减少噪声,但是仍有残留,且非语音段降噪效果不好,有失真现象。而文中提出的算法,非语音段降噪效果显著,增强语音波形结构保持更好,失真较小,最接近于原始纯净语音。

对比上述3组实验分别在Babble、F16、White这3种噪声环境下的增强效果,表1至表3和图6所示分别为SegSNR、PESQ、STOI的对比结果。

表1 不同算法下的SegSNR对比 dB

表2 不同算法下的PESQ对比

表3 不同算法下的STOI对比

分析以上结果可得:

(1) 对比算法1和算法2的结果可知:输入为拼接特征的增强性能优于单特征,增强语音的SegSNR平均提高了0.7 dB,PESQ平均有0.13 dB的提升,STOI有0.02 dB的提高,验证了拼接特征能更好地抑制背景噪声。

(2) 算法2与算法3相比,在神经网络中输入新的动态特征和自适应比率掩模后, SegSNR平均提升了1.1 dB, PESQ平均提升了0.33 dB,STOI提高了0.03 dB。实验结果证明了动态特征和自适应比率掩模组合的有效性,联合优化可以得到失真较小、听感较好的增强语音。

图6 White噪声环境下在不同算法下SegSNR、PESQ、STOI的三种结果对比

3 结束语

笔者提出动态特征联合自适应比率掩模优化神经网络语音增强算法。将动态特征、自适应比率掩模作为神经网络的输入,有监督的学习带噪语音和纯净语音之间复杂的映射关系。新特征提高神经网络对纯净语音频谱的估计能力,新掩模精确表示每个时频单元的时频掩蔽值。实验结果表明,在不同噪声不同信噪比条件下,该算法能够减小增强语音的失真现象,语音质量和可懂度有明显提升,具有更好的增强效果。

猜你喜欢

掩模比率语音
一类具有时滞及反馈控制的非自治非线性比率依赖食物链模型
魔力语音
基于MATLAB的语音信号处理
基于直写技术的微纳掩模制作技术研究进展*
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
掩模图像生成时阈值取值的合理性探讨
掩模位置误差对光刻投影物镜畸变的影响
一种适用于微弱信号的新颖双峰值比率捕获策略
Cr光栅掩模对金属平板超透镜成像质量的影响