基于优化浮值掩蔽的监督性语音分离

2018-11-01夏莎莎张学良梁山

自动化学报 2018年10期

夏莎莎张学良梁山

在语音信号处理领域,语音分离是一个重要并且充满挑战性的问题.语音分离是指从带噪的混合语音中分离出感兴趣的目标语音,主要应用于鲁棒性语音识别(Automatic speech recognition,ASR)、助听器设计和移动语音通信等方面.按照信号输入的通道数划分,语音分离分为单通道语音分离和多通道语音分离,单通道语音分离只利用了时域和频域的信息,而多通道语音分离利用了时域、频域和空域的信息,因此单通道语音分离的任务解决起来更为困难[1].本文针对单通道条件下的语音分离技术进行研究.

单通道语音分离技术一直是语音信号处理领域研究的难点,至今已出现许多有价值的分离方法.计算听觉场景分析(Computational auditory scene analysis,CASA)[2]作为一项重要的语音分离技术,通过模拟人耳对声音的处理机制来解决语音分离问题.计算听觉场景分析提出了完成语音分离任务的计算目标,即理想二值掩蔽[3].在计算听觉场景分析思想的基础上,语音分离任务可以看作一个分类问题[2],通过将带噪的混合信号分类为目标语音信号和噪声信号来解决.具体来讲,对每一个语音分离单位(时间频率单元)作出分类决策,判断是噪声主导或目标语音主导.基于这种思想,语音分离问题可以通过监督性学习方法来解决[4],通过学习得到一个从混合信号到目标的映射.监督性语音分离算法的学习模型分为浅层学习模型(例如高斯混合模型、支持向量机等)和深层学习模型(例如深度神经网络(Deep neural network,DNN)).相对于浅层学习模型,深层学习模型擅长处理高维数据,可以较好地挖掘语音信号上下文信息的时空结构.其中,最典型的深度神经网络借助其深层非线性结构,可以设计出精细的非线性滤波器.同时作为数据驱动的方法,可以充分学习混合语音和纯净语音之间的复杂的非线性关系.此外,深度神经网络能学习噪声的模式,可以很好地抑制一些非平稳噪声.目前许多针对基于深度神经网络语音分离技术的研究成果[5−8]已经展示了这项技术的优良性能与研究价值.

对于监督性学习算法,计算目标是一个关键问题,对监督性学习算法的性能有着重要影响.一方面,计算目标体现了对真实目标语音的逼近程度;另一方面,不同计算目标估计的难易程度也不同.因此,设计计算目标时,要同时考虑对目标语音的近似程度和计算目标的估计难度.时频掩蔽作为计算目标,其估计难度较低,而且能有效抑制噪音,提高目标语音的可懂度和感知质量[8−9],作为语音分离系统的前端处理模块可以明显提高语音分离性能[10].常用的时频掩蔽有理想二值掩蔽(Ideal binary mask,IBM)和理想浮值掩蔽(Ideal ratio mask,IRM).IBM 简易并能有效提高目标语音的可懂度,但通常会产生残留的音乐噪声.IRM 是理想二值掩蔽的平滑形式,在纯净语音与噪声相互独立的假设条件下对目标语音可懂估计语音质量都有显著提升.近年来,新的研究表明相位信息有助于提升语音感知质量,复数域上的理想浮值掩蔽(Complex ideal ratio mask,cIRM)[11]同时估计实部和虚部的掩蔽,获得了分离性能的进一步提升,但同时也增加了目标估计的难度.相敏掩蔽(Phase sensitive mask,PSM)[12]是在目标掩蔽中引入了语音的相位信息,并将计算目标限制在实数域上.我们之前提出的优化浮值掩蔽(Optimal ratio mask,ORM)[13]是对IRM的改进,它考虑到了真实环境中纯净语音与噪声之间存在着一定相关性,在理论上能够取得最小均方误差意义下的最大信噪比增益[14].本文在之前的研究基础之上[13],首次将ORM作为基于深度神经网络语音分离系统的计算目标,在算法在多种噪声环境及信噪比条件下进行了实验,从语音可懂度和语音质量两方面进行评估,并与其他几种时频掩蔽的分离效果进行了对比分析.结果表明,ORM对目标语音可懂度的提升效果理想,并且对目标语音感知质量的提升要优于其他计算目标.

本文组织结构如下:第1节介绍了基于深度神经网络的单声道语音分离系统框架与流程;第2节介绍了ORM的原理;第3节介绍四种用于实验对比的常用时频掩蔽;第4节是实验与结果分析;第5节是总结.

1 基于深度神经网络的语音分离

本文采用基于深度神经网络的语音分离的系统框架[4,15].从混合语音信号中提取声学特征作为神经网络的输入,为便于对比,实验中采用固定特征组[16].混合信号首先通过64通道的伽马通滤波器组,对每个通道的输出进行分帧处理后得到时频单元矩阵(耳蜗谱图).对得到的时频单元进行特征提取,得到的特征组包括振幅调制谱(Amplitude modulation spectrogram,AMS),感知线性预测(Relative spectral transform PLP,RASTA-PLP),梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)和伽马通频率(Gammatone feature,GF).使用自回归与移动平均(Auto-regressive and moving average model,ARMA)模型[17]来平滑特征的时间轨迹.

其中,C(t)是第t帧的特征向量,是滤波后的特征向量,m是滤波器的阶数.我们使用一个二阶滤波器(m=2)以获得低信噪比条件下分离性能的稳定提升.

深度神经网络的结构包括三个隐层,每层1024个节点,激活函数为线性纠正函数(Rectified linear units,ReLU)[18].网络训练采用标准反向传播算法与Dropout技术[19](丢失率0.2).神经网络采用随机初始化权值.自适应梯度下降[20]与一个动量项作为优化手段,前五次迭代动量变化率为0.5,剩余迭代动量变化率为0.9.神经网络的训练采用均方误差作为代价函数,输出层为线性输出.训练目标为带有上下文信息(前后各两帧)的计算目标,最终的预测是各帧的平均值,如图1所示.与预测单帧目标相比,这样做能够产生小幅但稳定的性能提升[9].

2 优化浮值掩蔽

传统的IBM与IRM均是在假设纯净语音与噪声相互独立的前提条件下,而ORM考虑了纯净语音与噪声之间相关性.

对于混合语音信号y(t),x(t)和n(t)分别为纯净语音信号和噪声信号.

语音分离的目标是从混合信号y(t)中估计得到纯净语音信号x(t).而纯净语音信号的估计可以由离散短时傅里叶变换(Discrete short-time Fourier transform,DSTFT)系数重构得到[21],即

图1 基于ARMA模型的深度神经网络Fig.1 ARMA based DNN architecture

求导得到ORM表达式

图2 纯净语音与噪声的相关系数Fig.2 Spectral correlation of clean speech and noise

ORM是取值范围在(−∞,+∞)上的实数,取值范围较大,本文利用双曲正切函数对其进行范围限制.

压缩后ORM的取值范围被限制在[−K,K]内,C控制陡度.实验发现当K=10,C=0.1时神经网络学习的效果最佳.相应地,对目标信号进行波形合成前需通过下式将信号还原:

其中,O为神经网络的输出.图3为在混合语音信噪比为0dB工厂噪声环境下计算得到的ORM.

3 其他时频掩蔽目标

本文选用以下四种时频掩蔽作为对比对象.假定输入信号采样率为16kHz,分析窗长20ms,帧移为10ms.图4是在混合信号信噪比为0dB工厂噪声环境下分别计算得到的四种时频掩蔽.

3.1 傅里叶变换域的理想二值掩蔽(FFT Ideal Binary Mask,IBM_FFT)

计算听觉场景分析将语音分离的计算目标定义为IBM.IBM_FFT是频域的IBM.在一个声音信号的时频表示上,IBM_FFT是一个二值矩阵,矩阵的两个维度分别是时间和频率,其中每个值对应一个时频单元,取值为1表示目标语音的能量高于背景噪声的能量,取值为0表示相反的情况.

其中,S(t,f)和N(t,f)分别是目标语音和噪声在时频单元(t,f)上的能量,Θ为局部信噪比指标,一般设为0dB.训练时采用二值目标,测试时使用神经网络的后验概率代表纯净语音优势的概率作为合成的软掩蔽,这样可以提高语音分离质量.

图3 工厂噪声信噪比0dB条件下的ORMFig.3 ORM with factory noise at 0dB SNR

3.2 傅里叶变换域的理想浮值掩蔽(FFT Ideal Ratio Mask,IRM_FFT)

IRM_FFT是傅里叶域的IRM.IRM_FFT的定义为

其中,S(t,f)和N(t,f)分别代表纯净语音信号和噪声信号的短时傅里叶变换(Short-time Fourier transform,STFT)系数,Ps(t,f)和Pn(t,f)分别是对应的能量密度,β是可调因子,一般设为0.5.与IBM一样,IRM假定纯净语音与噪声相互独立.IRM-FFT是取值范围在[0,1]上的实数.

3.3 复数域的理想浮值掩蔽(Complex Ideal Ratio Mask,cIRM)

传统的语音分离系统通常是作用于带噪语音的STFT系数上,增强幅值谱,保持相位谱不变.然而近年来有研究表明,相位信息对于语音感知质量同样具有重要影响[22],基于此结论Williamson等[11]提出了cIRM.cIRM是定义在复数域上的IRM,深度神经网络经过训练得到cIRM的实数部分与虚数部分的估计,通过这种方式同时增强幅值和相位谱.

cIRM 的定义:混合信号的STFT系数在经cIRM作用后可得到纯净语音信号的STFT系数,即给出混合信号的复数频谱Y,可得到纯净语音信号的复数频谱S,于是有

其中,∗定义复数乘法操作,Mt,f代表时间帧为t频率为f的时频单元的cIRM.注意到S,M,Y取值均为复数,将其表示为矩阵形式后推导得到cIRM的表达式为

其中,Yr和Sr分别代表Y和S的实部,Yi和Si分别代表Y和S的虚部.注意到cIRM在形式上与维纳滤波相似,即都是纯净语音与带噪语音的交叉能量与带噪语音的能量谱的复数比值[23].

由于Yr,Sr,Yi,Si的数值都是实数,cIRM的实部与虚部可能会在(−∞,+∞)上取到很大的值.而IRM取值在[0,1]范围内,便于神经网络的收敛,cIRM 取值较大会使估计变得困难,因此需采用双曲正切函数对cIRM进行范围限制.

3.4 相敏掩蔽(Phase Sensitive Mask,PSM)

使用浮值掩蔽作为计算目标时,重构出的目标信号中带有混合信号中的相位信息,相位误差与振幅会相互影响,重构出的信噪最大增益目标信号的振幅与纯净语音的振幅信息是不同的.PSM采用了一个基于包含振幅误差与相位误差的复数谱上的相位敏感目标函数.这使得估计出的振幅信息补偿了混合信号的相位信息.按照这种思想,PSM表达式为

其中,θ=θs−θy,S与Y分别是纯净语音与带噪信号的DSTFT系数.PSM取值范围较大不容易被学习,需采用双曲正切函数限制取值范围.

4 实验设计与分析

4.1 语音与噪声的分离

4.1.1 实验设置

实验采用IEEE语音库[24]男性说话者720句语音中的600句语音作为训练集的纯净语音,另外120句语音作为测试集的纯净语音.使用SSN(Speech-shaped noise)噪声以及来自NOISEX噪音库[25]的三种噪声:Factory,Babble,Engine噪音作为训练集与测试集的噪声,噪声时长均为4分钟,除SSN噪声外,其他三种噪声均是非平稳噪声.实验中使用的噪声类型均为加性噪声,我们通过以下方式得到混合语音信号:从噪声的前半段中随机切分出噪声段与训练集中的纯净语音叠加,得到信噪比分别为−3dB,0dB,3dB的混合信号,这样训练集中共有72000(600个信号×4种噪声×10次切分×3个信噪比)条混合语音信号.从噪声的后半段随机切分出噪声段与测试集中的纯净语音混合,得到信噪比分别为−3dB,0dB,3dB的混合信号,这样测试集中共有1440(120个信号×4种噪声×3个信噪比)条混合语音信号.将噪声分为前后两部分分别进行切分保证了训练阶段与测试阶段使用的噪声不同.

神经网络的输入采用了四种特征的补充特征集.从混合信号中提取出互补特征后,对其减均值除方差进行归一化处理.经验证明将自回归滑动平均滤波(Auto-regressive and moving average model,ARMA)作用于特征组能够提升语音识别性能[17],这是因为ARMA滤波平滑每个特征维度来减少背景噪音的干扰.此外,ARMA滤波能够提升语音的分离效果[26].综上,我们在均值和方差归一化后将ARMA滤波作用于特征集.ARMA滤波后当前帧的特征向量是当前帧的前两个滤波后帧和后两个未滤波帧的平均.一个窗长5帧(前2帧与后2帧)的上下文窗口将ARMA滤波后特征拼接为特征向量.

4.1.2 实验结果与分析

语音分离系统以提高分离语音的可懂度和感知质量为目标,本文采用短时客观可懂度评分(Shorttime objective intelligibility,STOI)[27]和语音质量评估(Perceptual evaluation of speech quality,PESQ)[28]作为评价指标.STOI用来衡量客观可懂度,短时客观可懂度代表了短时时间包络内干净分离语音的相关度,经证明与人类语音的可懂度评分高度相关.PESQ用来评估客观语音质量.短时客观可懂度与语音质量评估都是通过比较纯净语音与目标语音,短时客观可懂度取值在0∼1之间,而语音质量评估取值在−0.5～4.5之间.

表1～3是在混合语音信号信噪比分别为−3dB,0dB,3dB条件下,上述各计算目标在四种噪声环境下得到的语音分离结果,Mixture代表未经处理的混合语音信号,粗体标示的是每一种噪声环境下得分最高的计算目标.

IBM和IRM是目前最常用的时频掩蔽.从表1～3可以看出,IBM 对语音可懂度有一定提升效果,但语音感知质量提升效果不明显,很多情况下甚至低于混合语音.这是由于IBM具有二值性,会在分离的同时产生音乐噪声.相对于IBM,IRM对语音可懂度和感知质量均有明显提升,特别是在语音感知质量方面,IRM相对于IBM提升效果明显,如在信噪比0dB工厂噪声环境下,IRM的感知质量相对于IBM和混合信号分别提升了0.86和0.55.

cIRM,PSM,ORM是近年来提出的取值范围较大的时频掩蔽,其中cIRM 理论上分离效果最好,从实验结果看,cIRM对语音可懂度提升效果与IRM相近,语音感知质量相对于IRM提升了0.1左右.cIRM和PSM都考虑了相位信息,cIRM属于复数域而PSM限制在实数域,从表1～3可以看出,PSM在语音可懂度方面相对于cIRM和混合语音分别提升了1%～2%和12%～22%,提升效果优于其他计算目标,语音感知质量相对于cIRM 提升了0.07～0.19.PSM的分离性能优于cIRM是因为cIRM虚部结构不明显,不容易被估计,实际分离效果很难达到理论水平.

表2 信噪比0dB噪声条件下各计算目标性能Table 2 Performance comparisons between various targets on 0dB mixtures

表3 信噪比3dB噪声条件下各计算目标性能Table 3 Performance comparisons between various targets on 3dB mixtures

实验结果表明,ORM 对语音可懂度的提升效果总体上与PSM相近,对语音感知质量提升效果优于PSM.从表1观察到,ORM对语音可懂度提升幅度比PSM低1%,但优于其他计算目标;在语音感知质量方面,在SSN,Engine,Factory噪声条件下ORM效果最好,比混合语音提升了0.81～1.07,比PSM提升了0.05～0.07,在Babble噪声条件下,PSM比ORM高0.05.当混合语音信噪比为0dB,对于语音可懂度,在SSN噪声条件下ORM比PSM低1%,其他噪声条件下ORM与PSM性能相近;对于语音感知质量,在四种噪声条件下ORM 提升效果其他计算目标,比混合语音提高了0.6～1.1.表3中,在Engine噪声条件下ORM 语音可懂度比PSM低1%,其他噪声条件下ORM与PSM得分相同;语音感知质量方面,四种噪声条件下ORM效果最优.总体上讲,ORM分离效果优于其他四种计算目标.ORM在浮值掩蔽基础上考虑了纯净语音与噪声相关性,而PSM考虑了相位信息.ORM总体表现优于PSM,可能是因为纯净语音与噪声间的相关性比语音信号的相位信息对语音分离效果影响更大,还原出的目标信号更加逼近真实目标语音.

图5展示了来自IEEE语音库的一条纯净语音与其在Babble噪声条件下3dB的混合语音的STFT频谱图,以及将IBM_FFT,IRM_FFT,cIRM,ORM,PSM分别作为计算目标分离得到目标语音的STFT频谱图.从图5可看出,IBM_FFT保留了纯净语音的频谱时间调制模式,这对于语音可懂度是必不可少的,但丢失了很多信息.cIRM和ORM 具有更为清晰的端点和更分明的频谱过渡.ORM和PSM对于语音能量聚集的低频区域预测效果较好.cIRM对中高频信号能量保留效果较好,但有一定残留噪声.在视觉上,ORM与PSM预测结果相似,都保留了重要的调制模式及结构.

4.2 不同人声的分离

4.2.1 实验设置

实验采用两个不同说话人语音数据,一种作为目标语音,另一种作为干扰语音.采用IEEE语音库男性说话者720句语音中的600句语音作为训练集的目标语音,另外120句语音作为测试集的目标语音.采用IEEE语音库女性说话者720句语音中的160句作为干扰语音.通过以下方式得到混合语音信号:将160句干扰语音分为各80句的两个部分,从第一部分中随机切分出语音段与训练集中目标语音叠加,得到信噪比分别为−3dB,0dB,3dB的混合信号,这样训练集中共有18000(600个信号×10次切分×3个信噪比)条混合语音信号;从第二部分中随机切分出语音段与测试集中目标语音叠加,得到信噪比分别为−3dB,0dB,3dB的混合信号,这样测试集中共有360(120个信号×3个信噪比)条混合语音信号.

实验使用的特征组和神经网络的网络结构及参数设置均与之前的实验相同.

4.2.2 实验结果与分析

表4是在混合语音信号信噪比分别为−3dB,0dB,3dB条件下,利用上述各计算目标得到的不同人声分离结果.从表4可以看出,在三种信噪比条件下,各计算目标性能高低情况一致.对于语音可懂度,各计算目标均有理想的提升效果并且性能相近,其中PSM 与ORM性能最佳,相对于混合信号提升了20%～25%.在语音质量方面,ORM的性能优于其他计算目标,相对于混合信号提升了0.96～1.07.总体上,对不同人声的分离,ORM的分离效果优于其他几种计算目标.这个实验结果与语音和噪声分离的实验结果基本一致.

图6展示了不同人声语音分离结果的STFT频谱图,混合语音是将来自IEEE语音库的女性说话人语音作为干扰语音,同时男性说话人语音作为目标语音,在信噪比0dB下混合语音信号的频谱图,纯净语音为该混合语音中男性说话人的纯净语音频谱图,IBM_FFT,IRM_FFT,cIRM,ORM,PSM分别表示采用各训练目标分离得到目标语音的频谱图.从图6可以看出,相比于IRMFFT和cIRM,ORM与PSM有更为清晰的端点和更分明的频谱过渡,没有过多的噪声残留.ORM和PSM都保留了重要的频谱结构,而ORM的预测结果更接近纯净语音.

图5 Babble噪声信噪比3dB条件下由各个计算目标分离出目标语音的频谱图Fig.5 STFT magnitudes of a separated speech using different training targets.The mixture here is an IEEE male utterance mixed with the Babble noise at 3dB

图6 0dB条件下男女声分离频谱图Fig.6 STFT magnitudes of a separated speech using different training targets.The mixture here is an IEEE male utterance mixed with an IEEE female utterance at 0dB

表4 各计算目标对不同人声的分离结果Table 4 Performance comparisons between various targets on separation of different speakers

5 结束语

对于监督性语音分离算法,计算目标对分离算法的性能有着重要影响.IBM和IRM是目前最常用的时频掩蔽目标,其中IBM对语音可懂度有一定提升,但不能提升语音感知质量.IRM在假设纯净语音与噪声相互独立的条件下,对语音可懂度和感知质量都有一定程度的提升.近年来新的研究表明,相位信息对语音分离性能有重要影响,基于此提出了cIRM和PSM.cIRM理论上分离效果最好,但其虚部结构不明显,不容易被学习.PSM对语音可懂度和感知质量都有显著提升,分离性能优于其他计算目标.本文采用我们之前提出的ORM,考虑了纯净语音与噪声间的相关性,实验结果表明ORM对语音感知质量的提升效果最优,对语音可懂度提升能力与PSM相近.总体上,ORM语音分离效果优于其他四种计算目标.说明真实环境中噪声与纯净语音间确实存在一定的相关性,并且相对于语音信号的相位信息,噪声与纯净语音间的相关性信息更有利于提升语音分离的性能.据此,我们认为对纯净语音与噪声间的相关性分析,以及如何更好地估计这种相关性,可能会成为今后监督性语音分离中计算目标研究的一个新方向.