噪声分析在语音检验中的应用研究*
2022-08-17徐浩森姜囡齐志坤
徐浩森 姜囡 齐志坤
1.中国刑事警察学院 2.中国政法大学证据科学教育部重点实验室
引言
音频文件是当前案件中最常应用的线索或证据之一[1,2],随着技术的发展,越来越多的语音信号被记录在手机、录音笔和监控系统等等设备中,可以为侦查提供大量线索及证据。但现实生活中,不同场景下存在着不同程度的噪声,使得录音设备记录的声音中常有噪声存在。而音频中的噪声是最容易被忽视的部分,但其包含的信息往往能够为案件带来关键线索或证据。因此,有效的噪声分析对于含噪语音降噪、音频证据属性检验及案件线索侦查等具有重要研究价值。
目前,对噪声进行分析的主要工作包括:噪声种类研究和噪声特征研究等两大方向[3]。噪声分类的研究是根据噪声的不同表现形式对噪声进行详细的划分,用以选择合适的降噪算法对不同含噪语音进行准确的降噪,以获得最佳的降噪效果。噪声特征的研究是根据噪声在不同域内的谱系数矩阵寻找发现相同类型噪声的特征表现和不同噪声之间的区别,从而进行音频真实性检验和降噪算法设计等工作。
本文对噪声分析在公安领域现有研究工作进行了综述,对不同定义中的噪声和噪声特征进行分类。同时,研究了不同种类噪声对语音降噪效果的影响;分析不同设备本底噪声在语音真实性检验中的应用以及基于深度学习的噪声分析在涉案语音环境识别中的应用。
一、噪声分类
在语音信号处理中的噪声指的是除目标语音之外的声音。噪声随处可见,如街道的人群嘈杂声,汽车行驶中的机器声、商场中说话的声音、室内各种电器运行的声音、风声、雨声等。
由于不同学科领域研究对于噪声作用的分析研究各不相同,导致噪声类型存在有很多分类,如图1所示。
(一)噪声频谱干扰方式
根据噪声对语音频谱干扰方式的不同,可以将噪声分为[4]:加性噪声和乘性噪声。
加性噪声通常以叠加的形式干扰目标语音,加性噪声与信号呈加性关系,即无论信号是否存在,噪声都是存在的。各种环境中与录音对象无关的声音都可以看成加性噪声(如家电运行的声音、汽车的呼啸声、人群的说话声等)。目前针对这类噪声的研究最为常见。
乘性噪声通过与语音之间相互作用,在频域中噪声和噪声是相乘的关系(如卷积,因此也称为卷积噪声)。一般通过同态变换将其转换后进行处理。
(二)噪声统计特性时变程度
根据噪声统计特性随时间变化的程度不同,可将噪声分为[5]:周期性噪声、脉冲噪声、缓变噪声和平稳噪声。
周期噪声通过噪声源做周期性运动产生而来,其特点在于频域上有很多离散的线谱。
脉冲噪声表现为无规则震动且时间极短,在时域的波形中主要变现为激励信号。如雷声、爆炸声、机枪声、放电等突发性、能量高的噪声。
缓变噪声随时间变化而发生缓慢变化,如人群噪声是典型的缓变噪声。
平稳噪声的统计特性不随时间发生变化,相对容易对其特性估计。因此,对平稳噪声的研究是语音降噪等技术的基础。
(三)噪声频率覆盖范围
按照噪声覆盖频率范围可将噪声分为:宽带噪声和窄带噪声[6]。
宽带噪声覆盖了信号全部频率带,如热噪声、气流(如风)、呼吸噪声、量化噪声以及各种随机噪声源。
窄带噪声只覆盖信号的部分频率带,如“口哨”和警报器噪声就是一种窄带噪声。
二、噪声特征
音频文件中的噪声是随机变量随时间变化的过程,其瞬时值是不稳定的,尽管尽可能多的去对它以前的值进行分析,依旧不能精准的预测其以后的瞬时值,故不可用一个确切的函数来描述[7]。许多学者尝试使用噪声频率成分、能量分布以及对语音频谱图的干扰程度等不同领域对噪声进行分析研究,如语音降噪的算法多是围绕噪声的频率特性进行算法设计,并取得了不错的结果。
文献[8]中,作者提出使用声压、声强、声功率和频率与时间计权作为噪声的重要评价参数;文献[9]中,作者在对旋翼类机械产生噪声的原理分析上,认为该类噪声频率较低,衰减指数较小且携带一些特性的基础上,提出基于产生机制、频率特性和非平稳特性三个角度对噪声特性进行分析研究。文献[10]提出使用噪声的时域波形、统计特性和频谱特性对汽车噪声进行分析,进而获取汽车噪声的消除方法。文献[11]中,作者通过时域特性、频域特性和统计特性等对工业或生活电器设备噪声进行分析。同时,采用最大幅度、幅度期望等共性参数对噪声进行定量分析描述。文献[12]通过识别噪声源,传播途径及噪声数值大小等方面对高速运行的车箱内噪声进行分析研究。文献[13]认为,结合噪声场特性与时频特性可以显著提高语音降噪算法的泛化性,并提出利用有色噪声的特性进行语音降噪等研究。
因此,结合公安领域内对于涉案语音案件的侦办需要,其特性分析应具体包括:时域分析、频域分析以及统计分析。使用MATLAB为分析工具,分别完成对噪声的时域特性、频谱密度和功率谱密度特性的分析并进行精确测量。
(一)时域特征
时域波形是一段声音的最直接描述,通过波形的形态可以直观的区别不同的音色。同时,根据噪声的产生方式不同,也可识别出不同噪声在时域波形中的特征。
1.周期特征
当噪声为机器运作声等周期性噪声时,在波形图上可也看到明显的周期性特征,如图2所示。
2.脉冲特征
常见的打火、放电等脉冲噪声,在波形图上表现为突兀的突起直条,如图3所示。
3.谱包络平滑特征
口哨声、车辆鸣笛声等窄带噪声,在波形图上表现为谱包络平滑特征,如图4所示。
(二)频率特征
语音的频率谱就是将语音信号通过傅里叶变换而来。由于发声体不同,导致不同噪声具有不同的频率分布。因此,通过分析噪声的频率分布,以此设置相应的滤波器从而完成语音降噪和不同噪声种类的判别。
1.低频特征
噪声的频率通常集中在频谱图的低频区域,高频区域不占比重或占部分比重,常见的风声、河流声、部分家用电器声和人群噪声多具有此类特性,如图5所示。
2.中频特征
噪声频率通常集中在频谱图的中频区域,低频和高频区域不占比重或占部分比重,常见的如昆虫鸣叫声,如图6所示。
3.高频特征
噪声的频率通常集中在频谱图的高频区域,低频和中频区域不占比重或占部分比重,常见的有电锯、水击打物体声等,如图7所示。
4.全频带特征
噪声的频率通常横跨整个频率区域,常见噪声如白噪声等,如图8所示。
5.固定频带特征
由于这类噪声发生的特性,故呈现出只占据某个或多个固定的频段且不随时间变化或变换很慢,常见的如口哨声、鸣笛声等,如图9所示。
(三)时变特征
语音功率谱可以用来分析不同频率分量所携带的能量大小。通过对比不同时间段噪声功率谱的分布情况,识别噪声的平稳性或非平稳性,进而选择相应的算法进行降噪。
按能量随时间变化的程度可将噪声分为平稳噪声、缓变噪声和非平稳噪声。
1.平稳噪声
噪声的能量不随时间的改变而改变,常见的噪声如各类颜色噪声等,如图10所示。
2.缓变噪声
噪声的能量随时间的增加变化缓慢,常见的噪声有人群噪声、水流声、机械运行声等,如图11所示。
3.非平稳噪声
噪声的能量随时间的变化很大,如街道噪声等,如图12所示。
三、噪声分析的应用
在语音检验中,噪声分析主要用于涉案语音的降噪、真实性检验及话者画像等工作。
(一)语音降噪
语音降噪是语音检验的重要组成之一。公安部于2017年出台的《法庭科学降噪及语音增强技术规范(GA/T 14312017)》为语音降噪在案件中的应用提供了强有力的保障,使语音降噪可以作为一项刑事技术为更多的语音案件提供服务。
当前,单通道语音降噪算法作为语音降噪领域的主要研究方向,大致可以分为两类:一类是以数字信号处理为基础的语音降噪方法,例如,谱减法、维纳滤波法、基于统计模型的方法和小波变换法等。该类算法多以含噪语音的功率谱和能量等为基础求解先验信噪比和后验信噪比来设计降噪算法;另一类则是以深度学习为基础的语音降噪方法,以大量合成实验语音为样本,通过时频掩蔽或频谱映射的方法对神经网络进行训练得到干净语音的掩码或估测幅值从而进行语音降噪,例如多层感知机(MLP)、卷积神经网络(CNN)、自编解码网络(DAE)、循环神经网络(RNN)、生成对抗网络(GAN)和混合结构网络等语音降噪网络。
1.基于数字信号处理的语音降噪算法
不同语音降噪算法的原理和假设各不相同,仅依靠一种算法是不能对所有噪声达到最好的降噪效果的,往往需要进行噪声分析,根据噪声的特性选择相适应的降噪算法,从而达到最优的降噪效果。
(1)谱减法
谱减法是由Boll等人[14]最早提出的语音降噪方法,其原理为:以含噪语音的无声段作为噪声的平均功率,并将其与含噪语音进行相减从而得到降噪后的语音。
由图13可知,谱减法适用于平稳噪声且前后时刻噪声能量相差不大。对于缓变噪声和非平稳噪声则会有音乐噪声残留或出现语音失真。
(2)维纳滤波法
维纳滤波法不同于谱减法的简单相减,是Wiener等人[15]根据估计语音和干净语音的均方误差最小,提出的一种滤波器设计的降噪方法。其原理是根据前一帧的先验信噪比和当前帧的后验信噪比计算,依次得出滤波器的冲击响应,并由所求的冲击响应与含噪语音频谱相乘求得降噪后的语音。
由图14可知,相较于谱减法,其对缓变噪声依然具有良好的处理效果。但对非平稳噪声处理效果较差,降噪后有较多噪声残留。
(3)基于统计学的最小均方误差法
基于统计法的语音降噪[16]相较于维纳滤波法,其可以对降噪语音频谱进行非线性估计。其原理为:通过假设傅里叶变换后为复高斯变换,并根据概率论求得在含噪语音条件下的期望,进而求得降噪后的干净语音频谱。
由图15可知,相较于维纳滤波简单的与冲激响应线性相乘,基于统计学的方法可以对降噪语音谱进行非线性更优估计,以此适应非平稳噪声下的含噪语音降噪任务,且其降噪后残留的噪声类似于白噪声而非音乐噪声。但由于其算法依赖前期的噪声估计,导致对于低信噪比下的非平稳含噪语音的降噪效果差。
在此类算法中,噪声分析多为通过含噪语音中的无声段作为噪声的参考,并通过冲击响应、统计原理或梯度下降对噪声进行实时估计,进而提高语音的降噪效果。因此,此类降噪算法具有一定的局限性。
2.基于深度学习的语音降噪算法
基于深度学习的降噪算法效果依赖于训练噪声种类、训练网络等。在深度学习网络中,噪声特征是根据含噪语音的时频域特征由卷积网络经过不同卷积核进而提取的高维度抽象特征[17]。 使用注意力机制[18]进行噪声分析,可以使降噪网络准确区分含噪语音中的噪声和语音部分,相较于基于数字信号处理的语音降噪算法,其不需要对噪声进行过多假设,通过大量训练即可提高对噪声估计的准确度,进而提高语音的降噪效果。
由图16可知,基于深度学习的降噪算法可以更加有效的处理低信噪比环境下的含噪语音。但是,基于深度学习的降噪模型需要大量的含噪语音数据进行学习,对于未学习的噪声降噪效果较差,即模型泛化能力较差,且基于深度学习的降噪方法对设备的硬件要求高,计算量大。
(二)语音真实性检验
在语音真实性(完整性)检验中,听觉检验、噪声频率分析和语谱图异常检验仍是数字录音真实性分析的常用手段。但听觉检验进行辨识有较大的不确定性。因此,本底噪声通常作为一种重要的方法手段来对比可疑点前后的噪声频率等特征参数值的大小及分布范围相似度来判断其是否经过剪辑等操作。
王英利等人[19]通过频谱分析方法对录音中噪声频率,能量等分析,进行语音真实性检验;Alam等人[20]提出了一种由幅度、相位、线性预测残差和基于幅度-相位联合对抗的欺骗攻击检测系统。裴安山等人[21]利用本底噪声特征对手机设备来源进行识别,如图17所示,1为手机录制下的本底噪声,2为电脑麦克风录制的本底噪声,并将两段语音进行拼接为一段语音,因两种设备采样率和拼接前后噪声类型的不同,导致其在频谱上表现出不同特征。
(三)录音环境分析
在音频文件中,不可避免地存在各类环境噪音,通过音频文件中的背景噪声对录音地点、环境情况以及人员状态等进行特征刻画,同样也可以为侦查人员提供有价值的信息,甚至在侦查陷入僵局时,提供转机。
随着深度学习的不断发展,基于神经网络的噪声种类识别的研究,成为语音信号处理领域的研究热点。YAMNet模型则是其中最具代表的网络,是一种在AudioSet数据集上训练的音频事件分类器。该网络由Hershey等人[22]使用Various CNN架构对524万小时训练视频数据集的音轨进行分类,可预测521种音频事件类别。如图18(a)所示为锯木头声的波形图与语谱图,从听觉上,其表现为极其刺耳且无法明显判断其具体声音种类,在谱图上发现其为宽带噪声和能量分布不均匀的非平稳噪声类型。使用YAMNet模型进行噪声种类识别结果如图18(b)所示,识别结果表明该声音为一种喧闹的、锉削木头摩擦的声音。由识别结果进一步表明,该录音所在环境为木材厂或与木材加工等有关的场所。
四、结语
本文针对噪声的分类及特征等方面的研究,对其在语音降噪、语音真实性检验和录音环境分析等方面进行了全面综述和深入分析。尽管已有多位国内外学者对噪声的不同特性进行分析,但在语音检验领域中针对噪声分析应用的研究分析尚不全面。本文的分析研究工作可为后续的语音检验研究提供理论和方法的依据。同时随着人工智能的兴起,结合深度学习的噪声分析将是一个值得深入研究的领域。