APP下载

基于CNN+LSTM 的藏语语音去噪算法

2022-08-02王君堡边巴旺堆

电声技术 2022年6期
关键词:藏语信噪比频谱

王君堡,王 希,边巴旺堆,2*

(1.西藏大学 信息科学技术学院,西藏 拉萨 850000;2.西藏大学 信息技术国家级实验教学示范中心,西藏 拉萨 850000)

0 引 言

近年来,藏文信息类技术越来越多,而专门关于藏语语音信息的研究成果还比较少,关于藏语语音去噪技术的研究成果更少。因此,对于藏语语音去噪算法的针对性研发是有价值的。随着人工智能和深度学习算法的飞速发展,被用于语音去噪的神经网络算法研究逐渐火热起来。在国外,1989 年,TAMURA 首次提出将神经网络用于语音去噪,但因为映射关系很难被网络学习到,所以去噪效果不甚理想[1]。2015 年,SIVASANKARAN S 等人提出基于深度神经网络的多通道语音去噪算法,以该算法为基准,提高了语音识别的鲁棒性[2]。2020 年,SALEEM N 等人提出基于循环神经网络的语音去噪算法,该算法在去噪过程中使用的是频谱掩蔽的方法,其效果是短时客观可懂度提高了17.6%,信号失真比提高了5.22 dB,可感知语音质量提高了19%[3]。

神经网络在语音去噪方面的应用在国内起步较晚。2014 年,戴礼荣和张仕良首次在文章中提到深度学习可以用于语音去噪这个问题[4]。2020 年,袁文浩提出基于卷积门控循环网络的语音去噪算法,该算法在语音成分保留和噪声成分抑制上有很好的效果[5]。2022 年,蓝天等人提出端到端的基于RefineNet 网络的语音去噪算法,该算法在低信噪比和未知噪声上的表现较好[6]。

针对藏语的去噪算法的研究目前较少。2017年,代龙翔等人将谱减法用于藏语语音降噪[7]。2018 年,都格草等人也研究了基于谱减法的降噪算法,他们的实验结果得出,使用谱减法能够明显提升语音质量[8]。同年,代龙翔针对传统方法存在的一些问题,展开了基于神经网络的语音去噪算法研究,将深度神经网络(Deep Neural Networks,DNN)用于语音去噪[9]。2021 年,陈丹提出基于注意力机制级联卷积神经网络的藏语语音去噪方法,该方法可以自动学习带噪语音与纯净语音的映射关系,能有效提高语音的质量[10]。

综上,目前专门针对藏语语音去噪算法的研究较少,而利用深度学习实现藏语语音去噪的更是寥寥无几。所以,研究针对藏语语音的去噪算法具有可行性。在深度学习飞速发展的今天,研究深度学习方法在藏语语音去噪方面的应用势在必行。

1 算法模块介绍

本研究采用藏语中的拉萨语作为研究对象。本文使用特征映射的方法,将提取到的特征送入卷积长短期记忆网络,使得带噪语音的功率谱与纯净语音的功率谱在网络学习过程中形成映射,从而达到去噪的目的。整个算法主要包含4 个功能模块,分别是数据准备模块、特征提取模块、网络模块以及音频还原模块。

1.1 数据准备模块

本文使用的数据集是在拉萨、山南、日喀则等地,共寻找18 个人录制的,包括12 个男生和6 个女生。录制的藏语语音频率为44 100 Hz。噪声选择的是NOISE-92 数据集中的其中六条,分别为babble,buccaneer2,destory,factory2,volvo,white。噪音频率也处理成44 100 Hz。

将上述噪声分别按照信噪比(Signal-Noise Ratio,SNR)-5 dB,0 dB,5 dB,10 dB,15 dB,20 dB 与纯净语音混合得到带噪语音。其中信噪比的计算方式为:

式中:SNR 表示信噪比,单位为分贝(dB),Ps为信号功率,Pn为噪声功率,As为信号幅度值,An为噪声幅度值。

通过信噪比公式可以推算出所加噪声的计算方式为:

式中:n+表示所加噪声,nin表示原始噪声,sin表示原始语音。

然后将按照信噪比计算得出的噪音与原始纯净语音混合,混合方式为:

式中:s+表示带噪语音。

通过上述数据准备,可以得到一系列带噪语音和纯净语音对。

1.2 特征提取模块

本研究采用频谱映射的方式进行语音去噪。采用该方式会遇到两个主要的问题。首先,直接将语音进行傅里叶变换所生成的频谱会使得出现的数据差距很大,不利于网络模型训练;其次,如果训练过程直接采用一对一映射的方式,会使得网络训练速度较慢且映射关系过于复杂,不利于网络自行学习。为了解决这两个问题,首先选用对数功率谱代替频谱,其次利用拼帧的方法代替一对一映射。

1.2.1 特征提取

将带噪语音和纯净语音做傅里叶变换,变换公式如下:

式中:N表示序列长度,n表示第n点,k表示第k点,s+(n)表示带噪语音序列,S+(k)表示带噪语音的频谱,sin(n)表示纯净语音序列,Sin(k)表示纯净语音频谱。将式(4)和式(5)得到的频谱取对数,具体计算方式如下:

式(6)和式(7)得到的S+LPS(k)和SinLPS(k)分别为带噪语音和纯净语音的对数功率谱(Logarithmic Power Spectrum,LPS)。

1.2.2 拼 帧

拼帧操作的基本原理是,利用连续的几帧来预测中间的一帧,如图1 所示。

图1 拼帧原理图

图1 以连续的六帧作为范例展示,更长的帧原理与之一样。

1.3 网络模块

本研究采用的网络是卷积长短期记忆网络(Convolutional Long Short-Term Memory Networks,CLSTM)。研究表明,卷积网络和长短期记忆网络的结合,有利于处理时间预测序列,比如语音序列。

经过试验,搭建了适用于藏语语音去噪的网络模型,其模型结构如图2 所示。

图2 网络模型图

在该模型中,将加噪后语音的对数功率谱和纯净语音的对数功率谱均做归一化处理,这样使得网络收敛的速度更快;然后将带噪语音的对数功率谱送入由四层一维卷积神经网络和一层长短期记忆网络组成的网络中进行训练。这里选用一维卷积神经网络是因为一维卷积神经网络相对于二维卷积神经网络具备反映语音信号时变性的特征[11]。选用长短期记忆网络而不选用循环神经网络,是为了预防梯度消失问题[12]。

1.4 音频还原模块

音频还原模块主要实现的是将预测到的纯净语音还原为时序信号,并生成.wav 文件。在本研究中,数据还原主要进行如下步骤。

(1)根据Bachnormal 将训练后的数据还原到对数功率谱数据。前文有说过,为了使网络收敛得更快,对数据进行了归一化。因此首先要将去噪后的语音还原为对数功率谱形式。归一化的计算方式为:

式中:x和y分别表示归一化前的数据和归一化后的数据,E(x)表示x的均值,Var(x)表示x的方差,γ和β分别表示训练的权重和偏移。

由式(8)可以推出原本数据x的计算方式为:

(2)得到去噪后语音的幅度值Aenh。其计算方式为:

(3)得到去噪后的相位φ。去噪后语音的相位与噪音的相位一致。

(4)还原去噪后藏语语音的频谱Fenh。其计算方式为:

(5)进行傅里叶反变换,得到时域信号。其计算方式为:

式中:N,n和k的含义见式(5)的介绍,senh(n)表示去噪后的时域信号,Fenh(k)表示去噪后的频谱。

根据上述步骤,就可以得到去噪后的语音。

1.5 本章小结

综上,整个算法模块的流程如图3 所示。

图3 算法流程图

2 实验仿真结果与分析

2.1 实验结果

在信噪比为-5 dB 情况下,去噪后的语谱如图4 和图5 所示。在信噪比为0 dB 的情况下,去噪后的语谱如图6 和图7 所示。在信噪比为5 dB 情况下,去噪后的语谱如图8 和图9 所示。在信噪比为10 dB的情况下,去噪后的语谱如图10和图11所示。在信噪比为15 dB 的情况下,去噪后的语谱如图12和图13 所示。在信噪比为20 dB 的情况下,去噪后的语谱如图14 和图15 所示。

图4 -5 dB 时babble 噪声去噪图

图5 -5 dB 时white 噪声去噪图

图6 0 dB 时babble 噪声去噪图

图7 0 dB 时white 噪声去噪图

图8 5 dB 时babble 噪声去噪图

图9 5 dB 时white 噪声去噪图

图10 10 dB 时babble 噪声去噪图

图11 10 dB 时white 噪声去噪图

图12 15 dB 时babble 噪声去噪图

图13 15 dB 时white 噪声去噪图

图14 20 dB 时babble 噪声去噪图

图15 20 dB 时white 噪声去噪图

这些图中,最上面的是纯净语音的语谱图,中间的是带噪声的语谱图,最下面的是去噪之后的语谱图。由于空间有限,因此只放了人声为噪音和白噪声为噪音两种情况下的去噪图谱。

2.2 结果分析

本文主要使用可感知语音质量(Perceptual Estimation of Speech Quality,PESQ)和短时客观可懂度(Short-Time Objective Intelligibility,STOI)两个指标来评判模型的好坏。在同一信噪比情况下,不同噪声的两个指标值如表1 所示。

从表1 可以看出,在同一种信噪比情况下,除了5 dB 时,其他信噪比情况下平稳噪声去噪后的可感知语音质量均没有非平稳噪声的高,即在该算法下,去噪后的语音质量非平稳噪声要高于平稳噪声。同样可以看出,非平稳噪声去噪后的短时客观可懂度要高于平稳噪声,即在该算法下,去噪后语音的可懂性非平稳噪声要高于平稳噪声。

表1 同一信噪比时各噪声评价表

在同一噪声情况下,不同信噪比的两个指标如表2 和表3 所示。从表2 和表3 可以看出,不论在非平稳噪声还是在平稳噪声条件下,信噪比越大,去噪效果越好,即去噪后语音质量越高,语音可懂性也越高。

表2 babble 噪声时各信噪比评价表

表3 white 噪声时各信噪比评价表

在低信噪比(-5 dB 和0 dB)条件下,使用同一测试集测试卷积长短期记忆网络方法、谱减法和最小均方误差法,所得两个指标的均值如表4 所示。为了更加直观地观察表4 中的数据,将表4 中的数据以图16 表示。

从表4 和图16 可以观察出,在低信噪比条件下,与谱减法和最小均方误差法相比,卷积长短期记忆网络方法在非平稳噪声去噪方面的可感知语音质量和短时客观可懂度得分更高,而在平稳噪声下可感知语音质量得分更高,短时客观可懂度得分只在-5 dB 时更高。可以得出,在低信噪比条件下,卷积长短期记忆网络方法在非平稳噪声的去噪方面要优于谱减法和最小均方误差法;在平稳噪声的去噪方面,其去噪后语音的质量更好。

图16 不同方法评价柱状图

表4 不同方法的评价表

2.3 本章小结

通过同一信噪比条件下不同噪声的对比和同一噪声下不同信噪比的指标对比得出,在该算法下,加了非平稳噪声藏语语音的去噪效果要比加了平稳噪音藏语语音的去噪效果好,且信噪比越大,去噪效果越好;通过与谱减法和最小均方误差方法去噪效果对比得出,低信噪比条件下,卷积长短期记忆网络方法在非平稳噪声的去噪方面要优于谱减法和最小均方误差法;在平稳噪声的去噪方面,其去噪后语音的质量更好。

3 结 语

语音去噪算法的研究是语音研究工作的重要一环。本文主要针对藏语中拉萨语语音的去噪算法进行研究,提出了一种基于频谱映射的卷积长短期记忆去噪算法,并用可感知语音质量和短时客观可懂度指标对去噪后语音的质量和语音的可懂性进行了对比分析。

本文所用语料库仅有拉萨语,以后的研究可以拓宽语料库的种类,加入其他藏语的方言进行研究。本文在加噪时只选用了单一噪声添加,在以后的研究中可以考虑选择多种噪声进行添加。在本研究中,算法的两个指标的值多数都在1.1 和0.6 左右,还有提高的空间,后面考虑再对该算法进行改进,以提高去噪效果。本研究采用的是频谱映射的方式进行语音去噪,在后面的研究中会尝试采用时频掩膜的方式进行去噪。

猜你喜欢

藏语信噪比频谱
浅谈藏语中的礼仪语
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
藏语传统辞书词目编排法探析
一种用于深空探测的Chirp变换频谱分析仪设计与实现
当代女性藏语长篇小说《花与梦》中女性成长主题研究
悬置、隐藏与冒犯:松太加“藏语电影”中的“作者”话语变奏
自跟踪接收机互相关法性能分析
基于深度学习的无人机数据链信噪比估计算法
FCC启动 首次高频段5G频谱拍卖
低信噪比下基于Hough变换的前视阵列SAR稀疏三维成像