结合优化U⁃Net 和残差神经网络的单通道语音增强算法

2022-05-12许春冬

现代电子技术 2022年9期

许春冬，徐琅，周滨

（江西理工大学信息工程学院，江西赣州 341000）

0 引言

语音增强是一种通过寻找稳健的语音特征及其基于模型参数适应化的噪声补偿方法，其主要目的是提高带噪语音的质量及可懂度。语音增强技术已应用在车载系统、智能耳机终端和听觉辅助器等领域。

现阶段，随着深度学习技术的成功实践，深度神经网络已经广泛应用于语音增强中，并显著提高了低信噪比和非平稳噪声环境下的语音质量和可懂度。2006 年，Hinton 提出深层神经网络及反向传播算法。此后，大量的神经网络算法被提出并运用，如基于深层神经网络（Deep Neural Network，DNN）的方法，此类方法通过干净语音对数功率谱和带噪语音对数功率谱之间的复杂非线性映射关系，建立网络训练模型，与传统方法相比提高了非平稳噪声环境和低信噪比下的语音增强效果。但是考虑到语音信号在时频域的相关性，为充分利用语音信号在时频域的特征信息，文献[7]提出通过卷积神经网络（Convolutional Neural Network，CNN）构造训练模型，利用CNN 网络在二维平面的局部相连性质，能够更好地利用语音信号的时频特征信息，提取出更丰富的特征信息，与DNN 相比恢复干净语音信号的效果更好。全卷积神经网络（Fully Convolutional Network，FCN）是将传统CNN 中卷积层后面的全连接层替换成卷积层，通过对称网络结构，反卷积输出能够保证和输入相同的尺寸大小，保留原始语音信号的全部信息。

U⁃Net网络是2016年开始用于医学图像分割的一种优秀的网络模型，它是一种端到端的对称结构，在分割医学图像领域表现出卓越的性能。因U⁃Net 网络是在FCN 网络的基础上改进而来，故其网络结构具有局部相连特征，可以被引用到语音信号处理领域，充分利用卷积网络特性学习语音时频相关特征，对带噪语音的二维时频信息建模。Wave⁃U⁃Net 是由文献[9]提出用于音源分离任务中，其结构与U⁃Net 网络结构相同，只是将其应用于音频相关任务中，故称为Wave⁃U⁃Net。Wave⁃U⁃Net 网络直接在时域对语音信号进行一维卷积，不需进行时频变换，具有强大特征提取能力使得在语音分离任务中实现了不错的效果，但是网络模型训练由于梯度消失的原因，训练不够稳定。

本文提出一种改进的U⁃Net 语音增强模型，将U⁃Net 网络模型应用于语音增强任务中，利用文献[10]提出的残差神经网络，可以改善反向传播过程中的梯度流以及防止梯度消失，解决了网络模型训练不稳定的问题。将残差神经网络（Residual Network）引入U⁃Net 模型中，通过建立深层抽象特征与浅层特征之间的“跨层连接”，增强特征的传播能力，提高特征信息的利用率，有助于梯度反向传播，并加快了网络的收敛速度，避免梯度消失现象，在一定程度上有效地提升了模型的性能，对比其他算法具有更好的增强效果。

1 模型框架

1.1 U⁃Net模型

U⁃Net 模型是卷积神经网络的一种变形，因其结构形似字母U 而得名U⁃Net。如图1 所示，U⁃Net 的整体结构对称，编码器是由多个卷积层组成，其中包括卷积滤波、批标准化、池化操作以及非线性变换。左边是提取特征的编码器，用于下采样；右边是在编码的特征中构造的解码器，用于上采样。

图1 U⁃Net 结构

图1 中：左边的矩形框代表多通道特征图；右边的矩形框代表从左边复制得到的特征图；矩形框上方的数字代表通道的数量；箭头表示不同的操作，同一卷积层输出的特征图大小是一致的。图中左边部分的矩形框大小由上到下依次递减，右边的矩形框大小由下到上依次增强，说明编码器在不断提取特征之后，在解码器中相应地恢复特征。U⁃Net 结构中的跳层连接是将左边结构输出的特征图拼接到右边结构中，即将底层特征复制到高层结构中，能够将特征信息在底层与高层网络中传播，这种网络结构有助于梯度反向传播。

传统的U⁃Net 模型中考虑到梯度消失的问题，一般选择的网络层数较少，需要学习的参数数量较多，导致U⁃Net 网络难以满足日益复杂的需求；同时，U⁃Net 网络在形成极大计算量的同时，会因为大量重复的特征提取过程造成很多冗余，最后导致整个网络在训练的过程中收敛的速度很慢。

1.2 残差神经网络

残差神经网络（ResNet）是一种常见的卷积神经网络模型，通过定义一种新的学习过程，改变了深层卷积神经网络的信息流向，解决了深层卷积神经网络训练过程中网络层数与其准确度之间的问题，改善了因网络加深梯度消失的问题，加快网络收敛。如图2 所示，其网络结构通过“跨层连接”（Shortcut）的方式建立卷积层之间的跨层叠加，相当于增加直连通道，在保留上一网络层输出的同时实现特征的重用。

图2 残差块结构图

残差神经网络是由残差块组成，基于残差块的优化思想，其计算公式为：

残差块可以分为直接映射部分和残差部分，由式（1）可知：代表网络的输入；代表网络的输出；w为第层参数；(,w)为残差映射。残差块的优化思想是在神经网络训练中，学习拟合⁃的残差映射比学习网络中恒等映射更容易。

由式（2）可知，式中的梯度始终大于1，故随着神经网络层数的增加，梯度也不会消失。使用残差神经网络能够消除深层网络训练中梯度消失的现象，使网络结构更加优化且富有多样性。其中，是上一层的输出，通过两个标准的3×3 卷积层，在该层输出时通过“跨层连接”将与两层卷积网络输出进行叠加，得到残差映射()。故该残差神经网络表达式为：

对残差神经网络结构分析发现，残差神经网络映射相比原始映射更容易学习，通过中间堆叠层学习残差映射，这种残差映射能够保证网络训练过程中网络性能不会下降，可以加快模型的训练速度，从而优化实验结果。将残差神经网络引入U⁃Net 模型中，将其代替传统卷积层，通过建立上一层与后一层之间的“跨层连接”，使得整个网络以残差块形式堆叠，有利于网络模型的训练，以训练出更深的网络且保证模型的性能不会退化。

1.3 Residual⁃U⁃Net 网络设计

本文设计了一种Residual⁃U⁃Net 网络，结构如图3所示。以U⁃Net 网络作为基本框架，加入残差神经网络，并进行批标准化处理。左侧网络包括卷积层和最大池化层，编码器提取每层信号的抽象特征，每层输出的特征图在频率维度减少，而在时间维度上保持不变。在基线U⁃Net 结构基础上，在2 个3×3 卷积层和1 个2×2 最大池化层之间加入1 个两层结构的残差块，整个结构通过残差卷积模块堆叠而成。卷积操作之后进行批处理化，然后通过LeakyReLU 激活函数进行激活，且卷积层均采用零填充方式进行填充，以保证输出特征图与输入保持一致。

图3 提出的Residual⁃U⁃Net 网络结构

右侧和左侧网络是对称结构，右侧网络是上采样过程，通过上采样恢复特征图大小。与左侧结构类似，采用3×3 的卷积核进行反卷积操作，在2 个3×3 的卷积层之间加入1 个3×3 两层结构的残差块。训练目标是将混合波形∈[-1,1]分离为个目标源波形,,…,S，其中S∈[-1,1]，∈1,2,…,,为音频信道数，为音频样本数。对于单通道的语音增强，设置=2 和=1。

与基线U⁃Net 结构相比，Residual⁃U⁃Net 做出以下改进：

1）增加网络层数，用于提高网络特征的提取能力；

2）加入图2 所示的残差块结构，加深网络深度，用于解决网络训练中梯度消失的问题。

2 实验设置

2.1 实验环境

实验仿真的计算机硬件为Intel Core i7⁃8700 与GTX1080Ti，软件选择TensorFlow 作为后端训练。

2.2 实验数据

实验数据选自VCTK语音数据库，该数据集由48 kHz采样率下的干净语音构成。首先对所有语音数据下采样到16 kHz，选取34 个来源于不同文本段落的说话人数据，其中30 个用于训练，2 个用于验证，2 个用于测试。使用的噪声选取DEMAND 噪声数据集，共有18 种不同的噪声。构造带噪语音需要将干净语音和噪声按照一定信噪比叠加合成，按照随机合成方式，选取10 种不同的噪声按不同的信噪比（-10 dB，-5 dB，0 dB，5 dB，10 dB）与用于训练的30个干净语音段落构成190 000条训练集数据，测试集选取不同于训练集的5 种噪声，以保证测试模型能够在不同信噪比和不同噪声环境下的泛化能力。实验构造两种不同的测试数据集，测试集1为随机选择2 个说话人语音段落，包含20 种不同的噪声条件：5 种不同的噪声类型与4 种不同的信噪比（2.5 dB，7.5 dB，12.5 dB 和17.5 dB）。测试集2 选择2 个说话人的语音段落，包含12种不同的噪声条件：3种不同的噪声类型与4种不同信噪比（-5 dB，0 dB，5 dB和10 dB）。

2.3 参数设置

训练模型选择TensorFlow 搭建。模型训练时，采用LeakyReLU 激活函数替换原基线网络实验中的ReLU 函数，LeakyReLU 激活函数能够解决ReLU 函数训练中出现梯度为0、训练学习停止的问题。LeakyReLU 激活函数公式为：

式中∂=0.01。实验中使用Adam（Adaptive Moment Estimation，Adam）优化算法对随机抽样的训练数据训练，Adam 优化算法主要利用梯度的一阶矩估计和二阶矩估计动态地调整试验参数的学习率，且经过偏置校正后能够使每一次迭代的学习率保持在稳定的范围内，使得参数比较平稳。Adam 优化算法如下：

其中，式（5）、式（6）分别代表对梯度的一阶矩估计和二阶矩估计；式（7）、式（8）分别代表对一阶和二阶矩估计的修正；式（9）是梯度更新规则。，是常数，控制指数衰减；m，n是梯度的指数移动均值，分别为梯度的一阶矩、二阶矩所得；̂，̂分别是m，n的修正值。实验中设置学习率为0.000 4，衰减率为0.9，为0.99，训练批量大小为16。网络迭代训练过程中选择均方差（Mean Square Error，MSE）来计算误差，其训练公式如下：

式中：(x)和y分别为对应的干净语音的第帧的时域特征和估计特征值；是网络训练中的训练次数。

2.4 评价指标

为了更好地评估训练的网络模型，通过7 种客观的语音增强评价指标衡量不同网络的性能。如表1 所列，PESQ 是国际电信联盟推荐的评估语音质量的标准方法，CSIG 主要关注语音信号失真的平均意见评分（MOS）预测，CBAK 是背景噪声侵入性的MOS 得分预测，COVL 是对总体效应的MOS 得分预测，STOI 是语音短时客观可懂度，fwSNRseg 是频率加权分段信噪比。以上6 种评价指标在整个测试数据集的平均值作为最终结果，其数据值越大，表示所含噪声和失真越少，噪声抑制能力越强，语音质量和可懂度越高。

表1 评价指标

3 实验结果与分析

3.1 基线方法对比实验分析

为评估提出的网络模型在复杂噪声环境下的增强性能，设置了两组实验分析Residual⁃U⁃Net 模型。表3为测试集1 条件下的带噪语音（即未处理信号）、Wiener（维纳滤波）语音增强算法、基于生成式（Generative Adversarial Network，GAN）语音增强算法、基线U⁃Net 的语音增强算法的客观评估结果。实验选用4 个客观评价指标，分别为PESQ、CSIG、CBAK、COVL，如表2 所列，选择相同实验环境下的4 组实验进行对比分析。信噪比设置为与训练集不同的4 种（2.5 dB，7.5 dB，12.5 dB和17.5 dB）进行测试。选择768 条测试语音，然后取其各类评价指标对应实验结果的平均值。

表2 提出方法与不同参考方法的客观指标评估结果

可以看出本文算法的PESQ 值可达3.04，效果明显优于其他算法，其平均分数较基线方法提高了5.9%。这表明Residual⁃U⁃Net 语音增强算法可以有效地去除噪声，具有更好的听觉质量。

3.2 不同参考算法对比实验分析

第一组实验验证了提出的网络模型算法比其他几种参考方法增强的效果更好，为进一步证明本文算法在低信噪比条件下的效果优于基线算法，选择测试集2 进行第二组实验。实验选取3 种不同的语音质量客观评价指标：PESQ、STOI、fwSNRseg。如表3 所列，在不同信噪比（-5 dB，0 dB，5 dB 和10 dB）范围内，与基线U⁃Net方法相比，提出的Residual⁃U⁃Net 方法的语音增强效果更好，噪声抑制能力有所提高，其中PESQ指标相较于基线网络平均提高5.08%，STOI 指标相较于基线网络提高了1.04%，fwSNRseg 指标相较于基线网络提高了0.45 dB；从不同信噪比的增强效果分析，在信噪比为-5 dB 的噪声环境下，本文算法的PESQ 指标得分优于基线算法7.9%，STOI 得分较基线算法提高了1.2%，fwSNRseg 指标比基线算法增强了0.51 dB。由总体评估可得，本文提出的Residual⁃U⁃Net 方法的语音增强效果比基线U⁃Net网络效果好，尤其是在低信噪比条件下，较基线算法可以更好地提升语音的听觉质量和可懂度。

表3 提出的方法与基线方法的客观指标评估结果

3.3 语谱图比较

语谱图能够直观地反映语音质量的好坏，故分析比较了Residual⁃U⁃Net 与基线U⁃Net这两种算法增强后的语谱图，以一条信噪比为0 dB 的带噪语音为例，增强后的语谱图如图4 所示。

图4a）和图4b）分别给出了一条说话人干净语音和被0 dB 的SP05 噪声（DEMAND 噪声数据集中一条噪声样本）污染后的带噪语音的语谱图；图4c）和图4d）分别为基线U⁃Net 算法和提出的Residual⁃U⁃Net 算法增强的语谱图。从语谱图可得，这两种算法都可以去除大部分噪声，从图中圆圈部分可知，本文方法相较于基线方法可以明显地恢复细节处的语音信息。与图4a）干净语音及图4c）基线增强语音的频谱图相比，图4d）Residual⁃U⁃Net 算法能够有效恢复低频段语音部分，且图4d）的细节恢复效果优于图4c）。总体而言，图4c）与图4d）算法相比，基线算法对语音段的去噪效果明显，但是对非语音段噪声去噪效果不够明显。而Residual⁃U⁃Net 算法不仅对语音段去噪效果好，对非语音段去噪效果同样明显，能够有效恢复低频段语音，还能恢复高频段的部分语音成分。

图4 语谱图对比

总而言之，本文提出的Residual⁃U⁃Net 语音增强算法相较于基线方法能够更有效地去除带噪语音中的噪声部分。对比图4a）中干净语音语谱图，提出的语音增强算法和基线算法相比，增强之后的语谱图更接近干净语音语谱图，说明提出的语音增强算法效果更好。

4 结语

将图像分割中常用的U⁃Net 网络应用到语音增强领域，并与残差神经网络结合应用到U⁃Net 网络中，构造了一种改进的Residual⁃U⁃Net 语音增强算法，将残差神经网络中的残差块替换原U⁃Net 中的连续双层卷积块，缓解梯度消失的同时构成了一种结构更为简单、参数较少的模型，实现了语音增强。实验结果表明，与经典神经网络语音增强算法以及基线U⁃Net 算法相比，本文提出的Residual⁃U⁃Net 算法具有更好的语音质量及可懂度。

注：本文通讯作者为许春冬。