APP下载

基于残差注意力U-Net 结构的端到端歌声分离模型

2021-10-26斌,

关键词:解码残差音频

汪 斌, 陈 宁

(华东理工大学信息科学与工程学院,上海 200237)

大多数音乐录制文件,例如来自YouTube、Spotify、网易云音乐的文件,以多个音源共享一个音轨的混合形式发布。将混合音频分离成单个音源的过程称为音乐源分离(Music Source Separation, MSS)。歌声分离(Singing Source Separation, SVS)是音乐源分离的一种特例,分离过程中将所有的乐器都视为一个音源,目标是将混合音频分离为歌唱人声和背景音乐伴奏两种音源[1]。近年来,由于在音乐旋律提取[2]、音乐流派分类[3]、歌声检测[4]、歌手识别[5]等方面的潜在应用,SVS 已成为音乐信息检索(Music Information Retrieval, MIR)领域的研究热点。

基于非负矩阵分解(Non-negative Matrix Factorization,NMF)[6]的方法以及基于F0 估计的方法[7]是用于歌声分离任务的传统监督方法。随着深度学习技术在音乐信息检索领域的迅猛发展[8],基于深度神经网络的歌声分离技术受到了学术界的关注。文献[9]第一次将卷积神经网络(Convolutional Neural Network,CNN)结构引入SVS 任务,但是所提出模型的层数较深,训练比较困难,同时由于用于SVS 任务的公开数据集较小,因此模型的泛化能力很难得到保证。为了解决上述问题,一种最初用于医学图像语义分割任务的编-解码器结构U-Net[10]在文献[11]中被首次应用于SVS 任务。该方法利用U-Net 结构分析混合音频的语谱图,然后通过预测对应于单个音源的时频掩码来达到分离音源的目的。U-Net 结构在SVS任务中的优势是:一方面,其编-解码结构使得其在有限的训练样本下进行有效的训练成为可能;另一方面,编码块和解码块中包含的多个连通卷积层有助于从语谱图中提取语义特征。

然而,基于U-Net 语谱图掩码分析的SVS 模型仅仅采用语谱图的幅度谱作为模型输入,将分离出的单个音源的幅度谱与混合音频的相位谱相结合后使用逆短时傅里叶变换来恢复单个音源音频。越来越多的研究结果表明,相位信息的缺失对源分离的性能有很大影响,因此文献[12]提出了一种Wave-UNet 的端到端SVS 模型。与U-Net 使用语谱图的幅度谱作为模型输入不同,Wave-U-Net 模型直接采用混合音乐的原始波形作为输入。最近,越来越多的基于Wave-U-Net 的SVS 模型被相关研究者提出。文献[13]提出应用最小超球能(Minimum Hyperspherical Energy, MHE)正则化来进一步提高Wave-U-Net 的分离性能。文献[14] 提出在Wave-U-Net 结构中整合递归层来探索音频信号中更长的时间相关性。从模型设计角度,本文认为基于Wave-U-Net 的SVS 模型的性能可以从以下几个方面进一步提升:

(1)传统的Wave-U-Net 结构中,编码块和解码块都是由具有校正线性单元(Rectified Linear Units,ReLUs)激活函数的单个卷积层组成,当前层只与前一层相关并且只影响下一层。众所周知,深度学习模型可以通过隐藏层的不断加深来抽象组合更高层次的语义特征,但是这种结构下层数的增加很容易使模型陷入梯度消失问题[15]。

(2)传统的Wave-U-Net 结构通过跳跃连接将编码块中对应卷积层的输出与解码块中当前层的前一层输出直接拼接。然而,由于前者包含通过浅层的卷积层获得的低级特征,后者包含通过深层的卷积层获得的高级特征,因此两者的直接拼接很容易造成语义鸿沟问题[16]。

针对第1 个问题,文献[17]首次在SVS 任务中引入Muti-Res 模块[16]。该模块是Resnet[15]中残差单元的扩展,由3 个滤波器尺寸逐渐增大的连续卷积层和一个残差连接组成。但是不同类型的残差单元是否会对基于Wave-U-Net 的SVS 模型的性能产生不同的影响目前仍不得而知。为此本文研究了3 种不同的残差单元对模型性能的影响,并最终选择一种最合适的残差单元用于SVS 任务中。

针对第2 个问题,本文提出在Wave-U-Net 跳跃连接部分设计并引入注意力门控机制。

在MUSDB18 数据集上的实验结果表明,本文提出的RA-WaveUNet 模型在分离性能上优于传统的Wave-U-Net 模型;采用残差单元和注意力门控机制有助于提高模型的性能。

1 算法模型

RA-WaveUNet 模型框图如图1 所示。与Wave-U-Net 相比,其不同之处在于:首先,编码和解码块中的普通神经单元被替换为专门设计的残差单元(记为R);其次,在跳跃连接中添加注意力门控结构(记为A)。模型的具体结构细节如表1 所示,其中EResidual 单元和D-Residual 单元分别表示编码和解码块中的残差单元。

图1 RA-WaveUNet 模型框图Fig. 1 Block diagram of RA-WaveUNet model

表1 RA-WaveUNet 模型结构细节Table 1 Architecture details of RA-WaveUNet model

1.1 传统的Wave-U-Net 结构

传统的Wave-U-Net 结构中,输入的混合音频首先经过12 层连续下采样一维卷积层,每层的时间分辨率减少为前一层的一半,然后最终编码的低分辨率特征表示再经过12 层连续上采样一维卷积层输入尺寸相同的输出。同时,为了保持时间的连续性并避免产生高频噪声,在每个上采样层中进行线性插值。

1.2 残差单元

基于时域分析的源分离方法的性能很大程度上取决于特征提取的性能。为了在不引发梯度消失的前提下通过加深网络提取更高层次语义特征,本文在Wave-U-Net 模型的编码和解码块中都引入了残差单元,即在整个网络中除主干路之外的每一对具有相同尺寸特征图的相邻卷积层之间搭建了支路。对比跳跃连接中的拼接层,编码和解码模块中采用融合层,将上一层卷积与下一层卷积得到的特征图进行特征维度的融合,融合完成后再回到主干路。引入残差单元后网络的整体结构变得更密集,增强了层与层之间特征信息传递,最大程度提高了网络层中特征信息的利用率。

图2 示出了普通神经单位与3 种不同残差单元的对比结果。传统的Wave-U-Net 结构中采用的普通神经单元如图2(a)中的红框所示。第i层普通神经单元的输入xi和输出x(i+1)之间的关系如下:

图2 普通神经单位与3 种不同残差单元的对比Fig. 2 Comparison between the plain neural unit and three different kinds of residual units

其中:f(xi;φi) 表示普通神经单元之间的映射关系;φi为可训练的参数。

文献[15] 中提出的常规残差单元包含卷积层、ReLU 激活层、批归一化(BN)层和映射连接。映射连接可以分为恒等映射连接和卷积映射连接,前者卷积层为输入和输出设置相同的特征维度用实线表示,后者设置卷积滤波器的尺寸为1 以调节输出的尺寸,在图2 中用虚线表示[15]。如图2(b) 和图2(c)中红框所示,Residual unit 1 和Residual unit 2 分别表示选择维度匹配和维度不匹配的映射连接的情况。模型设计过程中为了方便对比,引入了Residual unit 1 和Residual unit 2 的Wave-U-Net 的 模 型 效 果,如图2(b) 和图2(c) 中蓝框所示,两者处理输入数据的R0 部分相同。Residual unit 1 和Residual unit 2的输入xi和输出x(i+1)之间的关系分别如式(2)和式(3)所示:

其中:f(xi;φi) 表示残差单元之间的映射关系; φi为可训练的参数。相加是对应通道间两个特征图逐个元素相加,因此如果xi和xi+1维度不同,需要给xi进行一个线性映射 ω 来匹配维度。

卷积神经网络通过逐层抽象的方式提取目标特征,在这过程中如果感受野设置太小,只能观察到局部的特征,设置太大,则会获取过多的无效信息。Residual unit 2 中采用卷积核尺寸为1 的卷积映射连接,它只能解决尺寸匹配问题。在不违反Resnet 核心思想的前提下,为了进一步探索更好的特征提取能力,本文提出了图2(d)所示的Residual unit 3,并应用 在RA-WaveUNet 模型中。Residual unit 3 的架构类似于Residual unit 2,两者的区别在于卷积映射连接中采用的卷积核尺寸不同。RA-WaveUNet 的编码和解码块中的Residual unit 3 分别采用滤波器大小为15 和5 的卷积捷径连接,与残差学习部分中卷积层采用的滤波器大小保持一致。

为了使残差单元更适合SVS 任务,本文提出的3 种残差单元均去除了Resnet 的常规残差单元中的BN 层。去除原因是:一方面,在端到端的SVS 模型中,为了加速训练,音频输入和小批量 (Mini-batch)数据的大小通常被设置得很小,例如传统的Wave-UNet 中分别设置为0.74 s 和16。乐音随时间变化非常快,因此每个音频片段之间的内部关联性不稳定,这样不同批次之间的均值和方差差异很大。另一方面,训练与预测阶段BN 层的计算并不完全相同,训练阶段BN 层会计算每个小批量的均值和方差,而在测试阶段采用的则是移动平均估计下的全局均值和方差,这种不一致会造成密集样本值预测的精度损失。

1.3 注意力门控机制

传统的Wave-U-Net 结构为了获取编码块中提取的细节信息,将编码块的输出直接与用于音源合成的解码块相应层的前一层输出相拼接,然而,这种直接拼接并没有考虑两者之间的语义鸿沟。与文献[16] 提出的在跳跃连接部分添加几个CNN 层和非线性变换不同,本文引入注意力门控机制来缩小从编码块中提取的低级特征和解码块中高级语义特征之间的语义差距。

注意力机制是一种区域权重学习问题,已经在图像语义分割领域取得了很好的效果[18]。可训练的注意力模型可以分为硬注意力模型和软注意力模型。在硬注意力模型中,每个区域的注意力权重被设为0 或1,模型的训练通常依赖于参数更新的强化学习,导致模型训练的难度很大。在软注意力模型中,每个区域的注意力权重可以是0 到1 之间的任何值,在训练阶段通常采用标准的反向传播,并且可以在无需蒙特卡洛采样 (Monte Carlo Sampling)的情况下训练模型。此外为了消除训练过程中模型对外部门控信息的依赖,文献[19]提出了一种基于特征图和分配权重的自我学习的注意力机制。本文提出的注意力门控机制属于自我学习的软注意力门控机制。

2 实验结果

2.1 数据集和评估标准

图3 注意力门控结构Fig. 3 Architecture of attention gate

实验采用公开数据集MUSDB18[20]作为实验对象。该数据集包含150 首不同类型的音乐曲目,总时长590 min,分别由训练集(100 首音频)和测试集(50 首音频)组成。每个样本由4 种音源组成:人声、贝斯、鼓声和其他。所有音频均为立体声信号,并以44.1 kHz 编码。为了对本文提出的模型和基线模型[12]进行性能对比,实验中将MUSDB18 数据集分为3 个子集:训练集(75 首音频)、验证集(25 首音频)和测试集(50 首音频)。此外,实验还采用了CCMixter数据集[21]扩充训练集,该数据集包含50 首不同类型的全长音乐曲目,总时长192.5 min。每个样本由2 种音源组成:人声和背景音乐声。所有音频都被下采样到22050 Hz,并保留立体声。

音源分离评价指标(BSSEval)[22]中的SDR (Source to Distortion Ratio)是源分离性能评估的常用指标。实验中计算比较了整个数据集中每首歌单个源的SDR 中位值(Med.)、均值(Mean)、中值绝对差(MAD)和标准差(SD)。对于中位值和均值,数值越大则表示源分离性能越好。

2.2 实验结果与分析

在训练阶段,每首歌2~3 min 的音频被随机分为包含16384 个样本点的音频片段用作模型的输入,实验使用随机值初始化模型参数,然后基于Adam 优化算法[23]通过反向传播进行训练。批数据大小设置为16,学习率从0.0001 开始,如果20 次迭代后的验证准确性没有改善,则降低至0.00001,这种提前终止训练的方式将有效防止过拟合问题。训练过程通过最小化估计源的波形和相应的样本源之间的均方误差 (Mean Square Error, MSE)实现。

2.2.1 结合不同残差单元的Wave-U-Net 性能对比为了研究不同残差单元对基于Wave-U-Net 的SVS模型的适用性,并验证Residual unit 3 在SVS 任务中的优势,表2 示出了传统Wave-U-Net[12](M4)、Wave-U-Net 结 合Residual unit 1 (M4-R1)、Wave-U-Net 结合Residual unit 2 (M4-R2)、Wave-U-Net 结合Residual unit 3 (M4-R3)的性能。结果显示,对于人声估计,M4-R3 模型获得了最高的中位值(5.04 dB)和最高的均值(1.43 dB)。

表2 引入不同类型残差单元后Wave-U-Net 的性能对比Table 2 Performance comparison of Wave-U-Net with different types of residual units

2.2.2 BN 层对源分离性能的影响 为了验证去除常规残留单元中BN 层对于SVS 任务的必要性,实验对比了在Wave-U-Net 中有和没有BN 层的残差单元的性能,结果如表3 所示。实验结果表明去除常规残差单元中的BN 层明显有助于提高源分离性能。

表3 BN 层对源分离性能的影响Table 3 Influence of BN layer on the separation performance

2.2.3 M4-R3 的 模 型 复 杂 度 和 性 能 的 权 衡 M4-R3 在编码和解码块中均包含12 层,可实现最佳性能,但是之前的实验发现M4-R3 模型的训练参数规模大,训练耗时长,因此实验测试并比较了包含8、10、12 层的M4-R3 模型的分离性能,分别表示为M4-R3-8、M4-R3-10、M4-R3-12,希望在M4-R3 的模型复杂度和性能之间进行权衡。图4 示出了不同层数的M4-R3 模型的训练参数数量对比结果。由图4可以看出,M4-R3-12 模型的训练参数数量分别约是M4-R3-10 模型和M4-R3-8 模型的两倍和三倍。图5示出了不同层数M4-R3 模型的性能对比结果。可以看出,对于M4-R3 模型,更多的层数对应于更好的性能;3 种M4-R3 模型均优于M4,证明了在传统的Wave-U-Net 的编码和解码块中引入Residual unit 3 有助于提高源分离性能;M4-R3-8 模型在均值方面其人声分离性能远低于M4-R3-12 模型。然而,M4-R3-10 模型的性能与M4-R3-12 模型相当,但是训练参数数量要少得多。因此,本文认为M4-R3-10 模型可以在模型复杂度和性能之间达到较好的平衡。

图4 不同层数M4-R3 模型的训练参数数量对比Fig. 4 Parameter numbers comparison of M4-R3 models with different numbers of layers

图5 不同层数M4-R3 模型的性能对比Fig. 5 Performances achieved by M4-R3 models with different numbers of layers

2.2.4 引入注意力门控机制的必要性 为了验证注意力门控机制的引入对性能增强的贡献,比较了M4、结合注意力门控机制的M4(表示为M4-A)、M4-R3-10、结合了Residual unit 3 和注意力门控机制的RA-WaveUNet 4 种模型的性能,结果见表4,其中对应于同一列中的最佳性能值以黑体显示。

表4 注意力门控机制对性能的影响Table 4 Contribution of the attention gate to the performance

实验结果表明:RA-WaveUNet 性能优于M4-R3-10,验证了注意力门控机制的引入进一步提高了分离性能;RA-WaveUNet 的性能优于M4-A 和M4-R3-10,验证了以上两种改进之间存在互补性;M4-A 和M4-R3-10 的性能均优于M4,验证了以上两种改进均有助于增强Wave-U-Net 的分离性能。

2.2.5 SVS 算法 性能对比 在MUSDB18 数 据集的测试集上将RA-WaveUNet 模型与其他4 种最新的端到端SVS 模型[12-14,17]进行对比,结果如表5 所示。可以看出,RA-WaveUNet 模型在人声估计方面的分离性能略差于HydraNet+H7 模型,但是在背景音乐估计方面明显优于该模型,并且所有分离性能指标均优于Wave-U-Net 模型、MHE0 模型以及U310 模型。实验结果表明RA-WaveUNet 模型取得了与最新的端到端SVS 模型相当或更好的分离性能。

表5 与最新SVS 模型的性能对比Table 5 Performance comparison with state-of-the-arts SVS models

3 结 论

本文对传统的基于Wave-U-Net 的SVS 模型进行了改进以提高其源分离的准确性。在特征提取和合成阶段,在Wave-U-Net 的编码和解码模块中设计并引入了残差单元来解决梯度消失问题。这样可以构建更深的体系结构以提取更深层语义特征;在Wave-U-Net 的跳跃连接中设计并引入了注意力门控机制,利用从解码块提取的特征来调整从编码块转换的特征的权重,以减少它们之间存在的语义鸿沟。在MUSDB18 数据集上的实验结果表明,RAWaveUNet 模型优于传统的Wave-U-Net 模型和大部分最新的端到端SVS 模型,同时,以上改进均对模型性能的提高有帮助。未来我们将引入GAN 进行数据增强去解决SVS 领域由于训练样本少所引发的泛化能力差的问题。

猜你喜欢

解码残差音频
Egdon Heath (Extract from The Return of the Native)
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
柏韵音频举办Pureaudio 2021新产品发布会
基于残差学习的自适应无人机目标跟踪算法
文化解码
解码eUCP2.0
基于深度卷积的残差三生网络研究与应用
开盘录音带音频资料的数字化
文化 解码