基于CycleGAN的音频风格迁移改进方法

2022-07-17蔡志伟许鑫亮吴文益

大连民族大学学报 2022年3期

王欢，蔡志伟，许鑫亮，张豹，吴文益

(大连民族大学计算机科学与工程学院，辽宁大连116650)

音乐风格没有明确的概念，不同语义下音乐风格含义不同[1]，可能是音乐流派，如：古典乐、爵士乐等，也可能是音色、音调的不同，本文研究的音乐风格迁移指的是音乐流派风格的迁移。

音乐是一个1维的时间序列，且音乐的特征信息较多，特征之间连接较为复杂紧密，在提取特征上较为复杂。目前大多数对音频进行风格迁移的方法都是直接采用的图像风格迁移的算法。

国际上的科学家研究了复杂的表示和信号处理技术。Engel[2]等人使用GAN通过模拟STFT幅度和相位角来生成音乐音色，但没有生成特定风格的音频。Huang等[3]提出的Timbertron通过提取音频的CQT特征，然后通过CycleGAN对其进行音色转换。随后通过训练好的声码器将转换后的CQT特征转换成原始音频。但该方法是在单一音色域上进行风格变换。Noam等[4]提出了一个通用的音乐翻译网络，该网络通过训练一个WaveNet音乐编码器和多个WaveNet解码器来实现音乐音色转换。该网络实现了从一种音色域转换到多种音色域，但是想要实现不同风格，需要训练多种解码器，这对机器的算力有较高的要求，当更换风格时又需重新训练解码器，不具有泛化性。

针对目前存在的多种音频风格转换模型不具备泛化性、计算量大等问题。本文提出了一种CycleGAN音频风格迁移的改进方法来克服上述模型存在的问题。

1 本文方法

本文采用CycleGAN[5]实现音频的风格迁移，针对音乐数据的特殊性对CycleGAN进行了改进。生成式对抗网路是Gosodfellow等[6]提出的一类隐式生成模型。CycleGAN模型结构如图1。它的核心是通过两个生成对抗网络的合作组成的。第1组生成对抗网络是生成器GA→B(从A到B的生成)与鉴别器DB，两个生成器GA→B和GB→A的目标是尽可能生成对方领域中的图像以骗过各自对应的鉴别器，鉴别器用于判断图像是否属于指定领域。

图1 CycleGAN模型结构

1.1 改进的ResNet结构

为了减少计算量，本文在生成器中的ResNet残差网络中加入了瓶颈结构如图2。利用1×1的卷积核[7]，1×1的卷积核能够减少计算量而不会损失太多原来的信息。上一级输入通过1×1的卷积核，进行降维同时进行压缩操作，在3×3的卷积核后面再设置一个1×1的卷积，使其维度与输入时保持一致。

图2 瓶颈结构

生成器网络结构如图3。通过3个卷积层进行下采样，输入到ResNet残差网络，ResNet网络由10个Resnet Block组成，在每一层Resnet layer中加入瓶颈结构，减少计算量同时不会损失太多原来信息。最后通过反卷积进行上采样还原回原来尺寸。

图3 生成器网络结构

1.2 提高生成音频可信性

为了提高生成音频的可信性，使生成的音乐更像真实音乐，本文在两组对抗生成网络中各增加1个鉴别器。将多领域音乐与通过1个生成器生成的音频输入该鉴别器，以使得生成器学习音乐更高级的特性，从而使生成的音频更具有可信性。增加1个鉴别器后的1组生成对抗网络如图4。

图4 附加鉴别器后的生成对抗网络

2 实验结果分析

本文采用不同流派数据集，为实验模型实用性提供可靠保证。

2.1 数据集及预处理

本文采用的音频格式为MIDI格式，MIDI音乐就是利用音乐软件中的音序编辑方法，通过MIDI系统处理合成制作出的计算机音乐[8]。其类似于活页乐谱的符号音乐，MIDI文件中并不存在波形数据，而是将所演奏的乐曲信息用信息字节来描述。在本文中，使用的歌曲流派有：爵士乐，古典音乐与流行乐，数据集见表1。数据集从YouTube上收集,可以从https:∥goo.gl/ZK8wLW下载。

表1 数据集

首先对数据集进行预处理如图5。过滤掉错误音乐，并将得到的规格音乐转换成2维矩阵，2维矩阵存放的数据为时间和音高[9]。

图5 数据预处理

2.2 实验方法对比

古典音乐与爵士乐的差异在于音高[10]，古典音乐的音高比爵士乐音高高。本文根据这一特点，在进行古典音乐转换为爵士乐风格时，降低原音频的音高；进行爵士乐转换为古典音乐风格时，提高原音频的音高。

本文将原音频与转换后的音频的音高特征图绘制出来进行直观的比对，同时将改进后生成的音频与传统CycleGAN生成的音频进行对比。

为古典音乐音高特征图如图6。传统CycleGAN生成的古典音乐转换为爵士乐风格音频的音高特征图如图7。本文改进后的CycleGAN生成的古典音乐转换为爵士乐风格音频的音高特征图如图8。

图6 古典音乐音高特征图

图7 古典转爵士音高特征图

图8 改进后古典转爵士音高特征图

从图7中可以看出实现了音高的降低，但效果不是很好，图像上与原音频音高特征图相比较为稀疏，这是因为通过传统CycleGAN生成的音频丢失掉了一部分音高信息，表现在听觉效果上为音频不连续。

从图6中可以看出实现了音高的降低，与传统CycleGAN生成的音频音高特征图，图7相比音高较低效果更好一些，与原音频音高特征图，图6相比音高信息保留较为全面，且与图7相比，音高信息保留更多。听觉效果上更为连续。

爵士乐音高特征图如图9，传统CycleGAN生成爵士乐转换为古典音乐风格音频的音高特征图如图10。本文改进后的CycleGAN生成爵士乐转换为古典音乐风格音频的音高特征图如图11。

图9 爵士乐音高特征图

图10 爵士转古典音高特征图

图11 改进后爵士转古典音高特征图

从图10中可以看出实现了音高的提高，但效果不是很好，且传统CycleGAN生成的音频丢失了较多的音高信息，导致听起来不连续。

从图11中可以看出改进后生成的音频音高提高效果较传统CycleGAN生成的音频音高特征图，图10相比较好，且保留较多信号信息，听起来更为连续。

3 评估指标

生成的音乐既要实现风格的迁移又需满足人类的主观感受，为此本文采取主观评价与客观评价相结合的方式。

3.1 主观评价

主观评价采用国际标准MOS平均主观意见分，MOS评价标准见表2，即由不同的人分别对原始音频和通过系统生成的音频进行主观感觉对比，得出MOS分，最后求平均分。MOS一般5个等级：很差、差、一般、良好、优秀。

表2 MOS评价标准

本文以发送调查问卷的形式，来实施对音频迁移效果的主观评估。共回收了623张问卷。结果如图12。

从图12中可以看出本文实现的音频迁移效果较好。其中良好占40.03%，优秀占33.44%，一般占25.24%，差占0.96%，很差占0.32%。说明音频风格迁移能够较好地满足人们对音乐的主观要求。

图12 主观评价统计图

3.2 客观评价

PA(xA)=CA,B(xA)>0.5;

(1)

(2)

另外，对于模型的评估还需看其损失率和正确率。损失越小，正确率越高，模型越好。本文改进的CycleGAN模型当迭代100次时，正确率达88.71%，损失值很小，超出了计算机精度范围，几乎为0。

传统CycleGAN基本在迭代73次时损失值不发生明显变化；本文改进的CycleGAN在迭代72次时损失值已不发生明显变化，对比改进前后在不同程度高斯噪声下迭代70次的损失值见表3。

由表3可以看出该二分类器鲁棒性很好、具有很好的泛化性，且改进后降低了损失值，说明改进后在客观指标上也表现良好。

4 结语

本文提出基于CycleGAN音频风格迁移改进方法。在传统CycleGAN网络生成器中的ResNet中加入瓶颈结构，可以提高计算速度同时不损失原来信息。本文附加两个鉴别器使CycleGAN网络中的生成器可以学习更高级的特性，这有助于规则生成器生成具有多样性的音频，使其生成的音频更接近现实音乐。不论是主观上MOS评估还是客观上二分类器评估结果均显示该模型的音频风格迁移具有不错的效果。