用于轴承故障诊断的两步迁移学习法

2022-01-25陶启生满君丰

计算机工程与应用 2022年2期

陶启生，彭成，2，满君丰，2，刘翊，3

1.湖南工业大学计算机学院，湖南株洲 412007

2.中南大学自动化学院，长沙 410083

3.国家先进轨道交通装备创新中心，湖南株洲 412000

滚动轴承是现代重机械中的基础部件，也是最容易发生故障的部件之一，当轴承发生故障而不能及时检测出来时，就可能造成不可预知的事故，甚至造成人员伤亡，文献[1]指出接近50%的机械故障都是由于轴承故障引起的，所以为了保障机械设备的正常运转，降低维修费用，提升经济效益，对于机械轴承故障诊断技术进行研究具有重大的实际意义[2-3]。

美国学者是最早对轴承故障诊断进行研究的，他们通过加速度传感器采集轴承的振动信号对轴承进行故障诊断，国内对于轴承故障诊断研究起步相对较晚，开始只是学习国外的先进经验，经过众多学者的不断努力，国内的振动信号处理和故障诊断方法已经有了长足的进步。通常使用的轴承振动信号处理方式有时域分析方法、频域分析方法以及时频分析方法。基于传统的数据驱动的机械故障诊断方法的步骤为：（1）信号采集；（2）特征提取；（3）特征选择；（4）故障分类。近年来，人工智能逐渐走进人们的视野，且随着深度神经网络在图像分类与语音识别方面取得的优异成果，研究人员开始将神经网络应用于机械故障领域，神经网络可以让模型通过大量的数据提取并选择特征，减少对于人工的依赖，极大地提升了故障诊断领域的智能化水平。

深度学习通常需要足量数据才能训练出优异表现的网络模型，而在实际生产环境中，轴承故障的数据获取成本大，且获取的数据故障分布不均衡，所以很容易造成深度学习模型过拟合或者难以收敛的问题。所以迁移学习逐渐被引用到机械故障诊断领域，通过在源数据集与目标数据集之间进行迁移学习，让模型可以在少量数据和不平衡数据的情况下，但迁移学习同样存在着负迁移[4]的问题，即由于源数据集与目标数据集之间数据分布差异过大影响迁移学习的效果，因此如何避免由于数据分布差异过大导致的负迁移效应成为了研究的重点。本文提出了基于DCGAN（deep convolutional generative adversarial networks）与二步迁移学习的轴承诊断方法，本文先通过使用DCGAN创造辅助数据集，然后再在源数据集与辅助数据集之间进行一次迁移学习，最终在辅助数据集与目标数据集间再次迁移学习。由实验表明，本文提出的方法可以有效克服迁移学习的负迁移效应，成功训练出表现优异的模型，而且最终的模型效果还优于传统的机器学习与普通深度学习方法。

1 国内外研究现状

由于振动信号非常复杂，常伴随着大量背景噪音，为了有效提取故障特征信号，莫代一等[5]将基于信号共振稀疏分解（RSSD）方法引用到滚动轴承早期故障诊断中，可以通过信号本身的特点，自适应地对信号进行稀疏分解，有效去除噪音，为故障信号的检测提供了新思路。因为常采用的信号分析的傅里叶变换、小波变换等数学方法都有各自的局限性，程军圣等[6]提出了基于内禀模态奇异值分解和支持向量机结合的故障诊断方法，采用EMD方法对故障信号进行分解，得到IMF分量，然后将IMF分量组成的特征矩阵的奇异值作为特征向量，并结合支持向量机进行故障诊断。Liu等[7]提出利用经验模态分解（EMD）和Hilbert谱进行机械故障诊断。针对轴承故障特征信号被背景噪音干扰无法提取的问题，郑慧峰等[8]提出了利用EMD与Kolmogorov熵相结合来提取信号特征的方法进行故障诊断，即先对振动信号进行经验模态分解得到imf分量，然后对imf分量进行降噪得到特征信号，最后对特征信号进行Kolmogorov熵计算，通过熵进行损伤评估。Dragomiretskiy等[9]于2017年提出变分模态分解，可以有效分解混合信号，将抑制模态混淆，有助于下一步进行提取特征进行故障诊断。Mcdonald等[10]在最小熵反褶积法（MED）的基础上提出了最大相关峭度解卷积算法，解决了传统MED支对单脉冲信号敏感的特点，有效提升了模型性能。上述基于信号处理和模式识别技术的方法虽取得了丰硕的成果，但依然存在信号处理方法复杂、对专家诊断经验依赖等缺点。

Gao等[11]用深度卷积模型对故障轴承进行诊断，而且与区域适应性方法相结合，有效地增强模型效果；刘正平等[12]提出了基于堆栈降噪自编码的轴承故障诊断方法，通过使用自动编码器从原始数据中学习到特征，有效避免了对于专家诊断经验的依赖的弊端，且可以取得较好的诊断正确率。上述工作都避免了对于振动信号的复杂的特征提取工作，而直接将轴承振动信号输入到神经网络中进行故障诊断分类，实现了“端对端”的分析过程，且有效提升了诊断工作的智能化水平。深度学习通常需要足量数据才能训练出优异表现的网络模型，于是只需要少量数据就可以获得优异模型的迁移学习就被引入到故障诊断领域中。Yang等[13]提出一种基于迁移学习的轴承故障诊断方法，该方法对基于特征的转移神经网络进行迁移学习，且添加正则化项，最终在缺乏数据的情况下可以训练可靠的智能模型。李林杰[14]提出了基于迁移学习的滚动轴承诊断系统，通过短时傅里叶变换将时域信号转变为包含丰富信息的时频图，并构建CNN网络且通过相关数据集进行预训练，可以有效提升实时性，上述的迁移学习方法都避免了深度学习海量数据的问题，但都对源数据集与目标数据集的数据分布差异有一定的要求，分布差异过大的迁移学习可能会导致模型无法很好地学习到源数据集的知识，为了能够在缺乏负样本以及小样本的情况下进行迁移学习得到有效的故障诊断模型，所以本文提出了基于DCGAN与二步迁移学习的故障诊断方法，可以有效地避免在迁移学习中可能出现的负迁移问题，在当前的机械故障诊断领域，基于迁移学习的诊断方法还是比较新颖的方法，相应的研究还较少，相信以后会涌现更多优秀的发现。

2 理论基础

2.1 迁移学习（transfer learning）

近些年，得益于硬件的发展与大数据技术的飞速发展，深度学习在图像与语音[15]等领域取得了巨大的成功，于是将深度学习应用于轴承故障检测的研究与日俱增，由于深度学习方法需要海量的数据才可以训练出一个表现优异的模型，而故障检测领域的数据具有获取难度大、标注成本高的特点，因而本文提出使用迁移学习来进行故障诊断。

迁移学习[16]是将源领域的知识迁移到目标领域中去应用的方法，如图1所示，迁移学习的核心在于对已有知识的重新使用，来解决目标领域中数据匮乏的问题，即通过知识迁移达到知识重用的目的，在本文中就是想要在轴承振动数据中应用到模型在源数据集中学习到的特征提取的知识。

图1 迁移学习示意图Fig.1 Transfer learning diagram

迁移学习的主要概念有域D（Domain）和任务T（Task），域D的组成为特征空间X与X的边缘概率分布P(x)，其中x∈{x1,x2,x3}，任务T的组成是标签空间Y与预测函数f(*)，定义源域为Ds，目标域为Dt，源任务是Ts，目标任务是Tt，迁移学习的定义是当Ds≠Dt,Ts≠Tt时，将在Ds、Ts中学习到的知识应用在Dt、Tt中，以期增高Tt的预测函数f(*)。

2.2 卷积对抗生成网络（DCGAN）

对抗生成网络GAN由生成器（Generator）与判别器（Discriminator）组成[17]，生成器与判别器之间相互博弈对抗，GAN的标准结构如图2所示，生成器的输入Z为随机数据，通常为高斯分布噪音，而判别器则是要对生成器的输出O进行判别，同时判别器还要对真实数据进行判别，在GAN的训练过程中，通过对于损失函数的设计，生成器向着产生的O在判别器前取得更高的分数发展，而判别器向着能够更明显地判别出生成器的O的方向发展，在不断的博弈中，生成器生成的数据分布Pg就与真实数据的分布Pdata差异越来越小，当差异小到一定的程度，就可以认为模型训练收敛，这时可以将生成器单独拆出来，使用生成器来生成与真实数据几乎同分布的数据，这就是GAN在数据增强领域中的应用。

图2 生成对抗网络结构图Fig.2 Generate adversarial network structure diagram

深度卷积生成对抗网络（DCGAN）是由Radford等[18]在2015年提出，DCGAN的创新在于使用了深度卷积网络来作为GAN的生成器与判别器，同时的改进还有在卷积层后添加上批标准化（batch normalization，BN），使用卷积层来代替池化层，以及除了生成器输出层激活函数使用Tanh，模型的所有其他层都使用ReLU和Leaky ReLU激活函数，通过这些改进与创新，DCGAN对于局部的特征提取能力有了极大的提升。本文对于振动数据的预处理就是将其转换成时频图像，由于DCGAN十分适合处理后的图像数据，且模型中多层的卷积与反卷积也对于故障特征的提取十分有益，所以本文选择了使用DCGAN来进行辅助数据集的生成。

在训练DCGAN使用的源数据集数据格式为（None×3×64×64），None为批处理量，在数据喂给DCGAN的判别器时，判别器第五层卷积层输出的数据格式为None×1×1×1，生成器的输入为100×1×1的随机噪音，输出为1×64×64的数据，将生成器的输出与真实数据同时输入判别器，模型的损失函数如下所示：

由生成器与判别器两部分组成，通过两个网络之间的相互博弈，最终达到纳什均衡，最终收敛的模型的生成器可以用来生成辅助数据集。

2.3 残差网络（Resnet）

本文迁移学习使用的模型是Resnet18，Resnet是由He等[19]在2016年提出的，Resnet的最大创新在于引入了残差块结构，残差块的结构如图3所示，残差块的输入为x，输出为H(x)，Weight Layer为卷积层，F(x)为残差映射函数，本文中残差块计算公式如下：

图3 残差块示意图Fig.3 Residual block diagram

identity表示输入的恒等映射，即图中的右侧的曲线，F(x)代表对输入x做两次卷积与一次线性整流函数（Rectified Linear Unit relu）激活，当F(x)=0时，残差块构成恒等映射H(x)=x，网络可以通过最小化残差函数F(x)=H(x)-x来逼近残差映射以解决网络层叠加的性能退化问题。

残差网络的使用可以有效地避免梯度爆炸与梯度弥散现象，同时残差块参数量减少也可有效避免过拟合问题，假设现在有n个残差块进行堆叠连接，以x(n)表示第n个残差块的输入，x(n+1)表示该残差块的输出，也是第(n+1)个残差块的输入，可以推导得到第n个残差块的输出为：

由式（3）可知，各层残差网络的累加构成了残差网络的特征，同时保证深层网络拥有比浅层网络更多的特征信息。Resnet18由8个残差块外加一层卷积层和最终的全连接层组成，如图4所示，所以Resnet18由17层卷积层与1层全连接层组成。

图4 Resnet18结构示意图Fig.4 Resnet18 structure diagram

3 模型方法

迁移学习可以重复使用源数据域的知识，因而广泛应用于标签数据缺乏的领域，轴承故障发生通常较难预见且发生概率较低，取得故障数据的成本与难度较高，较少的标注数据难以支撑从头训练一个深度网络，使用迁移学习可以有效地解决数据集过小的问题，通过对源数据集知识的复用能让深度网络在较小数据集的训练下依旧有较好的效果，本文提出基于迁移学习的轴承故障诊断。但是迁移学习要求源数据集与目标数据集的数据分布差异不能太大，如果数据集间差异太大，则模型在源数据集中学到的特征提取能力并不能成功地提取到目标数据集的特征，从而不能在目标数据集上取得较好的表现，为了解决普通迁移学习的“负迁移”问题，本文提出了基于DCGAN的二步迁移学习法，其主要流程如图5所示。

图5 实验流程图Fig.5 Experimental flowchart

（1）数据预处理。将滚动轴承原始振动数据按照7∶3的比例分层抽样划分为训练集与测试集。

（2）生成融合数据集。将原始时域振动信号按照滑动窗口法进行取样，并通过短时傅里叶变换转化为时频图像数据，即生成目标数据集。同时在源数据集Imagenet中选取与目标数据集数量相同的图片，缩放到目标数据集中图片的形状，然后随机选取目标数据集与源数据集的图片进行数据融合形成融合数据集。

（3）训练DCGAN。使用融合数据集训练DCGAN，直至模型达到预定的收敛条件，独立取出DCGAN的生成器，使用随机噪音来生成辅助数据集。

（4）在源数据集与辅助数据集间进行迁移学习。使用在源数据集ImageNet完成预训练的Resnet18模型和DCGAN生成的辅助数据集进行迁移学习，预定循环轮数，达到循环轮数即固定模型参数，结束迁移学习过程。

（5）在辅助数据集与目标数据集间进行迁移学习。将经过过程（4）的模型使用目标数据集再次进行迁移学习。预定循环轮数，达到循环轮数即固定模型参数，结束迁移学习过程。

（6）利用测试集来测试模型效果。将测试集输入训练好的模型，使用准确率、召回率、F1值来进行性能评价。

4 基于DCGAN与二步迁移学习的故障诊断

4.1 数据预处理

实验数据采用的是CWRU的滚动轴承振动数据，选用型号是SKF-6205的驱动端轴承，通过电火花加工单点造成损伤，损伤位置有外圈、内圈、滚动体，信号的采样频率是12 kHz，故障直径为0.007 in，0.014 in，0.021 in。由于多工况，不同轴承位置故障的存在，为了尽量全面地表现轴承的状态，把不同故障程度、不同位置的轴承都单独看做一类，数据集共有10种类型，而且根据7∶3的比例分为了训练集与测试集，数据集如表1所示。

表1 不同类型滚动轴承数据集描述Table 1 Description of different types of rolling bearing data sets

对于已经分割的原始振动信号数据集，采取窗口滑动法截取1 024的点组成样本，设滑动窗口h,S1由第1个到第1 024个数据点组成，S2由第(h+1)个到第(h+1 024)个振动数据点组成，由此类推，取样方式如图6所示。

图6 振动信号数据增强示意图Fig.6 Schematic diagram of vibration signal data enhancement

对于上述已经分割完成的原始数据，需要对每段数据进行时频分析，将原始的振动信号进行短时傅里叶变换转变成时频图进行后续的网络诊断，转换后的时频图组成目标数据集，四种状态的原始信号转换的时域图如图7所示。相比于原始振动信号中故障特征不明显，时频图可以更突出地反应原始信号在时域与频域方面的信息。

图7 振动信号时频图Fig.7 Time-frequency diagram of vibration signal

在ImageNet中随机选取与训练集数量相同的图片，缩放至64×64大小，随机与训练集图片进行叠加形成融合数据集。由于二步迁移学习需要降低源域与目标域的数据分布差异来提升迁移学习的效果，所以将两种分布的数据进行融合叠加，在DCGAN的训练过程中，通过损失函数的限制，让生成的辅助数据集与源数据集的分布差异能比原本的源域和目标域的差异小。

4.2 二步迁移学习

二次迁移学习方法的第一步就是利用DCGAN和融合数据集来生成辅助数据集。DCGAN的生成器G是由五层反卷积层组成，判别器D由五层卷积层组成。其中生成器接收随机高斯噪音，输出为G(Zi)，判别器输入为G(Zi)与混合数据集中的真实数据，输出为0至1之间的数值，其中判别器输出越接近0代表判别器认为输入数据越有可能是G(Zi)，输出越接近1代表判别器认为数据越有可能是真实数据Xi，在训练判别器时，为了避免神经元训练过程中“死亡”的问题，激活函数使用LeakyReLU[20]，其定义为：

其中，a为设定较小的常数。

二次迁移学习方法的第二步是在源数据集与辅助数据集之间进行迁移学习，虽然源数据集Imagenet由现实中的图片所组成，目标数据集使用的模型是在ImageNet上完成预训练的Resnet18，考虑到预训练的Resnet18已经在ImageNet数据集中学习到很多图像低层次特征，所以在迁移学习训练前期只放开全连接层，当模型损失平稳不再下降后，为了模型能学习到辅助数据集中故障数据的高层次特征，放开剩下所有层的参数θ，然后固定训练M轮，让模型形成多层次的特征提取器。在训练过程中使用交叉熵函数作为损失函数定义为：

其中，p(x)为样本的真实分布，q(x)为模型预测的概率。损失函数中加入L2正则化可以降低模型复杂度，降低过拟合的风险，所以最终的损失函数如下：

其中，λ是L2正则化的权值，w是模型所有层的权值，通过Adam算法进行优化，最小化目标函数LResnet(w)。

二次迁移学习的第三步是在辅助数据集与目标数据集之间进行迁移学习，将模型所有层的参数都放开，固定训练N轮，让模型中特征抽取的部分可以学习到目标数据集的数据特征，而且由于辅助数据集与目标数据集之间的数据分布差异较小，所以迁移学习能有效地避免负迁移效应带来的问题，在训练过程中依旧采用交叉熵外加上L2正则化作为损失函数，并最终通过Adam[21]算法进行优化，最小化损失函数。

4.3 实验参数说明

实验基于开源框架Pytorch与Python3.6下实现，实验平台是ubuntu18.04，24 GB内存，480 GB SSD，1 TB HD，AMD@Ryzen7 3700x，Nvidia GTX 1080Ti，显存为11 GB，实验共分为两个部分，即使用DCGAN来创造辅助数据集与利用辅助数据集和目标数据集来两步迁移学习并最终进行轴承故障诊断。

DCGAN的生成器由五层反卷积组成，除了最后一层卷积层之外，其余卷积层后需加上批标准化层（BN）与relu激活函数，第五层卷积的激活函数为tanh。经过五层反卷积，输入的随机噪音信号的通道数在第一层卷积增大后逐层下降，最后通道数为1，而1×1的输入经由五层卷积生成64×64的图片，生成模型参数如下，DCGAN的判别器主要由五层卷积层组成，在第二层与第三层卷积后加上批标准化（BN）。判别器的前四层卷积后都要通过leaky_relu进行激活，第五层激活函数是sigmoid。输入判别器的信号通道数为3，输入为64×64信号，输出为1×1，DCGAN模型各层参数如表2所示。DCGAN模型训练的批处理大小batch_size=128，学习率learning_rate为0.000 2，迭代次数为20 000次，模型初始化参数符合均值为0，标准差为0.02的正态分布。

表2 DCGAN各层参数Table 2 DCGAN parameters of each layer

Resnet18的网络模型如表3所示，为了适应振动数据的形式，实验中对Resnet18进行了一些改变，改变如下所示：

表3 Resnet18各层参数Table 3 Resnet18 parameters of each layer

（1）将7×7的平均池化层改为了2×2。

（2）将512×1 000的全连接层改为了512×10的全连接结构。通过改动，让网络既保留了对于原始振动数据特征的提取能力，同时提升了对于振动数据的适应能力，让残差网络在目标数据源上能够表现出更优异的性能。在二次的迁移学习过程中，批处理大小batch_size=32，学习率learning_rate=0.000 1，二步迁移学习训练轮数M=50,N=40。

4.4 实验过程及分析

为了验证本文所提出的使用DCGAN来生成辅助数据集，再进行二步迁移学习并进行故障诊断的可行性。本文设计了普通的迁移学习与不使用迁移学习作为对比，普通的迁移学习使用通过ImageNet数据集预训练Resnet18作为模型，然后通过时频图数据集进行迁移学习，其中迁移学习的参数设置与本文所使用二步迁移学习法中在辅助数据集与目标数据集之间进行迁移参数设置相同。不使用迁移学习的则是使用没有经过Imagenet预训练的Resnet18使用目标数据集进行训练。而本文所提出方法的主要流程为：通过融合数据集来训练DCGAN，在DCGAN的生成器与判别器两者之间达到纳什均衡后，单独取出生成器来生成格式为3×64×64的融合图片（数量都是5 000），生成的数据组成为辅助数据集，让神经网络先在源数据集与辅助数据集之间进行迁移学习，然后让模型在辅助数据集与目标数据集间进行二次迁移学习。

在对目标数据集进行预处理过程中，为了探究最合适的滑动窗口，设定滑动窗口为64、128、192、256，设计四组对照实验，使用相同的DCGAN进行数据扩充且后续进行二次迁移学习来训练模型，并最终设置相同对照组进行故障诊断测试，最终的测试准确率如表4所示。

表4 滑动窗口数与准确率关系表Table 4 Table between number of sliding windows and accuracy

通过4组对照实验可以发现，在对照实验中，当滑动窗口数为由64增加为128时，故障诊断的准确率有所提升，而当滑动窗口数由128逐渐提升为192和256时准确率反而逐渐降低，原因可能是当滑动窗口数过小时，样本之间差异过小，模型难以正确判断，而滑动窗口过大时则会造成数据集的样本数量少，使模型无法得到充分的训练，所以滑动窗口数在128时，模型可以取得最优的故障诊断率，所以后续的实验中滑动窗口设定为128。

图8~10依次为三者分类准确率、召回率、F1值随迭代次数的变化折线图。由图8~10都可以看出，使用了ImageNet进行预训练的Resnet模型性能要明显强于不使用ImageNet进行预训练的Resnet模型。具体在图8上，不仅准确率提升快，而且最终的准确率也由不使用迁移学习的98.5%提升到99.1%，这表明在轴承故障诊断领域引入迁移学习的有效性，模型通过知识迁移将源域的知识迁移到目标域中，迁移学习的使用，极大地解决了轴承故障领域由于存在的数据量少和分布不均匀导致模型过拟合与泛化性差的问题。

图8 准确率变化曲线Fig.8 Curve of accuracy change

对于二步迁移学习方法与普通迁移学习方法的性能对比。由图可知，使用了二步迁移学习方法的模型各项指标提升都远远快过使用普通迁移学习方法的模型，而具体到图8上，在循环轮数为10时二步迁移学习已经达到了99%的准确率，而迁移学习方法则要等到循环轮数为35时才能达到99%的准确率，且由图8可知，最终的轴承故障分类准确率也由迁移学习的99.11%提升到了二步迁移学习的99.73%，有着0.62个百分点的明显提高，而本文提出方法在开始时有着几乎50%的准确率明显说明了所提出方法能够克服负迁移效应，且能充分利用源数据集的知识。由图9、10可知，在召回率与F1值指标上同样可以看到本文提出的方法具有更优的辅助分类能力，且能在较短的时间内达到收敛。所以为了克服迁移学习在轴承故障诊断领域产生的负迁移效应，可以使用本文提出的DCGAN与二步迁移学习结合的方法。

图9 召回率变化曲线Fig.9 Recall curve

为了能更加精准地观察三种方法最终的故障诊断效果，将三种方法的诊断结果通过混沌矩阵图11~13进行展示，通过结果对比可以清楚地看到，使用迁移学习可以有效提升模型的表现力，但是分布差异大同样影响着迁移学习的效果，通过本文提出的二步迁移学习法，模型的效果得到了进一步提升，有效地解决了数据分布过大带来的负面效应。

图11 二步迁移学习模型的混沌矩阵Fig.11 Chaotic matrix of two-steptransfer learning model

图12 迁移学习模型的混沌矩阵Fig.12 Chaotic matrix of transfer learning model

图13 不使用迁移学习模型的混沌矩阵Fig.13 Chaos matrix without transfer learning model

其中可以明显看出在面对二步迁移学习会出错的诊断上，迁移学习通常也会出错，而且有着更高的错误率，而且迁移学习会在某些二步迁移学习完全正确的问题上出现错误诊断，两者混沌矩阵的对比可以充分地说明在故障诊断上，本文所提出的方法可以改进迁移学习可能的错误，增强迁移学习最终的模型表现力，让迁移学习的模型具有更高的准确率。

4.5 各类方法对比分析

为了验证本文提出的基于DCGAN与二步迁移方法的轴承故障诊断方法的有效性，采取两类机器学习算法RF、EMD_SVM和深度学习算法CNN进行对比实验论证，RF为将轴承的时域振动信号作为特征，输入到随机森林（random forest）进行故障分类，EMD_SVM是通过EMD得到本征模函数，再利用SVM进行故障分类，CNN采取Lenet网络，将轴承的时域振动信号转化为时频图输入网络进行故障诊断，不同方法的诊断结果如表5与图14所示。

图14 算法对比图Fig.14 Algorithm comparison chart

表5 算法对比表Table 5 Algorithm comparison table %

通过表4与图10可以知道深度学习如二步迁移学习与CNN的诊断准确率普遍高于传统的机器学习方法，这应当得益于神经网络优异的自适应特征学习能力与深层非线性映射能力，在较小数据集下依然可以训练出表现出色的网络模型，拥有极高的诊断准确率。相比于RF的93.21%，本文提出的二步迁移学习法有着6.52个百分点的提升，主要由于深度学习拥有明显的特征提取方面的优势，以及本文方法拥有的从源数据集与辅助数据集迁移学习到的知识，因此才能有着如此的提升，EMD_SVM方法虽然通过了经验模态分解（EMD）将原始时域信号变成本征模函数后再使用SVM进行故障分类，而且SVM在小样本诊断领域有着较为优异的表现力，但是与本文方法相比依然有着5.29个百分点的差距，两种机器学习方法与本文方法之间的诊断准确率的差异充分证明了深度学习强大的特征学习能力与迁移学习对于知识的重复使用的优异表现，相比于CNN取得的98.50%的诊断准确率，本文提出的方法依然有着1.23个百分点的提升，提升的主要原因在于本文所提出的二步迁移学习方法既有迁移学习利用源数据集知识的特性，同时通过辅助数据集的使用有效地避免了负迁移效应的产生，总体来说，相对于机器学习方法RF、EMD_SVM，深度学习方法整体有着更优异的表现，而通过使用辅助数据集与二步迁移学习，本文提出的方法相比普通的CNN则有着更出色的诊断准确率与稳定性。

图10 F1值变化曲线Fig.10 F1 value change curve

5 结束语

在使用迁移学习进行故障诊断时，考虑到目标数据集与源数据集数据分布之间的巨大差异可能引发的“负迁移”效应，本文提出了二步迁移学习法，其主要通过DCGAN生成辅助数据集，然后先在源数据集与辅助数据集之间进行迁移学习，最后在辅助数据集与目标数据集间二次迁移学习，并最终实现轴承故障诊断，实验表明，与其他诊断方法相比，本方法具有更好的稳定性与准确度，且模型的收敛速度更快。但是本文依然具有一些不足，如过程过于繁琐，且使用DCGAN训练较为困难，模型训练较难收敛，改进的方向是可以使用更加易于收敛的对抗生成网络。