基于迁移学习的小样本轴承故障诊断方法研究
2021-10-11张西宁余迪刘书语
张西宁,余迪,刘书语
(西安交通大学机械制造系统工程国家重点实验室,710049,西安)
滚动轴承作为广泛应用的基础零部件,其工作状态直接影响着整台设备的正常运行,在旋转机械中有举足轻重的作用[1]。随着“大数据”时代的到来,以低密度、大数量、多形式为特征的大数据给轴承监测诊断带来了新的挑战[2]。传统基于人工信号处理的方法已不能满足大数据的需求[3],以“数据驱动”的深度学习方法在诊断识别领域崭露头角,并取得了大量成果[4-7]。由于滚动轴承型号繁多,运行工况也相差各异,基于深度学习的轴承诊断方法在实践中遇到了训练数据不足或样本标签缺失等小样本问题;且不同工况和型号下轴承状态数据分布不同,无法使用同一网络进行分类,需要开展迁移学习研究[8]。
为解决小样本问题,目前诊断中常采用扩充数据以及改进网络结构的方法。黄南天等提出了一种改进辅助分类生成对抗网络,生成与少量数据概率分布相同的大量样本[9]。Hu等使用阶次跟踪和重采样处理不同转速的轴承数据,使用适应批标准化网络进行跨工况故障分类[10]。Zhang等设计了一种多尺度紧凑卷积神经网络,使用较少网络层提取多尺度信号特征[11]。刘书语等对卷积核和池化方式进行改进,在变转速多轴承数据集上达到了98.4%的准确率[12]。Li等使用参数迁移网络,实现了不同型号轴承数据的故障分类[13]。
本文对卷积神经网络的结构进行改进,与参数迁移学习结合,提出了一种用于小样本的迁移学习轴承诊断方法。
1 理论基础
1.1 迁移学习
迁移学习是采用已有知识对不同但相关领域问题进行求解的机器学习方法[14],在目标域样本稀少而相关领域样本数充足的情况下具有很大优势。源域与目标域不需要有相同数据分布,训练过程只需较少数据,克服了传统机器学习的缺点。迁移学习在轴承故障诊断研究中取得了一定的成果[15-18],具有重要意义。
因此,迁移学习的任务如图1所示,对于给定的目标域,借助已有源域和源任务的知识,建立从目标域数据到标签的映射函数,完成目标任务。
图1 迁移学习原理示意图Fig.1 Schematic diagram of transfer learning principle
1.2 全局均值池化
卷积神经网络是最有代表性的深度学习网络之一,结构上由输入层、特征提取层和分类层组成[20]。卷积层的局部感知、权值共享以及池化层的下采样等结构特点减少了特征提取网络的参数,降低了运算量,提高了其泛化能力。分类层的全连接网络有大量的参数,为了避免过拟合现象,网络训练仍然需要大量的数据。
以计算机视觉中具有代表性的3个卷积神经网络模型LeNet-5、AlexNet、VGG16为例,分析其参数分布情况[21],卷积层和全连接层的参数占比如图2所示。全连接层参数量占了网络参数量的绝大部分,因而增大了训练的计算量,降低了模型的泛化能力。如果能减少全连接层的参数量,同时保证网络的特征提取和分类能力,可以进一步降低网络复杂度。
图2 3种典型卷积神经网络的参数分布情况Fig.2 Parameter distributions of three typical convolutional neural networks
全局均值池化层是可以取代全连接层的一种网络结构。网络提取特征后,将全局均值池化层处理的特征向量经SoftMax函数计算得到输出。SoftMax函数是对有限项离散概率做对数运算的归一化
(1)
(a)全连接层 (b)全局均值池化层图3 全连接层与全局均值池化层结构对比示意图Fig.3 Comparison of structure of fully connected layer and global average pooling layer
采用固定较浅层网络结构参数、微调较深层的方式进行参数迁移学习。因此,当目标域有标签数据较少时,在小样本下训练包含大量参数的全连接层,会产生过拟合现象,网络会学习到大量与故障信息无关的特征,从而降低在测试集上的分类效果。采用基于全局均值池化层的改进网络,能有效避免这一问题。
2 改进迁移学习网络模型
本文建立的基于全局均值池化层的改进卷积神经网络模型如图4所示,信号经多层网络进行特征提取,对特征做全局均值池化处理后,经SoftMax函数计算各分类标签的预测结果得到输出层。每一卷积层都采用4个尺寸为15、步长为1的卷积核进行等长卷积;池化层采用尺寸为2、步长为2的最大值池化方式;激活函数采用指数线性单元函数[22],其数学表达式如下
(2)
图4 基于全局均值池化层的改进卷积神经网络结构Fig.4 Schematic diagram of improved convolutional neural network structure based on global mean pooling layer
该激活函数在正值区间输出梯度始终为1,避免梯度弥散现象;在负值区间具有软饱和特性,增强了网络对噪声的鲁棒性。
本文所使用参数迁移学习方法如图5所示。首先在源域上预训练改进卷积神经网络;将网络结构和网络参数迁移至目标域;固定较浅的前3层网络不再进行训练;在目标域上使用少量的训练数据微调深层网络;最后在目标域的测试数据上进行预测分类。方法的数学描述如下
(3)
(4)
图5 所提迁移学习方法示意图Fig.5 Schematic diagram of the proposed transfer learning method
在图3a中,假设全连接层两层尺寸分别为300和50,改进前后网络模型的参数量比较见表1。保持卷积层结构不变,能够保证其原有的特征提取能力;而全局均值池化层使网络总参数和待微调参数分别减少至6.36%和3.09%,可以有效地减轻过拟合现象。
本文将随机遗忘法[23]和学习率衰减法应用于优化网络的训练过程。在每一批次训练中,以给定概率,随机使部分隐层神经元输出为0,反向传播过程中不对其进行更新,保留其梯度,待下个批次再恢复这部分神经元。重复这一过程直至训练完成。随机遗忘法减弱了不同神经元间的联合适应性,增强了网络的鲁棒性。学习率衰减法在训练开始采用较大的学习率,随着训练轮次的增加,以给定方式减小学习率。较大的初始学习率可以克服噪声信息对网络的干扰,而减小学习率可以提高网络对复杂模式的提取能力。
表1 改进前后的网络参数量对比Table 1 Comparison of network parameters before and after improvement
3 轴承故障诊断实验验证及分析
3.1 跨工况迁移故障诊断实验
凯斯西储大学轴承数据集是目前应用最多的标准轴承故障诊断数据集之一[24]。本文实验平台包括电机、轴承、转矩传感器、编码器、功率器和其他电子控制设备等,被测试轴承为驱动端轴承,型号为SKF6205轴承,实验采样频率为12 kHz。使用电火花烧伤的加工方式在轴承上布置了单点故障,类型分别是滚动体损伤、外圈损伤与内圈损伤,共有4种健康状态。轴承工作状态以及故障信息见表2。
表2 凯斯西储大学轴承数据集故障信息Table 2 Case Western Reserve University Bearing Data Set Failure Information
选择不同的转速及负载,构建4组不同工况的轴承故障数据集,每个数据集里各健康状态各有25个样本数据,共计400个。从时域信号的第1个点开始,取连续的2 400个点作为一个样本,相邻样本之间重叠1 200个点。使用本文所提出的改进迁移学习网络模型,进行小样本下跨工况轴承故障诊断实验。
实验1:比较使用全连接层的卷积神经网络(CNN-FC)和使用全局均值池化层的改进卷积神经网络(CNN-GAP)。随机选取1%的数据作为训练集,其余的数据作为测试集,在各个工况下进行训练和分类预测,取多次实验的平均值作为结果,预测分类结果见表3。
表3 小样本下两种卷积网络的故障分类结果Table 3 Fault classification results of two convolutional networks taking small samples
实验2:比较两种网络跨工况迁移学习(TL-FC、TL-GAP)的预测分类结果。在源域上以100%的数据进行预训练,在目标域上随机选取1%的数据进行微调,在其余数据上进行测试,结果见表4。
表4 小样本下跨工况迁移学习方法故障分类结果Table 4 Fault classification results of cross-condition transfer learning method taking small samples
3.2 跨型号、跨工况迁移故障诊断实验
实验台及采集系统如图6所示。滚动轴承固定在安装座内,通过预紧装置对其进行轴向预紧,安装座上的绳索通过滑轮与不同质量的重物相连,模拟轴承的径向载荷。测试轴承型号为6308轴承,采样频率为10 kHz。预制有4种健康状态,分别为正常、外圈剥落、内圈剥落和滚动体剥落。其中内圈和外圈采用激光加工的方法,设置损伤直径分别约为0.5、1、2、3 mm,代表轻微、中等、严重、最严重4种故障程度,控制激光加工时间使损伤深度约为0.2 mm。滚动体采用砂轮机磨削的方法,损伤面积分别约为10、20、40、60 mm2。轴承工作转速为1 200 r/min。
(a)结构示意图
(b)实验台图6 实验室轴承实验台及结构示意图Fig.6 Laboratory bearing test bench
如表5所示,分别将凯斯西储大学数据集记为数据集A,实验室轴承数据集记为数据集B,进行跨型号、跨工况的故障诊断。
表5 轴承数据集故障信息Table 5 Bearing data set failure information
实验3:随机选取1%的数据作为训练集,其余数据作为验证集,比较使用全连接层的卷积神经网络(CNN-FC)和使用全局均值池化层的改进卷积神经网络(CNN-GAP),在两个数据集上的预测分类结果见表6。
表6 小样本下两种卷积网络的故障分类结果Table 6 Fault classification results of two convolutional networks with small samples
实验4:比较两种网络跨工况跨型号迁移学习(TL-FC、TL-GAP)的预测分类结果。在源域上以100%的数据进行预训练,在目标域上随机选取1%的数据进行微调,在其余数据上进行测试,预测分类结果见表7。
3.3 结果分析
由表3和表6中两种卷积网络的分类准确率可见。当训练集仅占全部数据的1%时,使用全局均值池化层的效果明显好于使用全连接层。在两个数据集上的平均结果由54.61%提升到了86.68%,说明改进后的卷积神经网络使用全局均值池化层有效地避免了过拟合问题,同时保留了卷积层的特征提取能力。
表7 小样本下跨工况、跨型号迁移学习故障分类结果Table 7 Cross-condition and cross-type transfer learning fault classification results with small samples
由表3和表4中使用全连接层卷积神经网络的分类结果可知,跨工况下迁移学习方法使分类准确率有一定提高,平均结果由44.25%提升至54.07%。由表6和表7可知,跨型号下迁移学习的分类准确率轻微地降低,说明此时数据集之间的差异太大,迁移学习方法起到的作用不是很大。
在全局均值池化的卷积神经网络中,迁移学习方法使分类准确率得到了进一步提升。在跨工况下,迁移学习使分类准确率由90.70%提升到了91.87%;在跨工况跨型号下,准确率由86.68%提升至了92.25%。
在一次以数据集A为源域、数据集B为目标域的迁移学习训练中,实验室实测轴承数据集上的混淆矩阵见图7。全体分类准确率为94.40%,其中外圈故障和正常轴承分类准确率达到100.00%。对输入数据经卷积层提取到的300维特征进行t-SNE降维,结果见图8,可以看出,大部分数据被正确地进行了分类,而内圈故障和滚动体故障的分类效果较差。从故障机理上分析,滚动体与滚道之间可能会存在滑动现象,因此其故障特征复杂。从传递路径上分析,滚动体故障与内圈故障时引起的冲击振动传播至传感器时,需要经历更多调制和转换阶段,传递路径复杂[25]。因此,网络在内圈故障和滚动体故障上提取到的数据特征出现混合,导致分类准确率比较低。在后续研究中可以增加微调样本数来进一步提升网络分类效果。
图7 实验室数据集故障分类混淆矩阵Fig.7 Classification confusion matrix of laboratory data set
图8 实验室轴承数据特征t-SNE分布图Fig.8 t-SNE distribution map of laboratory bearing data characteristics
4 结 论
针对机器学习在小样本训练中的过拟合现象,本文从网络结构和参数量的角度,提出了以全局均值池化层取代全连接层的改进卷积神经网络。应用预训练微调的迁移学习方法,在凯斯西储大学轴承数据集和实验室轴承数据集上进行了实验验证,得到如下结论。
(1)在训练数据很少时,网络待训练参数量过大,传统的卷积神经网络会出现过拟合现象。由于大部网络参数集中在全连接层,采用预训练微调的迁移学习方法同样会出现过拟合问题。
(2)在卷积神经网络的结构中,使用全局均值池化层代替全连接层,减少了90%以上的网络参数,减轻了过拟合现象,同时保证了卷积层的特征提取能力。
(3)在改进后的卷积神经网络上使用预训练微调的迁移学习方法,可以进一步提升网络的分类效果。在跨工况、跨型号的迁移学习故障诊断中,网络在目标域上的分类准确率平均达到了92.25%。该方法完成了迁移学习任务,基本满足了轴承故障诊断的需求。