基于改进卷积神经网络及LightGBM的滚动轴承故障诊断
2021-07-22杨瑞双宁芊雷印杰陈炳才
杨瑞双,宁芊,雷印杰,陈炳才
(1.四川大学 电子信息学院,成都 610065;2.大连理工大学 计算机科学与技术学院,辽宁 大连 116024)
近年来,深度学习理论在故障诊断等领域取得了很大的进展[1-4],卷积神经网络(Convolutional Neural Network,CNN)作为深度学习理论重要的模型之一,在轴承故障诊断领域也不断展现出其自身的价值与巨大的潜力。文献[5]使用离散小波变换对轴承振动信号进行预处理后通过卷积神经网络提取深层次特征并得到了较好地诊断结果;文献[6]提出了一种基于一维多尺度卷积自编码的轴承故障诊断模型,利用并行、多尺度的卷积核和反卷积对原始信号进行特征提取与重构,将提取到的特征图输入到分类器中取得了较好的分类结果;文献[7]利用深度一维残差卷积自编码器对齿轮箱振动信号进行特征提取,并使用少量有标签数据对自编码器进行微调从而实现了齿轮箱的故障诊断。虽然卷积神经网络在故障诊断领域已经取得了不错的成绩,但使用softmax层对卷积层提取的特征进行分类不能很好的分离模型的特征提取与分类功能,可能会导致模型的分类和泛化能力不强。
SVM[9],KNN[10]等单一学习算法和随机森林[11]、XGBoost[12]等集成学习算法在机械故障诊断领域取得了不错的成就,但是在现今大数据和高维度的环境下,这些分类算法在效率、精确度等方面不能满足需求,轻量级梯度提升机(Light Gradient Boosting Machine,LightGBM)是一种基于决策树的梯度提升算法[8],其在Boosting算法的基础上针对分类准确率和计算效率等方面进行了优化,比较适用于大样本环境下的分类。然而,如果将原始信号直接输入LightGBM,将会夹杂很多未经处理的冗余信号,在模型训练时会消耗过多的内存空间并容易引起LightGBM分类器过拟合。
针对以上问题,采用全局平均池化(Global Average Pooling,GAP)层代替全连接层对卷积神经网络进行改进(下文简称GCNN),与LightGBM算法相结合提出了一种轴承故障诊断模型,并构建了同负载和变负载工况下的2种数据集,通过与其他模型的对比分析证明全局平均池化层对模型泛化能力的改进效果,以及GCNN-LightGBM模型的有效性。
1 GCNN-LightGBM模块简介
1.1 卷积层和池化层
卷积层是卷积神经网络中的最基本的结构,其主要功能是对输入数据进行特征提取。相对于一般的深度学习网络结构,卷积层最显著的特征是局部感知、参数共享,这一特性大大减少了模型参数,保证了网络稀疏性。卷积层公式为
(1)
卷积的操作是线性的,但大部分样本都是线性不可分的,为解决线性模型不能有效处理非线性样本这一问题,向卷积层中引入非线性激活函数。常见的激活函数有tanh,sigmoid和ReLU等,本文采用ReLU函数,其表达式为
al(i,j)=max{0,yl(i,j)},
(2)
式中:al(i,j)为ReLU函数激活卷积输出yl(i,j)后的值。
池化层也称欠采样层或下采样层,主要用于特征选择和信息过滤,同时减少过拟合,提高模型的容错性。常用的池化方式为最大池化和平均池化。相比于平均池化,最大池化能够选取区域中最显著的特点,因此本文使用最大池化,选取区域中的最大值作为该区域池化后的值,其表达式为
pl(i,j)=max{al(i,j)};(j-1)n+1≤t≤jn,
(3)
式中:pl(i,j)为池化后的输出;n为池化区域的宽度。
1.2 全局平均池化层
经典的卷积神经网络在若干次卷积和池化后往往会接一层或多层全连接层,最后再采用softmax层进行分类。全连接层的每一个神经元与上一层的所有神经元相连,用来把卷积层提取到的特征融合起来。由于全相连的特点,全连接层的参数量非常庞大,不仅会降低模型训练速度,而且很容易引起过拟合。为弥补全连接层的缺陷,文献[13]提出了全局平均池化层的概念,其对卷积输出的每个特征图求平均值,使每个特征图只得到一个输出且不需要训练调优的参数,从而极大减少了网络参数,得到的模型更加健壮,抗过拟合效果更佳。
全连接层与全局平均池化层的对比如图1所示,其中:在使用全连接层之前先用Flatten函数将每个特征图的所有特征展开,假设最后一层卷积输出的是4*2*2的特征图,全连接层输出神经元为4,则总共需训练4*2*2*4=64个参数;全局平均池化层只需对每个特征图求平均值即可,在没有使用任何参数的情况下同样得到4个输出;因此,仅从这个简单的对比结构图很容易看出全局平均池化层代替全连接层可以大大降低经典卷积神经网络的参数计算量。
图1 全连接层与全局平均池化层的对比Fig.1 Comparison between FC and GAP
1.3 LightGBM
LightGBM算法巧妙解决了传统boosting算法在大样本环境下非常耗时的问题,其关键是在传统Boosting算法基础上融合了基于梯度的单边采样(Gradient-based One-Side Sampling,GOSS)和互斥特征捆绑(Exclusive Feature Bundling,EFB)这两种新方法。
1.3.1 GOSS算法
GOSS是一种减少数据量但保持精度的算法。每个数据都有不同的梯度值,梯度值越小表示数据训练误差越小。如果完全丢掉梯度小的数据,就会改变数据的分布,从而影响训练模型的精确度。GOSS提出了一种巧妙的采样方式,具体算法步骤如下:
1)将要进行分裂的特征的所有数据按照绝对值从大到小排列;
2)选取最大的前a%个数据;
3)在剩下的较小梯度中随机选择b%个数据,将其乘以一个常量系数(1-a)/b。
上述采样方式在保留所有大梯度实例的同时,也保证了一部分小梯度样本得到训练。通过对小梯度数据引入常量系数的方式,尽可能使其与总数据分布一致,从而在减少训练样本的情况下保证了训练样本的精确度,提高了训练速度。
1.3.2 EFB算法
EFB是一种减少特征量但保持精度的算法。实际应用中的高维数据一般具有稀疏性,EFB利用稀疏性设计了一种巧妙无损的方法减少特征维度。通常,被捆绑的稀疏特征都是互斥的,例如像one-hot特征一样不会同时为非零值,这样的特征捆绑起来不会丢失特征信息,但也会存在一些不完全互斥的特征,EFB算法新颖的提出了冲突比这个指标对其不互斥程度进行衡量,当冲突比较小时,将这些不完全互斥的特征也进行融合绑定,从而可以得到更少的特征包,大大减少特征数量,提高计算效率。
2 GCNN- LightGBM模型
2.1 模型结构图
如图2所示,GCNN-LightGBM模型主要由卷积池化层、全局平均池化层和LightGBM分类器组成。在原始的一维振动信号输入卷积层之前,对其进行了概率为0.2的随机失活处理,可以提高训练模型的泛化能力和变负载条件下故障诊断的稳定性。卷积池化层共2层,第1层采用大卷积核用于获取原始信号中低频段更多有效的信息[14];经过2层卷积池化操作得到的特征图被输入到全局平均池化层中,通过对每个特征图求平均值实现二次特征提取与数据降维;最后,将提取出的低维特征输入到LightGBM分类器中进行分类。
图2 GCNN- LightGBM模型Fig.2 GCNN-LightGBM model
2.2 模型参数的设定
GCNN-LightGBM模型利用改进卷积神经网络对轴承振动信号进行自适应特征提取,其中卷积神经网络超参数的选取对于特征提取效果至关重要,因此借助于softmax分类器对卷积神经网络参数进行训练(表1),训练好卷积部分后用LightGBM取代softmax层。LightGBM参数的选取利用贝叶斯调参算法进行处理,一些重要参数的含义与取值见表2。
表1 改进卷积神经网络超参数的设定Tab.1 Hyperparameter setting of GCNN
表2 LightGBM重要参数的含义与取值Tab.2 Meaning and value of important parameters of LightGBM
3 试验与性能分析
3.1 数据集
试验数据选自美国凯斯西储大学(CWRU)轴承数据中心,选用了不同负载工况下的正常轴承数据,以及驱动端损伤直径分别为0.178,0.356和0.534 mm的内圈、钢球和外圈故障轴承数据,一共10种轴承运行状态。设置采样频率为12 kHz,每次采集1 024个数据点作为一个样本。为加快卷积神经网络的收敛速度,在提取特征前采用Z-sore标准化方式对数据进行标准化预处理,即
(4)
式中:x为原始样本值;u为所有样本数据的均值;σ为所有样本的标准差;x′为标准化后的值。
将负载为1hp,2hp和3hp的数据设置为相应的3个数据集,每个数据集包含20 000个样本,其中每种轴承状态的样本各2 000个,随机选取70%为训练集,20%为验证集,10%为测试集,具体的数据集见表3。
表3 轴承试验数据集Tab.3 Data set of bearing test
一般情况下,不同工况下的振动信号会因幅值、波动周期、相位等不一致而导致其组成数据集的分布有所差异,这就需要所设计的分类器具备很强的泛化能力和鲁棒性。然而,要收集和标记足够的训练样本以使分类器对所有工况都具有鲁棒性是不现实的,因此,采用了一种使用单一负载训练模型并使用其他负载下的测试集进行故障诊断的方式,以保证所训练模型的鲁棒性[14]。例如,在1hp负载下训练的模型要求不仅在1hp测试集中取得很高的分类准确率,而且在2hp或3hp测试集上也能获得很好的分类效果。为实现该目标构建的变负载自适应数据集见表4。
建筑节能就是在保证建筑物较高舒适度的前提下,合理使用能源、不断提高能源利用效率并达到节约能源、减少能耗的目的。建筑能耗是指建筑在正常使用条件下所消耗的总能量,包括采暖、空调、照明、热水供应、炊事、家用电器等方面的能耗,随着居民生活水平的提高,住宅建设的迅速发展及人们对住宅室内舒适度环境的追求,造成了能源的大量消费,因此,推广建筑节能对建设资源节约型社会有着十分重大的意义。要想达到节能效果,可通过合理的建筑规划设计、单体设计,改善建筑物围护结构的保温及隔热性能,充分利用自然通风、太阳能资源、余热回收等措施,提高采暖、通风及空调系统的能效。
表4 变负载自适应数据集Tab.4 Variable load adaptive data set
3.2 模型验证
试验中,改进卷积神经网络模块采用python语言中的深度学习框架Keras,分类模块直接调用LightGBM软件包,所用计算机的基本配置为CPU i7-6700,16 GB内存,显卡配置为RTX 2060 SUPER。利用搭建好的网络分别使用不同数据集进行训练和测试,由于输入数据和神经网络权值的初始化是随机的,为保证试验结果的可靠性,每个数据集训练10次后求平均值。
为验证改进卷积神经网络具有更强的泛化能力,构建了经典CNN-LightGBM模型用于对比,该模型除了全连接层以外的其他部分网络结构和训练参数均与GCNN-LightGBM模型保持一致;同时,为验证LightGBM比softmax层具有更强的分类能力,也构建了GCNN-softmax模型用于对比,该模型除softmax分类器以外的特征提取部分均与本文模型保持一致。
各模型在不同负载工况下的识别准确率如图3所示,由图可知:
图3 不同模型的分类准确率Fig.3 Classification accuracy of different models
1)GCNN-LightGBM模型在同负载工况下的平均分类准确率略高于CNN-LightGBM模型,但在变负载工况下的平均分类准确率高出CNN-LightGBM模型2.39%,验证了改进卷积神经网络具有更好的抗过拟合效果,可以提高模型的泛化能力。
2)GCNN-LightGBM模型在同负载、变负载工况下的平均分类准确率分别高出GCNN-softmax模型1.01%,0.75%,说明LightGBM相较于softmax具有更强的分类能力。
3)LightGBM分类器在同负载工况下也能取得不错的分类效果,但在变负载工况下的平均分类准确率不到68%,说明LightGBM虽然是一个很强大的分类器,但直接用于训练原始数据很容易发生过拟合现象,有必要对原始数据进行特征提取。
4)变负载工况下,相邻工况之间的分类准确率较高,间接反映了相邻负载数据集的分布差异小,而非相邻负载数据集分布差异大。
3.3 对比试验
由于GCNN-LightGBM模型对同负载测试集的分类准确率接近100%,为突出其泛化能力和负载迁移能力的优越性,选取几个已经在同负载工况下取得很好分类效果的深度学习模型[14-16]进行变负载测试集的对比分析。不同深度学习模型对变负载自适应数据集的分类准确率如图4所示。
图4 变负载工况下各模型的分类准确率Fig.4 Classification accuracy of each model under variable load condition
由图4可知:
1)CNN-LSTM和WDCNN模型在1hp,2hp训练所得模型的自适应能力较强,在其他变负载测试集上的分类准确率可达90%以上,但在3hp训练所得模型的负载迁移能力不强,在1hp和2hp测试集下的分类准确率最高只能达到80%左右;CNN-SVM在3hp训练所得模型在其他测试集的分类准确率接近100%,但在1hp训练所得模型在其他变负载测试集上的分类准确率甚至不到80%。说明这3个对比模型虽然能在某一变负载测试集上取得很好的分类效果,但整体的鲁棒性和负载迁移能力并不是很强。
2)GCNN-LightGBM模型在变负载工况下最低的分类准确率约为88.07%,相较于CNN-LSTM,WDCNN,CNN-SVM模型最差的情况分别提高了20.02%,9.71%,11.78%;GCNN-LightGBM模型的平均分类准确率则高达95.04%,明显高于其他模型的平均分类准确率。可见GCNN-LightGBM模型在变负载工况下的整体分类效果较好,具有更好的泛化能力和负载迁移能力。
3.3.2 诊断效率
为进一步突出GCNN-LightGBM模型在故障诊断效率方面的优越性,在对比试验的过程中分别记录了各个模型的训练时间、诊断时间,以及深度学习模块的训练参数量和所需训练参数的层数(不包括池化层),见表5。其中,平均时长为各模型分别在不同负载工况下各训练10次的平均值再次求不同负载平均值的结果。
表5 各模型训练时间和诊断时间的分析表Tab.5 Analysis table of training time and diagnosis time of each model
由表5可知:由于GCNN-LightGBM模型所需训练的参数与网络层数最少,尤其是训练参数量与其他3个网络相差几个数量级,因此所需的训练和诊断平均时长在4种模型中最小,与CNN-LSTM相比,训练时间缩短了89.65%,故障诊断效率更是提高了11.75倍。
这些数据说明模型所需训练的参数与层数越少,其模型训练与故障诊断时间越短,当需要训练或诊断的样本达到数十万甚至几百万时,GCNN-LightGBM模型故障诊断时间短的优越性将会更加显著的体现出来,能够节约大量的时间成本。
4 结论
提出了一种基于GCNN-LightGBM的轴承故障诊断模型,该模型融合了改进卷积神经网络和LightGBM模型各自的优点,实现了对轴承健康状况的高效诊断:
1)GCNN-LightGBM对同负载测试集的平均分类准确率为99.72%,对变负载测试集的平均分类准确率为95.04%。
2)与CNN-LSTM,WDCNN和CNN-SVM相比,GCNN-LightGBM模型在变负载测试集上具有更高的平均准确率,具有较强的泛化能力和负载迁移能力。
3)GCNN-LightGBM模型所需训练的层数只有2层且参数计算量不足5 000,训练和故障诊断时长分别为44.64,0.08 s,远远低于文中其他对比模型,表明GCNN-LightGBM模型具有结构简单,参数计算量少,训练与故障诊断效率高等优点。
本文主要是针对负载的变化提高模型的泛化能力,后续将通过向样本中增加噪声干扰进一步提高模型的鲁棒性。