融合Inception V1-CBAM-CNN的轴承剩余寿命预测模型*
2024-01-25余江鸿彭雄露
余江鸿,彭雄露,刘 涛,杨 文,叶 帅
(1.湖南工业大学 机械工程学院,湖南 株洲 412007;2.湖南铁道职业技术学院 轨道交通装备智能制造学院,湖南 株洲 412001;3.高性能滚动轴承技术湖南省高校重点实验室,湖南 株洲 412007)
0 引 言
滚动轴承作为旋转机械的关键部件,广泛应用于航空航天、轨道交通等领域的重要装备中。准确预测轴承的RUL,对装备系统的安全运行和运维的决策具有重要参考价值[1]。
滚动轴承RUL预测方法可以分为基于物理模型的方法和基于数据驱动的方法[2]。其中,基于物理模型的方法受嘈杂工作环境和复杂工况的影响,通常难以用于建立机械设备的精确物理模型。基于数据驱动的方法,其本质是将轴承的退化过程视为运行状态和监视数据之间的函数关系。
随着大数据技术和人工智能技术的发展,基于数据驱动的方法应用日益广泛。其中,以深度学习为基础的数据驱动方法,运用多层非线性处理单元挖掘隐藏在输入数据里面的潜在信息[3],具有较强的非线性表达特征能力,为滚动轴承剩余寿命预测提供了一种行之有效的实现方案。CNN则是一种典型的监督型前馈神经网络,是深度学习的代表性算法之一,在轴承RUL预测领域应用广泛。
LIU Q等人[4]对振动信号进行了尺度不变特征转换,将时域信号转换到时频域,然后将时频域特征输入CNN,从而完成RUL预测,该方法为传统的时域预测RUL提供了一个新的角度;但该方法建立的预测曲线不能很好地拟合真实寿命曲线。NIE L等人[5]通过统计特征与时间序列的相关性,构建了轴承的相似特征,将其经过敏感特征筛选后构建了轴承的HI,并将其输入到一维卷积神经网络中,完成了对轴承的RUL预测;但是该方法的HI构建过于复杂且需要大量的先验知识。邹旺等人[6]对时频域特征进行数据加强后,得到了全面的轴承退化信息,构建了CNN,完成了对轴承的RUL预测;但是该方法并未考虑轴承在变负载下的RUL预测。张继冬等人[7]将轴承故障输入信号输入CNN,完成了对轴承的RUL预测;但是,该方法在训练时易出现梯度消失问题,并导致结果产生偏差。周明珠等人[8]将CNN引入到区间预测不确定领域,解决了RUL中的不确定性问题,该方法在描述预测不确定性方面具有优越性和实际意义;但是,该方法只能得到轴承的RUL区间而得不到具体值。全航等人[9]采用改进后的CNN方法对振动信号进行了特征提取,然后将其输入到时序网络,并完成了对轴承的RUL预测,该方法克服了梯度消失问题,还提高了计算效率;但是,该方法的特征提取能力有限,从而导致预测精度偏低。
为解决上述问题,笔者首先提出一种新的HI构建方法(该方法不仅可以避免传统HI构建方法依赖人工提取的问题,还可充分利用时序信号);其次,构建Inception V1-CBAM-CNN模型,引入多种方法对网络进行优化,以提高模型的性能;最后,采用PHM2012数据集对该方法的有效性进行验证。
1 模型构建原理
1.1 CNN结构
典型的CNN具有深层结构,一般由输入层、卷积层、池化层、全连接层和输出层组成。
典型卷积神经网络结构如图1所示。
图1 典型卷积神经网络结构图Fig.1 Structure of a typical convolutional neural network
CNN的核心模块是卷积层和池化层,笔者采用交替的卷积与池化操作,完成对输入数据的逐层剥离以及挖掘数据潜藏的抽象特征。
卷积层是特征提取层,对输入特征进行卷积运算后可得到特征图,卷积运算表示如下:
(1)
为了使深度学习模型在稀疏后更好地用于挖掘相关特征,通常会在卷积层后连接ReLU(x)激活函数以增加模型的非线性,使神经网络可以任意逼近任何非线性函数。
ReLU(x)表示如下:
(2)
池化层是下采样层,其目的是在保持特征尺度不变性的前提下减小数据量[10],池化运算表示如下:
(3)
全连接层将经过多次卷积和池化后的高阶特征整合为二维向量,将该层的每一个神经元与下一层的神经元都进行连接后得到输出结果。
全连接层表示如下:
y=f(wixi+bi)
(4)
式中:wi为第i个全连接层的权值矩阵;bi为第i个全连接层的偏置矩阵;xi为第i个全连接的输入;y为第i个全连接层的输出。
1.2 CBAM注意力机制
CBAM的作用是聚焦局部特征,避免将计算资源浪费在次要特征上,通过增强模型对重要特征的关注程度,从而提高神经网络的效率[11]。
CBAM注意力机制结构如图2所示。
图2 CBAM注意力机制结构Fig.2 Structure of CBAM attention mechanism
CBAM注意力机制从空间和通道两个不同的维度进行特征抽取,且强化重要特征、抑制次要特征,以增强模型性能。
通道注意力机制表示如下:
(5)
通道注意力机制首先对输入特征采用全局最大池化(global max pooling,GMP)和全局平均池化方法(global average pooling,GAP)进行处理;然后采用两个共享的全连接层将输入特征通道数压缩到c/r后再扩张到r,实现对输入特征的降维和升维目的(其中:c为特征图的通道数;r为衰减比例);接着采用激活函数sigmoid对全连接层后的结果进行权重分配;最后将分配后的结果按照对应元素相乘,得到通道注意力。
空间注意力机制表示如下:
(6)
空间注意力机制是首先将通道注意力机制的结果作为输入;然后在通道维度上进行GMP和GAP处理;再采用7×7的卷积以及sigmoid激活函数得到空间注意力机制的结果。
1.3 改进的Inception V1模块
Inception模块是Google LeNet的核心组成部分,是卷积神经网络发展历史上的重要支撑节点。Inception V1模块是将四条支路上经过多次卷积后得到的特征在通道维度上进行拼接。但是经过多次卷积之后会丢失部分原始信息,导致其构建的退化特征不能全面反映轴承性能的退化趋势。
笔者借鉴残差网络的跳连思想,对Inception V1模块进行改进。
改进后的Inception V1模块如图3所示。
图3 改进后的Inception V1模块Fig.3 Improved Inception V1 module
改进的Inception V1模块通过将原始特征和卷积后的特征在通道维度上进行特征拼接,不仅可以拓宽网络宽度、提高通道间信息交互,还可以从不同的角度对输入进行自适应特征提取,更全面地提取性能退化特征。
2 网络优化
2.1 批量归一化
随着神经网络迭代次数的增加,训练前后的数据服从不同的分布,这样容易产生梯度消失或者梯度爆炸的现象,导致训练结果波动大。
为此,笔者采用BN[12]方法改变数据训练前后的分布,从而提高预测的精度。
BN表示如下:
(7)
(8)
(9)
(10)
首先,笔者利用BN方法计算原始数据中的均值和方差;其次,对原始数据进行归一化处理,使数据在迭代过程中服从均值μ=0、方差σ=1的正态分布;引入两个可供学习的参数β和γ,使数据在迭代过程中能够学习原始数据的分布。
2.2 全局最大池化
为了简化模型,笔者采用GMP方法对其进行特征降维。GMP原理如图4所示。
图4 全局最大池化原理图Fig.4 Schematic diagram of global maximum pooling
GMP是将输入特征通道维度上的所有信息浓缩为一个特征点,仅保留特征图通道上的最显著特征,实现对数据的降维目的。
神经网络通常采用Reshape方法将四维数组降维为二维数组,将其作为全连接层的输入。若输入特征的形状为(m,h,w,c),这4个参数依次代表着样本数、特征图的高和宽以及通道数。采用Reshape方法后输入特征变为(m,hwc),传入下一层的参数量为mhwc。用GMP代替Reshape后,输入特征变为(m,c)。传入下一层的参数量为mc,参数量减少,迭代速度增加,同时在一定程度上避免了过拟合,提高了模型的泛化能力。
2.3 Dropout方法
在训练阶段,神经网络在前向传播时,笔者以一定的概率值p随机地将部分神经元置0,仅采用部分神经元进行训练。这能提高单个神经元的功能,削弱了神经元之间的联合适应性,可以有效地防止过拟合和提高预测精度。测试阶段则采用全部的神经元,增强网络的表达能力。
2.4 网络结构
笔者在CNN的基础上进行优化,提出了Inception V1-CBAM-CNN模型,具体改进和优化后网络结构如图5所示。
图5 网络结构图Fig.5 Network structure diagram
Inception V1-CBAM-CNN模型是首先采用连续的3×3卷积进行自适应退化特征提取;然后,笔者采用改进后的Inception V1方法全面提取轴承的退化特征,添加CBAM注意力机制,对特征进行加权处理,在通道和空间维度强化重要特征、抑制次要特征;接着,在模型中添加BN,避免模型在训练时发生梯度弥散或爆炸,采用GMP方法对特征进行降维,通过添加dropout防止过拟合和提高预测精度;最后在其经过三个全连接层后得到轴承的RUL。
3 实验验证
3.1 实验数据
笔者基于PHM2012轴承数据集[13]开展实验。该数据集通过PRONOSTIA试验台获得。
PRONOSTIA试验台如图6所示。
图6 PRONOSTIA实验台Fig.6 PRONOSTIA test bench
该实验平台采用安装在轴承箱上水平和竖直方向的加速度计对数据进行测量,其采样频率为25.6 kHz,采样时间为0.1 s,采样时间间隔为10 s,即每个采样周期采集2 560个样本点,当其采集到的信号的加速度大于20 g,则认为轴承失效。
PHM2012数据集包含3种工况下17个轴承的全寿命振动信号数据,不同的轴承编号代表不同工况下的实验轴承,如轴承1-1表示在工况1下的第1个实验轴承。
PHM2012数据如表1所示。
表1 PHM2012数据Table 1 Data of PHM2012
PHM2012数据集包括水平和竖直两个方向的振动信号,水平方向的信号能够更快速和准确地反映轴承的退化。因此,笔者仅采用水平方向的振动信号对寿命进行预测。
为了提高训练效率,笔者采用轴承1-1、2-1、3-2的部分样本作为数据训练网络模型,在轴承1-3、1-7、2-3、3-1上验证模型的泛化能力。
轴承1-1、2-1、3-2各有2 803、911、1 637条样本,3种轴承样本数量相差较多。为了充分学习不同负载下轴承的退化特征,提高模型的泛化能力,需保证不同负载下轴承样本尽可能均衡。因此,笔者针对轴承1-1、2-1和3-2,每隔10条样本、4条样本、6条样本,取一条作为训练集数据,测试集则采用全部样本。
训练集和测试集数据如表2所示。
表2 训练集和测试集数据Table 2 Data of training set and test set
3.2 数据处理
3.2.1 降噪处理
笔者采用离散小波变换对信号进行降噪处理[14]。离散小波变换分解流程图如图7所示。
图7 离散小波变换分解流程图Fig.7 Discrete wavelet transform decomposition flow chart
首先,笔者选取一组小波基(“sym8”)将原始信号分解为高频部分(detail coefficients,CD)和低频部分(approximation coefficient,CA);然后,根据需求将得到的CD继续分解;最后,对所得的CA利用逆小波变换进行重构,抑制信号中的高频分量,实现对信号的降噪目的。
3.2.2 HI构建
在滚动轴承的RUL预测中,准确构建HI是提高RUL预测精度的关键[15]。为此,笔者提出一种新的HI构建方法。
该方法将降噪处理后的振动信号随机丢弃部分样点后重组为(50,50,1)的三维张量,将其作为轴承的HI输入到CNN中。该方法不仅可以避免传统HI的构建依赖人工提取的不足,还可以充分利用时序信号,进而更加准确地反映轴承的退化。
3.2.3 数据标签构建
因原始数据不存在标签,需要构建与HI相对应的标签。若数据中共有N条样本,则第i条样本对应的剩余寿命Yi表示如下:
(11)
3.2.4 评价指标
笔者采用均方根误差(ERMSE)方法作为损失函数(Loss)评价模型预测值与真实值之间的相对误差。
ERMSE表示如下:
(12)
式中:yi为第i条样本的预测寿命;Yi为第i条样本的真实寿命。
3.3 网络训练流程
网络训练流程图如图8所示。
图8 网络训练流程图Fig.8 Network training flow chart
网络的训练流程具体如下所示:
1)对原始振动信号采用自适应退化特征提取方案,构建HI;
2)构造与HI对应的退化标签;
3)将添加标签的滚动轴承振动数据集划分为训练集和测试集;
4)将训练集输入到Inception V1-CBAM-CNN中进行训练,提取滚动轴承退化特征;
5)采用全连接层进行轴承退化特征到剩余使用寿命标签的映射,从而完成滚动轴承的RUL预测;
6)计算损失函数;
7)利用损失调整参数,当网络的迭代次数m达到N时,完成对模型的训练,否则重复步骤4)~6);
8)在测试集上测试训练好的模型性能,输出计算结果,结束进程。
3.4 参数设置
Inception V1-CBAM-CNN模型中卷积核的大小均为3×3,步长均为1×1,6个卷积层卷积核的个数分别为32、64、128、256、512、1 204。池化核的大小和步长均为2×2。Inception V1模块中Branch1-4卷积核的个数为上层输入通道数的1/4,Branch5的卷积核个数等于上层输入通道数。全连接层的3个输出分别为1 024、128和1。
3.5 实验分析
该实验基于Tensorflow2.5.0框架和python编程语言构建网络模型。笔者采用的GPU为RTX3060,CPU为酷睿I5-12400F,使用计算效率高的Adam优化算法训练模型。
训练超参数如表3所示。
表3 参数表Table 3 Parameter table
在上述参数的设定下,训练集损失如图9所示。
图9 训练集损失Fig.9 Training set loss
由图9可知:模型在训练集迭代30轮后得到收敛,损失由2.4下降至0.18。
为进一步测试网络在变负载条件下的结果,笔者使模型在测试集上继续迭代100轮,测试集损失如图10所示。
图10 测试集损失Fig.10 Test set loss
由图10可知:该网络随着迭代次数的增加,四种轴承的Loss持续下降,轴承1-3的loss由0.2下降至0.01,轴承1-7的loss由0.27下降至0.02,轴承2-3的loss由0.36下降至0.04,轴承3-1的loss由0.27下降至0.06。
模型在不同负载下均有较好的结果,表明该网络模型的泛化能力强,能很好地提取变负载下轴承的退化特征,从而验证了笔者方法的可行性。
3.6 对比实验
笔者将融合Inception V1-CBAM-CNN方法与深度神经网络方法(DNN)[16]、卷积神经网络方法(CNN)[17]、结合注意力机制的残差网络方法(ResNet)[18]进行对比。
在4个测试轴承上,笔者采用这四种方法得到了RUL的预测效果,如表4所示。
表4 四种方法损失对比Table 4 Loss comparison of the four methods
分析表4可知:该融合Inception V1-CBAM-CNN方法在四种轴承上的平均RMSE为0.035,对比其余三种方法,RMSE分别降低了86%、78%和69%。
这表明笔者提出的模型优于其他模型,在不同的负载下均有较好的结果,验证了该模型具有良好的泛化能力。
为了更加直观地展示该模型在变负载下的预测效果,笔者绘制经过平滑降噪处理的4种轴承的预测寿命曲线以及真实寿命曲线[19]。
该对比图如图11所示。
图11 预测寿命与真实寿命对比图Fig.11 Comparison between predicted life and real life
由图11可知:基于该模型建立的四种轴承RUL预测曲线波动较小,与真实寿命曲线之间拟合程度好,预测曲线可以近似地代替真实寿命曲线。
4 结束语
针对现有的滚动轴承剩余寿命预测方法精度低、轴承健康指标构建困难等问题,笔者在CNN基础上,结合Inception V1和CBAM,采用一种新的网络模型对不同负载下滚动轴承的RUL进行了预测,并采用PHM2012轴承数据集对所提方法进行了验证。
研究结果如下:
1)笔者提出的HI构建方法在充分利用时序信号的同时还避免了人工干预;
2)采用CBAM和Inception V1方法增强了Inception V1-CBAM-CNN模型的退化特征提取能力,采用添加多种网络优化方法提高了网络的性能;
3)实验结果表明,该方法在变负载条件下的平均RMSE为0.033,相对于DNN、CNN和ResNet三种方法的RMSE值分别降低了86%、78%和69%,在预测精度和泛化能力等方面具有明显优势。
在后续的工作中,笔者将针对时变转速下滚动轴承的RUL做进一步研究。