改进残差结构的轻量级故障诊断方法

2022-08-16刘芯志满君丰

计算机工程与设计 2022年8期

刘芯志，彭成,2，满君丰,2，刘翊

(1.湖南工业大学计算机学院，湖南株洲 412007；2.中南大学自动化学院，湖南长沙 410083； 3.工业和信息化部国家先进轨道交通装备创新中心，湖南株洲 412000)

0 引言

滚动轴承是机械装备中的核心器件，其健康好坏关系机械装备甚至整条生产线的产出质量。因此对滚动轴承的故障研究具有重要意义。在传统的滚动轴承故障识别方法中，主要采用信号处理和机器学习技术[1-5]。基于特征提取和分类的故障诊断方案能够取得不错的效果，但是存在两个局限性：①传统的故障检测算法需要有信号处理相关的知识背景，且需要人工构建特征并进行挑选，无法自适应提取故障特征；②通用性较差，面对不同的工况场景时可能会需要不同的特征提取方法。随着深度学习技术的兴起，以长短期记忆网络(long short-term memory，LSTM)与卷积神经网络(convolution neural network，CNN)为代表的网络结构在故障诊断领域应用逐步增多[6-12]，但是也存在以下一些问题：①网络层数过深，且LSTM无法并行计算导致参数过多、模型训练时间长；②原始数据信号过于理想化，而真实环境往往伴随着更多噪声。针对以上问题，本文提出改进残差结构的轻量级(spatial channel attention residual network，SCARN)模型。SCARN模型采用分组学习、蓝图可分离卷积、设计轻量级空间通道注意力模块的方式达到在保证较高故障诊断准确率的情况下尽可能减少模型参数，同时对深度残差收缩网络进行改进，设计了空间信息增强模块代替原始的全局平均池化层，增强了在复杂噪声场景下的鲁棒性。

1 深度学习模型

1.1 分组学习与通道混合

分组学习结构能够让模型分配到更多的GPU资源上，提高运算效率，同时能够在组内空间建模，通过空间注意力、通道注意力表达学习到不同的子特征。分组学习结构如图1所示。

图1 分组学习结构

分组学习将输入的数据按照通道数c进行划分，每g个通道为一组，每组通道分别学习空间注意力特征、通道注意力特征，使模型能够将重点放在信息量大的局部区域以及通道中，最后将各个组进行整合。

各个组整合后，将进行通道混合操作，其目的是为了让各个组学习的子特征在不同组间进行传递，使得下次再进行分组时，注意力机制能够关注到更多信息，模型输出大小和输入相同，因此分组学习与通道混合结构可以灵活嵌入到其它的深度学习网络中。

1.2 空间通道注意力模块

注意力机制通过模仿人类对事物重点观察的特点，广泛应用于各种任务中，例如机器翻译领域[13,14]和计算机视觉领域[15,16]。为了加强模型特征表达能力，构建轻量级网络，目前比较常用的注意力机制是SENet(squeeze-and-excitation networds)[17]。SENet是通道注意力机制的典型代表，对信息量大的通道进行增强，抑制对分类结果帮助不大的通道，SENet几乎可以嵌入到任何CNN网络中，以少量的参数和计算量获得较大的性能提升，但是SENet只关注了模型的通道信息，忽略了模型的空间信息。因此越来越多的深度学习网络模型将空间注意力模块和通道注意力模块相互整合提高任务指标，其中以CBAM(convolutional block attention module)[18]结构为代表。

但是空间注意力模块使用卷积层仅能捕获空间的局部信息，缺少对长距离信息的关注[19]，由此本文构建了一种将两个方向的长距离空间信息融入通道的注意力模块，如图2所示。

图2 空间通道注意力模块

图2中的卷积操作卷积核大小均为1×1，以此达到在引入几乎可忽略不计参数量的情况下，将长距离依赖的空间信息嵌入到通道中的目的，r表示衰减因子，与SENet中的r含义相同。

SENet中的全局池化层对空间信息的编码过于简单，会忽略掉过多有用信息，因此本文中的空间通道注意力模块首先将输入信息分别沿X方向以及Y方向进行空间编码，利于获取空间信息的长距离依赖，如式(1)、式(2)所示

(1)

(2)

f=Sigmoid(BN(Conv2d([zh,zw])))

(3)

其中，f为经过Sigmoid函数后生成的空间信息图，zh、zw为高度h、宽度w的输出张量，Conv2d为二维卷积函数，BN为批归一化函数。接着将f分割成两个单独的张量fh、fw，并进行卷积操作将通道数恢复到原始数量，如式(4)、式(5)所示

gh=Sigmoid(Conv2d(fh))

(4)

gw=Sigmoid(Conv2d(fw))

(5)

其中，gh、gw为恢复通道数后的张量，最后将两个方向的张量进行扩张，作为输入信息各个像素的注意力权重，如式(6)所示

(6)

其中，c为通道数，i、j为空间特征面的像素坐标。

1.3 蓝图可分离卷积层

常规卷积层中不同卷积核存在很多相似，这些相似的卷积核类似于从一个标准卷积核通过不同的线性变换得到[20]，由此可以将常规卷积层进行分离，蓝图可分离卷积层如图3所示。

图3 蓝图可分离卷积层

输入会先经过点卷积操作将特征面的每个通道特征进行加权并进行正交约束，防止参数间高度关联，随后将输出作为第二个点卷积操作的输入，进一步将通道信息融合，最后通过深度卷积操作将空间信息融合。蓝图可分离卷积相比于常规卷积层在保持高效信息融合的同时减少大量参数。

1.4 改进的深度残差收缩模块

随着网络模型的加深，容易发生“梯度消失”和“梯度爆炸”的现象，ResNet[21]的出现缓解了这一现象。但是在大型机械设备的故障诊断场景中，采集到的信号包含有不同程度的噪声，常规的深度学习模型无法剔除或抑制噪声信号，因此将信号降噪中常见的软阙值方法引入残差结构中[22]。

软阙值会将信号进行收缩，如式(7)所示

(7)

其中，x是信号的输入，y是信号的输出，α是当前信号的阙值，阙值需要满足两个条件：第一、阙值是正数；第二、阙值不能太大。如果阙值过大，那么介于阙值之间的输出信号就会全部为0，导致损失有用信息。软阙值导数公式如式(8)所示

(8)

可以看出，软阙值的导数不是1就是0，这和ReLU函数导数性质很相似，也能在一定程度上防止“梯度消失”和“梯度爆炸”现象。

每个信号的0附近并不全是噪声，直接使用软阙值会将有利用价值的信息也去除掉。卷积网络能够将特征域进行转换，将噪声聚集在0附近，这时再使用软阙值效果会更好。

在深度残差收缩结构中，全局平均池化层会忽略大量有效的局部或长距离依赖空间信息，在信息丢失的情况下，再使用全连接层将各个通道的空间信息组合不能进一步提升软阙值的效果。因此需要加大对深度残差收缩模型空间信息的获取，改进后的深度残差收缩模型如图4所示。

图4 改进的深度残差收缩模块

其中，FC表示全连接网络，al是残差结构的输入，al+1、al+2分别是经过第一个、第二个蓝图可分离卷积层的输出，α表示阙值矩阵，经过绝对值Abs操作后保证了α为正数，Sigmoid函数使阙值矩阵α的输出不会太大。

模块的输入先经过两个蓝图可分离卷积层，绝对值化后的1×1卷积层将特征面每个神经元的通道信息结合，再利用Softmax函数对特征面的每个神经元计算注意力权重，最后每个特征面神经元和对应的注意力权重相乘再累加，以实现和全局平均池化层一样的效果，但改进后的模块融合了更多的空间信息。

2 滚动轴承故障诊断方法及流程

改进残差结构的轻量级故障诊断方法流程如图5所示，具体步骤如下：

(1)预处理。预处理首先要判断是否要将数据加入高斯白噪声，采用降低信噪比的方式对数据进行处理，公式如式(9)所示

SNR(dB)=lg(Psingal/Pnoise)

(9)

其中，Psingal表示信号的有效功率，Pnoise表示噪声功率，SNR表示信噪比。

图5 改进残差结构的轻量级故障诊断方法流程

随后将数据进行标准化，标准化能够提升网络模型的收敛速度以及网络模型的精度。在时序任务中，要特别注意数据穿越问题，即对训练集的预处理不能包含验证集的信息，否则会导致验证集训练结果高，但测试集表现很差。因此标准化应放在数据集划分之后、模型训练之前。假设xmn表示第m个样本的第n个特征值，μ表示所有样本第n个特征的平均值，σ表示所有样本第n个特征的方差，标准化处理公式如式(10)所示

(10)

最后将一维信号数据矩阵化。

(2)划分数据集。将滚动轴承原始时域振动数据采用分层抽样的方式划分为训练集与测试集。为了能够将测试结果进行对比，划分数据集时需要固定随机种子以及划分比例。

(3)交叉验证。为了评估模型的预测效果，减少过拟合风险，交叉验证是非常常见的方式。在模型中，每一折交叉验证会根据评估指标得到最优的模型参数并保存，最后用于测试集预测。

(4)模型构建。将原始时域振动信号经过预处理后输入SCARN模型中训练。

(5)测试集验证。将测试集放入每一折的最优模型，得到预测结果。使用准确率(Accuracy)、F1值(F1 Score)、精确率(Precision)、召回率(Recall)作为评价指标。

3 实验研究与分析

3.1 实验准备及数据分析

本文实验环境为：Windows 10(64)位，PyCharm(2020.1.2)，Keras(2.2.0)。

为了尽量使轴承采集数据贴近大型机械设备真实运行环境，检测SCARN模型的抗噪性能，将采集到的数据增加不同幅值的高斯白噪声，外圈故障数据原始信号以及增加高斯白噪声后的噪声信号时域图如图6所示。

图6 不同信噪比状态(原始、-1 dB、 -2 dB、-3 dB)时域图

从图6中可以看出，外圈故障原始时序图故障特征比较明显，但是在信噪比逐渐降低后，特征信息减弱了。时域信号有代表性的3个特征指标：方差、偏度、峰度，在不同噪声下的特征值见表1。

将信号进行希尔伯特变换，得到不同信噪比状态下的

表1 不同信噪比下的时域信号指标

解析函数，最后求解各自的包络谱，观察信号频域的幅值变化，如图7所示。

图7 不同信噪比下的包络谱

从表1、图7中可以发现传统的信号处理特征指标在受到不能程度噪声干扰后，特征信息会发生显著变化，因此传统故障诊断方法在噪声情景下的诊断率比较低，这时需要引入专家经验，但成本会大幅提高。

3.2 实验过程及结果分析

本文利用Keras深度学习框架搭建融入注意力机制和残差结构的SCARN模型。模型损失函数采用交叉熵损失函数，优化器采用Adam，初始化学习率为0.001，当验证集F1值6轮不再上升时，学习率变为原来学习率的十分之一，当验证集F1值10轮不再提升时，模型停止迭代标准，此时保存最优模型参数。模型训练100轮，批次大小为64。

模型在前期的损失有小幅上升，训练集准确率迭代到5轮的时候就接近100%，训练集损失在17轮左右接近0，总体来说是朝好的方向优化。

深度学习算法端到端训练的特点使得在不需要人工干预的前提下就能自动学习到不错的特征，然而自动学习特征的过程一直被视为黑箱子操作[23]。为了进一步揭示SCARN模型内部对信号数据的特征提取过程，利用流形学习中的t-SNE[24]技术对高维空间进行降维。可视化实验将SCARN模型分为3部分：模型输入、第一层改进深度残差收缩模块的输出、模型输出。引入-3 dB信噪比状态下的模型可视化结果如图8所示。

图8 -3 dB信噪比状态下的模型可视化结果

从图8中可以看出，输入信号各个类别的边界不明显，存在多种类别聚集混合的现象。在经过第一层改进深度残差收缩模块后，样本的边界变大了，有些类别出现较明显的聚集现象，例如“0”。经过空间通道注意力模块结合分组学习与通道混合操作后，能够将散列分布的数据聚集在一起，使模型更关注有效的特征，抑制不重要的信息。但仍存在少量样本类别混合。

SCARN模型在没引入额外噪声的不同负载数据集下的表现见表2。

从表2中可以看出，在不添加高斯白噪声的情况下，SCARN模型在不同负载数据集的表现均不错，最差的准确率也能达到0.998。这种表现主要是由于两方面原因：第一、实验采集的信号数据比较干净，各种故障类型的信号特征比较明显；第二、SCARN模型能够准确的提取出信号中需要着重关注的特征。

为了验证SCARN模型具有良好的抗噪声能，将数据集A增加不同幅值的高斯白噪声，模型评价指标结果见表3。

从表3中可以看出，SCARN模型具有良好的抗噪性能，在加入信噪比为-3的高斯白噪声后，模型仍能达到0.94的准确率。-3 dB信噪比下的混淆矩阵如图9所示。

从混淆矩阵中可以看出，在加入高斯白噪声后，大部分预测结果与真实结果的故障直径和故障类型存在1种错误，两者都预测错误的情况很少。

3.3 各类方法对比分析

本文将改进残差结构的轻量级SCARN模型分别与深度残差收缩模型、CBAM+深度残差收缩模型、CNN-LSTM模型[11]、1DCNN模型[12]、ResNet模型以及基于EMD-SVM模型[25]进行对比，采用准确率、F1值、精确率、召回率作为评价指标，在数据集A中加入不同幅值的高斯白噪声后，各模型方法评价指标结果如图10所示，深度学习模型参数见表4。

从图10中可以看出，以上7种方法在没有添加高斯白噪声的情况下均能达到96%以上的准确率，随着信噪比的减少，SCARN模型相比其它模型的抗噪性能更强，最差也能达到94%的准确率。

CNN-LSTM模型的表现仅次于SCARN模型，但是从表4中可以看出CNN-LSTM模型的参数是SCARN模型的

表2 不同负载数据集下SCARN模型评价指标结果

表3 加入高斯白噪声后SCARN模型评价指标结果

图9 -3 dB信噪比混淆矩阵

图10 不同信噪比下各模型评价指标

表4 深度学习模型参数

19倍，这意味着训练的时间会更长，硬件资源的消耗更多，且LSTM计算效率不高，无法进行并行计算。1DCNN模型虽然参数是最少的，没有噪声信号的情况下能够达到较高的准确率，但是其模型过于简单，真实场景中往往充斥着更复杂的噪声信号导致模型准确率下降。

将不同幅值的高斯白噪声信号传入深度残差收缩模型中，准确率有所下降，特别是信噪比越小时，下降得更加明显。深度残差收缩模型在加入CBAM后，准确率有上升，说明注意力机制能够使模型能更加专注在有效特征的提取上，抑制噪声。对比SCARN模型，SCARN模型准确率下降比较平稳，说明抗噪性能较好，且参数数量也少于前两种模型。

ResNet模型能够有效避免“梯度爆炸”或“梯度消失”现象，在原始信号下也能达到较高的准确率，但是引入噪声信号后，模型表现大幅下降，可能的原因是单一的残差结构对噪声信号特征和原始信号特征没进行特别处理，导致残差卷积后仍包含大量噪声。

EMD+SVM模型的故障识别准确率最低。在加入噪声信号后，从表1、图7可以看出信号的时域特征指标以及频域均会出现不小变化，噪声影响了对原始信号特征的提取，采用简单的分析方法难以获得较好的结果，且需要引入专家经验，加大了模型搭建成本。

4 结束语

针对现有模型存在的网络层数过深、模型较复杂，实验数据环境过于理想化的问题，提出改进残差结构的轻量级SCARN模型并应用于大型机械设备故障诊断。本文主要工作：①通过分组学习与通道混合操作增强了信息的交互；②考虑到卷积核的相似性，使用蓝图可分离卷积代替常规卷积层，在保持高效的同时减少了大量参数；③设计了新的空间通道注意力模块，在SENet模型基础上将两个方向长距离依赖的空间信息融入通道中，提高特征表达能力；④改进深度残差收缩模块，设计空间信息增强模块代替原有的全局平均池化层，提高模型噪声环境下的鲁棒性。实验结果表明，SCARN模型能够在参数量尽可能少的同时，提取到信号数据的有效特征，且具有良好的抗噪性能。在下一步工作中，会针对同一机械多种故障源以及多数据源进行实验，对模型的优化也是需要重点考虑的问题。