APP下载

基于CNN-ViT的滚动轴承故障类型识别方法

2023-03-03李俊卿张承志胡晓东何玉灵

电力科学与工程 2023年2期
关键词:灰度注意力故障诊断

李俊卿,张承志,胡晓东,何玉灵

(1.华北电力大学 电气与电子工程学院,河北 保定 071003;2.华北电力大学 能源动力与机械工程学院,河北 保定 071003)

0 引言

旋转机械广泛应用于多类领域。轴承作为旋转机械的重要部件之一,其可靠性对旋转机械的性能及稳定运行起到至关重要的作用,因此滚动轴承故障的及时诊断具有重要意义。

轴承的智能诊断方法主要包括特征提取和故障分类2个步骤。文献[1]运用小波包分解与傅里叶分解进行轴承故障信号处理。文献[2]利用传感器获取监测样本数据,以机器学习积累训练经验作为主要技术手段,实现了滚动轴承的故障诊断。文献[3]使用簇间距离优化的 SVM 进行滚动轴承故障诊断。

近年来,深度学习[4]被应用于轴承故障诊断领域。文献[5]利用经验模态分解将1维信号转化为二维的特征图,然后运用卷积神经网络(Convolutional neural networks,CNN)进行故障诊断。文献[6]对AlexNet结构进行改进,使用了1维CNN网络对一维时域信号进行故障诊断。由于轴承通常运行在大型旋转机械中,受环境噪声和载荷变化的影响,所采集到的振动信号在多个时间尺度上的特征频率变化较大,具有高度复杂性、耦合性和不确定性的特点。上述相关文献的研究中并未考虑该问题。

为此,有学者将长短期记忆网络(Long-short term memory,LSTM)运用于滚动轴承故障诊断中。文献[7]将LSTM网络与Softmax分类器相结合,将采集的振动信号进行归一化后,利用长短期记忆网络处理数据、提取特征。文献[8]将LSTM与CNN相结合:用CNN进行特征提取,然后使用双向LSTM网络进行故障分类处理。

LSTM 能够对时间序列进行处理,得益于其长短时记忆结构和循环处理结构;但是,这也导致其无法并行计算,在对大型数据进行运算时效果不能尽如人意。为了解决并行计算的问题,Transformer结构应运而生。与传统CNN与LSTM结构相比,Transformer使用了大量的自注意力机制,使得其能够解决时间序列的特征获取与时间序列顺序性的问题;同时,自注意力机制的使用使得 Transformer能够实现并行计算,相较于LSTM极大地提升了运算速度。

目前,Transformer在自然语言处理、计算机视觉等领域的应用取得了重要突破,但是利用Transformer进行滚动轴承故障诊断的研究并不多。文献[9]利用Transformer神经网络对滚动轴承剩余寿命进行了预测。

在Transformer结构不断发展的过程中,视觉Transformer(Vision transformer,ViT)模型被提出并用于图像分类领域。与传统CNN模型相比,ViT模型在浅层与深层获得的表征具有更多相似性,并且可以获得更多的空间位置信息[10]。目前,ViT模型在医学图像识别领域有较多应用[11,12],但尚未应用于滚动轴承的故障诊断。虽然ViT模型在视觉分类领域应用取得了成功,但是其本身也存在一定的问题,例如训练时稳定性不高等。

基于此,本文选择CNN-ViT神经网络进行滚动轴承故障识别,核心思想是:针对用轴承故障的一维时域信号难以挖取数据特征,以及一维时域信号与ViT结构位置编码不匹配的问题,将轴承的1维时域信号转化为二维灰度图,并在ViT模型前加入CNN神经网络进行上采样以获得2维灰度图中更多的数据特征,并且加入CNN以提升ViT模型训练时的稳定性。将卷积神经网络提取特征信息后的二维灰度图作为输入量,进行故障诊断。

1 卷积神经网络

CNN卷积层是卷积神经网络的核心层。卷积层主要由一些卷积核组成,其中卷积核的公式为:

在连续的卷积层之间周期性地插入1个池化层,其作用是逐渐降低数据体的空间尺寸,以减少网络中参数的数量、节省计算资源、有效控制过拟合。

在对输入数据进行一系列的卷积、池化运算后,将所抽取的特征压缩成1维的特征量,并将其送入全连接层进行分类。

2 ViT神经网络

ViT结构如图1所示[13]。图1中的“*”,表示类别向量class token。

图1 ViT总体结构Fig. 1 ViT overall structure

2.1 图像划分及位置编码

首先,将2维图片切割成同等大小的图片块(patch);然后进入Embedding层,将patch转换成2维矩阵;最后,通过线性映射将其转换成1维量。在实际操作中,该步骤可以用卷积层以及全连接层来实现。此外,还需要添加1个类别向量class token。这个类别向量与上述的1维量长度相等。

将输入图片记为X,X∊H×W×C,其中H和W分别为图片的高和宽,C为通道数。用N×N大小的图片块去分割整个图片,可以得到M个图片块。

将每个图片块转化为向量,得到N2C维向量。将M个图片块进行连接,便得到了 1个M×N2C的2维矩阵。最后,将该矩阵用线性映射转化为1维量。因此,1个H×W×C维的图片转化为了M个1维的量。然后,再添加1个可学习的分类向量xcls,用于表示图片经过编码后的全局特征。最后,加入包含空间信息的位置编码P,作为编码器层的输入。

式中:z0为编码器的输入。

2.2 Transformer编码器层

Transformer编码器层的结构如图2所示。

图2 Transformer编码器层结构Fig. 2 Transformer encoder layer structure

从图2中可以看到,该结构中主要的部分就是以残差形式连接的相加&层归一化、多头自注意力机制以及多层感知机(Multilayer perceptron,MLP)。该结构使用残差连接是为了防止神经网络退化。对数据进行层归一化有2个目的:加快神经网络训练的速度;提高训练过程的稳定性。

多头自注意力机制是把1个查询和1套键–值对映射到1个输出;输出是1个数值的加权和集合。在该集合中,通过利用1个键值的查询来计算指定的权重。多个注意力机制可以使模型在不同的位置上,对来自不同子域的信息进行集中。多头自注意力机制的公式如下:

式中:Q为查询矩阵;K为键矩阵;V为数值矩阵;分别为矩阵Q、K、V在第i注意力头的权重矩阵;n为多头自注意力中头的数量;dk为查询值或者键值的尺寸。

在计算过程中,将同时对同一组进行注意力函数的计算,然后送入矩阵Q中;键和值也分别送入矩阵K和V。A函数的作用是进行注意力计算的输出,s函数作用是将输入进行权重比较,hi函数的作用是进行第i个注意力头的计算,M函数的作用是进行多头自注意力的计算。C函数是折叠函数。

MLP的结构较为简单,主要由全连接层及激活函数组成。MLP接受到多头自注意力机制的输出权重并且进行比较,将故障类型识别出来。

3 基于CNN-ViT的轴承故障诊断方法

如图3所示,基于CNN-ViT模型的轴承故障诊断方法分为数据预处理、特征提取和故障分类3部分。具体诊断过程如下。

图3 故障识别流程Fig. 3 Fault identification process

(1)获取轴承的振动信号。

(2)利用信号转为图像的方法,将1维振动信号转化为2维灰度图,并划分训练集和测试集。

(3)将2维灰度图片输入到CNN中进行特征提取。

(4)将CNN提取的特征图片送入ViT模型中进行归一化位置编码,然后送入编码器层进行计算,并输出训练结果。

(5)训练完毕后,用训练好的模型进行故障分类。

4 实例分析

轴承工作数据集采用CWRU数据集[14]。实验平台如图4所示。对46205-2RS JEM SKF深沟球轴承的振动信号进行了采样,采样频率为12 kHz。实验选用轴承单点直径损伤分别为 0.007 mm、0.014 mm、0.021 mm。此外,根据损伤部位的不同,轴承故障分为滚动体、内圈、外圈故障,具体如表1所示。实验分析的软硬件平台数据如表2所示。

图4 轴承加速寿命试验平台Fig. 4 Bearing accelerated life test platform

表1 滚动轴承故障类型Tab. 1 Fault types of rolling bearing

表2 软硬件实验平台Tab. 2 Hardware and software experimental platform

图5为抽取的部分正常及不同故障状态的样本振动信号。

图5 抽取的不同故障类型振动信号Fig. 5 Extracted vibration signals for different fault types

4.1 特征图像的生成

CWRU数据集含有驱动端加速度数据、风扇端加速度数据。本文使用驱动端加速度数据信号进行实验。

4.1.1 数据增强

在已有的数据样本数目有限的条件下,使用数据增强技术来增加样本数目,以提高样本多样性、避免过拟合。本文采用重叠采样的方式将振动数据的波形图进行分割并进行数据增强,如图6所示。图6中,每4 096个数据点组成1个样本,其中实线框内整个信号表示原始信号,每个虚线框内的信号即为样本信号。

图6 重叠采样数据增强示意图Fig. 6 Schematic diagram of overlay sampling data enhancement

4.1.2 CNN上采样

将1维信号转化为2维灰度图;用每次获取的样本产生1个64×64的灰度图表。该方法能最大限度地保持1维振动数据的2维特性,无需预处理参数,降低了对技术人员的依赖性[15]。然后,使用CNN卷积神经网络进行上采样。CNN卷积网络的参数配置如表3所示。按照7:3的比例划分训练集与测试集。通过CNN卷积神经网络进行上采样,能够有效排除原始1维时域振动数据的干扰因素,获得2维灰度图中更多的特征信息。经过CNN上采样处理之后的2维灰度图如图7所示。

表3 卷积神经网络架构Tab. 3 Convolutional neural network architecture

图7 轴承故障2维灰度图Fig. 7 Two-dimensional grayscale diagram of bearing faults

4.2 ViT模型故障识别

将处理之后的灰度图送入ViT网络进行故障识别。ViT网络的参数配置如表4所示。

表4 ViT参数配置Tab. 4 ViT parameters configuration

训练过程:进行训练200轮;运用随机梯度下降法进行梯度更新;学习率设置为0.001;使用分类交叉熵作为损失函数,其表达式如式(7)所示;经过训练后的效果如图8所示。

图8 ViT网络训练过程损失值和准确率的变化曲线Fig. 8 Variation curves of loss value and accuracy during ViT network training process

式中:M为类别数量;yic为符号函数(0或1),在样本i的真实类别等于c时取1,否则取 0;pic为样本i属于类别c的预测概率。

为了展示模型对不同类型故障的识别效果,采用混淆矩阵来表示分类结果,如图9所示。

图9 诊断结果混淆矩阵Fig. 9 Diagnostic result confusion matrix

从图9可以看出,经过多轮训练后,该模型的准确率达到了 99.4%。这说明,该模型不仅能分辨出故障类型,同时对滚动轴承的不同故障程度的分辨准确率也相当高。

4.3 对比实验

为了验证本文所提方法的先进性,选取CNN模型、LSTM模型以及ViT模型进行对比分析,对比结果如表5所示。模型输入均为经过上采样后的灰度图。CNN模型中的参数配置与特征提取采用了表2的架构,并添加了2个池化层以及4个全连接层。池化层采用最大值池化。ViT模型的参数与表3相同。LSTM模型由2个LSTM层组成,每层的LSTM神经元有128个。

表5 不同方法的识别效果对比Tab. 5 Comparison of identification effect of different methods

从表5可以看到,本文方法与表中所列的其他深度学习模型相比,准确度最高。LSTM 模型的准确率为91.9%;CNN模型的准确率为94.6%;ViT模型的准确率为93.6%。本文方法准确率达到了 99.4%,比上述模型正确率分别高了 7.5%、4.8%、5.8%。

结果分析:与LSTM模型相比,CNN模型中的卷积操作对于图像的识别更有优势。ViT模型与CNN模型相比正确率仅降低了1%。ViT模型里面没有卷积操作,是完全基于注意力机制建立起来的,由此验证了基于纯注意力机制完成故障识别的也是可行的。本文所提模型比ViT模型准确率高,分析其原因为:由于一维时域振动信号包含有较多的信号干扰,因此通过上采样进行特征信息提取能减少干扰,提高识别性能以及训练的稳定性。

本文所提模型的准确率虽然比上述模型要高,但是也存在着计算量大的问题。不过在实际应用中,该问题所带来的影响很小,可以忽略不计。

总之,尽管以上方法都能取得很好的识别效果,但是CNN-ViT方法具有更高的识别能力。与其他模型比较,所提模型更好地实现了对滚动轴承的故障分类。

5 结论

本文提出了一种基于 CNN-ViT的滚动轴承故障类型识别模型。该方法的特点在于:将收集到的1维时域振动信号转为2维灰度图,然后通过CNN神经网络进行上采样提取故障特征;将获得的数据输入ViT模型中进行故障识别。

实验结果表明,本文所提模型在轴承故障识别中的准确率为99.4%。该结果验证了模型的有效性。相较于其他智能在线诊断方法,本文所提模型准确率最高,这进一步验证了本文模型的优越性。

展望:目前本文研究主要针对的是滚动轴承的单一故障,未来将结合滚动轴承的不同运行工况进行研究。

猜你喜欢

灰度注意力故障诊断
采用改进导重法的拓扑结构灰度单元过滤技术
让注意力“飞”回来
基于包络解调原理的低转速滚动轴承故障诊断
数控机床电气系统的故障诊断与维修
“扬眼”APP:让注意力“变现”
基于最大加权投影求解的彩色图像灰度化对比度保留算法
基于灰度线性建模的亚像素图像抖动量计算
A Beautiful Way Of Looking At Things
因果图定性分析法及其在故障诊断中的应用
基于LCD和排列熵的滚动轴承故障诊断