APP下载

一种改进原型网络的小样本轴承故障诊断方法

2023-10-31赵志宏刘克俭杨绍普

振动与冲击 2023年20期
关键词:原型故障诊断准确率

赵志宏, 张 然, 刘克俭, 杨绍普

(1.石家庄铁道大学 省部共建交通工程结构力学行为与系统安全国家重点实验室,石家庄 050043; 2.石家庄铁道大学 信息科学与技术学院,石家庄 050043)

目前,机械设备广泛应用于各行各业,轴承作为机械设备中不可或缺的零部件之一,其运行状态的好坏直接影响了机械设备的稳定性与安全性。在机械设备长期运行过程中,轴承极易发生各种故障,轻则影响设备正常运行,造成经济损失,重则引发安全事故,威胁人类的生命安全。因此,对轴承进行故障诊断研究具有重要的意义[1]。

随着智能传感技术与机器学习技术的迅速发展,基于数据驱动的故障诊断方法成为研究热点,主要包括机器学习和深度学习两种方法。基于机器学习的故障诊断方法,主要从时域、频域或时频域中手动提取特征,然后将提取到的特征输入分类模型,比如支持向量机[2]、人工神经网络[3]、随机森林[4]等模型,实现轴承故障诊断。以上方法虽然可以实现故障诊断,但仍然需要依赖专家经验手工选取特征,并且手工提取的特征具有针对性,所得模型难以适用于新的诊断任务,模型泛化能力较差。

基于深度学习的故障诊断方法利用深度学习强大的非线性特征提取能力和表征能力自适应提取特征,在故障诊断领域越来越受到重视。研究人员采用卷积神经网络[5]、循环神经网络[6]、深度置信网络[7]以及自编码器[8]等深度学习模型自适应地从时域、频域或时频域数据中提取特征,实现故障诊断,取得了较高的准确率。但是深度学习方法需要大量带标签数据进行训练,在实际工业生产中,大型机器设备在未发生故障或刚发生故障时就已经进行维修或者更换,极难获取大量带标签故障样本,而在小样本情况下,深度学习模型容易出现过拟合问题,导致故障诊断模型准确率不高。

随着小样本学习(few-shot learning,FSL)[9]在计算机视觉、自然语言处理等领域的研究和发展,越来越多的专家学者致力于小样本故障诊断的研究。其中,元学习方法[10]通过对历史任务的学习和经验积累,可以更加容易的学习新任务,只需要少量训练样本,就能够保证一定的模型精度。基于度量学习的原型网络属于元学习中的一种方法,该方法旨在学习各类样本在一个度量空间的原型表示,通过比较查询样本与各类原型之间的距离,将查询样本归入距离最近的类别,从而达到分类的目的。原型网络最早由Snee等[11]提出,目前已经广泛应用于图像分类[12-13]、文本分类[14]等领域中,在小样本故障诊断中也有了初步应用。Jiang等[15]提出双分支原型网络,将时域信号和频域信号作为两个分支输入原型网络,试验表明该方法具有较高的准确率。Wang等[16]提出基于时域和频域融合的小波原型网络,采用并行双通道卷积结构处理信号信息,然后设计小波层进一步提取特征,实现小样本故障诊断。余浩帅等[17]提出混合自注意力原型网络,利用混合自注意力模块获取更具判别性的特征信息,实现风电齿轮箱故障诊断。以上方法虽然取得了较好的结果,但是在训练过程中,由于支撑集样本较少,有时获取的类原型不是很准确。

为了更充分地利用小样本中的信息,提取更有效特征,获得更准确的类原型,部分专家学者通过利用辅助任务,在少量训练数据中提取更丰富的信息。Liu等[18]在原型网络基础上使用自监督学习作为辅助任务,能够学习到更丰富的特征表示,在图像分类试验中表明了该方法的有效性。于俊杰等[19]提出一种少样本文本分类的多任务原型网络,在原型网络基础上对查询集样本进行情感分类,提高模型的语义特征提取能力,得到更高的分类准确率。Chen等[20]将数据分别输入原型网络与注意力模型中,通过将距离度量损失与分类损失相结合,实现冶金文本实体关系识别,提高模型的泛化能力和准确性。

为了提高故障诊断中原型表示方法的性能,本文提出一种改进原型网络的小样本轴承故障诊断方法,通过引入辅助分类任务,提取对故障类型有更具鲁棒性的特征,从而使不同类别的原型表示之间区分性更好。另外,将支撑集样本特征与查询集样本特征共同输入辅助分类模块,进行故障分类,引入查询集样本后,可以使嵌入模块更准确地提取有助于故障分类的特征,与只利用支撑集样本得到的类原型相比,得到的类原型可以更准确地表示轴承故障类型。为验证本文所提方法的有效性,设置K取不同值,选取美国凯斯西储大学的滚动轴承试验数据集进行C-way K-shot故障诊断试验,试验结果表明,在10-way 5-shot试验中本文所提方法相较传统原型网络准确率提高了5.1%,所得类原型具有更好的区分性与准确性。

1 原型网格相关知识

在本章中,首先定义小样本学习中的专业术语和相关符号,然后介绍基于度量学习的原型网络算法。

图1 原型网络结构

Fi=fφ(xi)

(1)

Fj=fφ(xj)

(2)

式中:Fi和Fj为输入样本xi与xj的特征向量;fφ()为嵌入模块;φ为相应的参数。

(3)

然后,计算查询集特征向量Fj与类原型Pc之间的欧氏距离djc。

(4)

最后,通过对djc使用softmax函数计算查询集样本属于某个类别的概率pφ(y=c│xj),概率最大的标签类别作为分类结果。

(5)

采用负对数概率损失函数,计算公式为

J(φ)=-logpφ(y=c│xj)

(6)

式中,φ为嵌入模块的参数。

2 改进原型网络的故障诊断方法

在本章中,首先提出一种改进原型网络的小样本故障诊断模型;然后详细介绍模型结构以及模型损失函数的细节;最后介绍该模型进行小样本故障诊断的流程。

2.1 改进原型网络故障诊断模型

原型网络通过度量查询集特征向量与类原型之间的欧氏距离实现分类。传统原型网络由于支撑集样本较少以及易受异常值的影响,导致得到的类原型准确性不是很好。为了得到更好地类原型表示,引入一个辅助分类任务,对支撑集样本和查询集样本进行分类,提取对故障分类有用的特征,从而使不同类别的原型之间的区分性更好。改进的原型网络小样本故障诊断模型如图2所示,包含嵌入模块、距离度量模块与辅助分类模块。嵌入模块用来提取输入样本的特征表示,距离度量模块根据查询集样本表示与类原型之间的距离判断查询集样本所属类别,辅助分类模块对支撑集与查询集的特征向量进行分类,判断支撑集与查询集样本所属类别。

图2 改进原型网络模型

2.1.1模型结构

为了突出模型性能的优势,嵌入模块采用基本的卷积神经网络进行特征提取,由4个卷积层和3个池化层组成。Conv_1采用1*10的大卷积核,便于提取较大范围的特征,减少有用信息的损失,其他卷积层采用1*3的小卷积核,便于提取局部信息,减少网络的参数量与计算复杂度。为了避免梯度爆炸,每层卷积后都会进行批标准化(batch normalization,BN)操作,并采用ReLU激活函数,将负值置零,提高网络的非线性能力。其中,池化层能够在保留主要特征的同时减少网络的参数量与计算复杂度。

辅助分类模块采用简单的两层全连接层结构,最后一层采用softmax激活函数以便得到样本的故障类别。嵌入模块与分类器的网络参数如表1所示。

表1 网络参数

2.1.2模型损失函数

(1)度量损失

通过距离度量模块得到查询集样本属于某个类别的概率,计算度量模块预测结果与真实标签的交叉熵损失作为度量损失Lmetric

(7)

(2)辅助分类损失

通过辅助分类模块对支撑集与查询集样本特征进行分类,计算辅助分类模块预测结果与真实标签的交叉熵损失作为辅助分类损失Lclass

Lclass=Lsupport+Lquery

(8)

式中:Lsupport为支撑集样本分类损失;Lquery为查询集样本分类损失。

支撑集样本分类损失为

(9)

式中:M为训练集样本数量;I()为相应的标签函数,如果样本xi的真实类别等于c时,I[yi=c]等于1,否则等于0;pic为样本xi属于类别c的预测概率。

查询集样本分类损失为

(10)

式中:N为查询集样本数量;I()为相应的标签函数,如果样本xj的真实类别等于c时,I[yj=c]等于1,否则等于0;pjc为辅助分类器模块所得样本xj属于类别c的预测概率。

(3)总损失

本文总损失为

Ltotal=Lmetric+Lclass

(11)

式中:度量损失Lmetric指导嵌入模块学习查询集样本特征与类原型之间的相对位置关系;分类损失Lclass帮助嵌入模块提取更多有利于分类的有效特征,缩小类内距离,扩大类间距离,生成更具代表性的类原型。

2.2 改进原型网络的故障诊断步骤

一种改进原型网路的小样本故障诊断方法流程如图3所示,具体步骤如下:

图3 改进原型网络小样本故障诊断方法流程图

步骤1利用传感器采集不同运行状态下轴承的原始振动信号,利用滑动窗口将信号进行等长截断,对分段后的信号进行快速傅里叶变换,得到振动信号的频谱;

步骤3构建一种改进原型网络的小样本故障诊断模型,包括构建嵌入模块、距离度量模块、辅助分类模块,并将度量损失Lmetric和分类损失Lclass进行结合获得总损失Lall;

步骤4将训练集Dtrain中支撑集样本和查询集样本输入改进原型网络模型,将总损失Ltotal作为模型损失函数值,利用反向传播算法进行训练,获取模型参数;

步骤5将测试集Dtest中支撑集样本与查询集样本输入训练好的改进原型网络模型,得到每类样本的类原型Pc,最终得到查询集样本的故障类型。

3 试 验

在本章中,首先介绍了试验数据集与试验环境设置;然后进行试验,验证本文模型在小样本中的有效性;同时进行了泛化试验验证模型泛化性能。

3.1 数据集

为了验证该模型的性能,本文选取美国凯斯西储大学的滚动轴承试验数据集[21]进行试验。该数据集来自如图4所示的轴承故障试验台,从左到右依次为电机、转矩传感器和负载。本文选用驱动端轴承数据,轴承型号为6205-2RS JEM SKF,转速为1 797 r/min,采样频率为12 kHz。该数据集包含0,1 hp,2 hp和3 hp四种负载,故障类型分为内圈故障、滚动体故障和外圈六点钟方向故障,每种故障类型包含0.177 8 mm,0.355 6 mm和0.533 4 mm三种故障直径,每种负载下包含九种故障类型与一类正常数据共十类数据。

图4 轴承故障试验台

数据划分方式如表2所示,训练阶段,每类故障选取10个样本,其中支撑集样本数量为5,查询集样本数量为5,即构造“10-way 5-shot”任务。测试阶段,每类故障选取200个样本,其中,支撑集样本数量为5,其余均为查询集样本。

表2 试验数据集

本试验所用硬件配置如下:处理器为Intel(R) Core(TM) i7-10710U CPU @ 1.10 GHz 1.61 GHz;GPU为NVIDIA GeForce MX350;内存为16 GB;软件环境为python3.6.13、Pytorch1.8.1、CUDA10.2、cudnn7.0。

3.2 试验设置及结果分析

试验中,对原始振动信号进行滑动窗口取样,每个样本2 048个采样点,步长为256。并对采样样本进行快速傅里叶变换,得到长度为1 024的频谱信号。在故障诊断中,频谱信号比时域信号有更高的准确率,因此本文将频谱信号作为模型输入。经试验确定模型超参数取值,批量大小为100,迭代次数为200,学习率为0.000 2,优化器为Adam。

为验证改进原型网络的有效性,选取0下轴承信号作为试验数据集,并与原型网络进行对比。为体现结果的准确性,本文选取十次试验结果的平均值作为最终准确率。改进前后模型的故障诊断准确率如表3所示。从表3可知,改进后原型网络的准确率相较改进前提高了5.1%,说明本文将原型网络与辅助分类任务相结合,具有一定的优势。

表3 不同模型的准确率

3.3 特征提取可视化分析

为直观体现改进原型网络具有更好的特征提取能力,在10-way 5-shot任务中使用t-SNE降维方法对嵌入模块所得测试集样本特征向量进行可视化。如图5所示,为原型网络改进前后支撑集样本特征的t-SNE图,从图5(a)中可以看出,原型网络所得支撑集样本特征中同类样本没有很好的聚集在一起,不同类别的样本混淆在一起,没有明显的分类界限,说明嵌入模块没有充分提取能够区分每类故障的特征,导致生成的类原型区分性较差,不具有代表性。从图5(b)可以看出,改进原型网络中,同类支撑集样本均能较好的聚集在一起,并且不同类别的样本之间均有明显的分界线,说明引入辅助分类任务,嵌入模块能够提取到更多有利于分类的故障特征,使得支撑集样本特征类内距离更小,类间距离更大,生成的类原型更具有区分性。如图6所示,为原型网络改进前后查询集样本特征的t-SNE图,如图6(a)所示,原型网络所得查询集样本特征中,故障0与故障1类间距离较近,容易出现分类错误的情况,导致分类准确率降低,如图6(b)所示,改进原型网络所得查询集样本特征类间距离更大,类内距离更小,分类准确率也会更高。

图5 支撑集样本特征t-SNE图

图6 查询集样本特征t-SNE图

3.4 训练样本数量对准确率的影响

为比较所提方法的故障诊断性能,本文进一步验证不同训练样本数量对准确率的影响。首先固定查询集样本数量为5,支撑集分别选取1个、3个、5个、20个样本进行训练,诊断结果如图7所示。从图7中可以看出,改进原型网络在样本量不足的情况下依旧有很好的分类准确率,而原型网络随着支撑集样本的减少,分类准确率有明显的下降,并且改进原型网络在不同支撑集样本数量下准确率均能够达到99.00%以上。

图7 不同支撑集样本数量下模型的准确率

在10-way 5-shot任务中,设置训练集样本数量分别为10,20,30,50,100,200,其中,支撑集样本数量固定为5,其余均为查询集样本,诊断结果如图8所示。从图8中可以看出,原型网络随着查询集样本数量的增加,模型准确率有明显升高,差距较大,而改进原型网络在样本量较少的情况下,准确率依旧能够达到99.90%,具有较好的模型性能。

图8 不同查询集样本数量下模型的准确率

3.5 泛化试验

为进一步验证模型的泛化性能,本文采用不同负载下的数据分别构建训练集和测试集进行试验。例如,0->1使用负载为0的数据进行训练,1 hp的数据进行测试。在10-way 5-shot任务中,不同负载下模型的准确率如表4所示。从表4可以看出,当负载发生变化时,6组试验中,改进原型网络的准确率均高于原型网络,相比原型网络,改进原型网络平均提高5.2%,这也说明了改进原型网络方法具有更好的泛化性能。

表4 不同负载下模型的准确率

3.6 变转速滚动轴承试验

为了更加充分地验证本文所提方法的优越性,本文选取加拿大渥太华大学机械工程实验室的变转速滚动轴承数据集[22]进行故障诊断试验。该数据集的轴承型号为ER16K,采样频率为200 kHz,故障类型分为健康状态、内圈故障和外圈故障,标签分别为0,1,2。每种故障类型有12组试验数据,其中包含3组加速、3组减速、3组先加速后减速以及3组先减速后加速。

本文选取1组加速数据,进行3-way 1-shot,3-way 3-shot和3-way 5-shot试验,并将本文所提模型与原型网络进行比较,准确率如表5所示。从表5中可以看出,在1-shot,3-shot,5-shot试验中,本文所提模型相较于原型网络,准确率分别提高了4.15%,11.70%,5.20%,可以充分说明改进原型网络的有效性。

表5 变转速轴承试验的准确率

4 结 论

本文针对原型网络所得类原型准确性较差的问题,提出一种改进原型网络小样本轴承故障诊断方法,并在轴承数据集上进行试验。本文主要结论如下:

(1)通过在原型网络的基础上引入辅助分类任务,可以提高原型特征的区分能力,从而提高原型网络的故障分类的准确性。在10-way 5-shot故障诊断试验中,改进原型网络相较于传统原型网络准确率提高了5.1%,并且通过特征可视化分析可知,改进原型网络所得支撑集样本特征类内距离更小,类间距离更大,所得类原型更具有代表性。

(2)利用查询集样本能够对原型网络进行优化,使得类原型具有更好的适用性。在不同支撑集样本数量下,改进原型网络的故障诊断效果均优于传统原型网络方法,尤其在小样本条件下改进原型网络优势更加明显。在轴承不同负载下,改进原型网络相比传统原型网络准确率平均提高了5.2%。

猜你喜欢

原型故障诊断准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
包裹的一切
《哈姆雷特》的《圣经》叙事原型考证
高速公路车牌识别标识站准确率验证法
论《西藏隐秘岁月》的原型复现
原型理论分析“门”
因果图定性分析法及其在故障诊断中的应用
基于LCD和排列熵的滚动轴承故障诊断