基于改进多任务学习网络的零样本故障诊断

2023-12-20曾魁魁郑直姜万录冯立艳

机床与液压 2023年23期

曾魁魁，郑直，姜万录，冯立艳

(1.华北理工大学机械工程学院，河北唐山 063210；2.燕山大学，河北省重型机械流体动力传输与控制重点实验室，河北秦皇岛 066004；3.燕山大学，先进锻压成形技术与科学教育部重点实验室，河北秦皇岛 066004)

0 前言

齿轮和滚动轴承作为旋转机械的核心元件，在整个设备的动力传动中起着重要作用，被广泛地应用于汽车制造、船舶制造和航空航天等重要领域。然而由于工业生产的需要，其工作环境变得越来越复杂，长时间处于高温高压环境下加速了设备性能的退化。其失效不仅会引起重大的经济损失，甚至会导致人员伤亡。因此，对齿轮和滚动轴承等元件进行状态检测和故障诊断十分有必要[1-4]。

多任务学习作为深度学习方法的一种，通过共同训练实现信息共享，不仅可以同时解决多个任务，还能够利用不同任务间的相关信息提高模型的泛化能力。GUO等[5]将振动信号、工作条件以及领域知识融合成一个三维的输入信号，可以同时完成轴承故障的诊断和定位任务。LIU等[6]将速度识别任务和载荷识别任务作为2个辅助任务，利用不同任务中包含的丰富关联信息提高轴承故障诊断任务的性能。赵晓平等[7]提出了一种基于多任务学习的故障诊断方法，将齿轮箱的轴承和齿轮作为2个诊断任务，通过共享层从同一信号中提取出不同目标的特征。ZHAO等[8]将深度注意力和点注意力引入到改进的可分离卷积模块中，进而提出一种新型的多任务神经网络，并将齿轮的故障类型和损伤程度作为2个诊断任务。虽然多任务学习能够利用不同任务间的相关信息来提高模型的泛化能力，但庞大的网络模型和冗余的参数会导致诊断效率降低。因此，对多任务学习网络进行轻量化是十分有必要的。

利用轻量化方法设计卷积神经网络的结构，不仅可以减少模型参数量、降低计算复杂度，还能提高诊断的实时性。因此，许多学者基于轻量级卷积神经网络MobileNetV1、MobileNetV2和MobileNetV3等对滚动轴承进行故障诊断。YU、 LV[9]提出了一种基于MobileNetV1的故障诊断模型，实现了端到端的轴承智能故障分类和诊断应用。YU等[10]提出一种基于MobileNetV2和Wasserstein距离的非对称对抗域自适应方法，并应用于轴承的故障诊断。WU等[11]提出了一种新的自适应对数归一化方法用于数据预处理，并利用MobileNetV2、MobileNetV3等轻量级神经网络诊断轴承故障。YAO等[12]提出了一种基于改进MobileNetV3的轴承故障诊断方法，并引入一种新的算法Deep SHAP，该模型在诊断的同时还能将故障特征可视化。

元学习作为解决少样本问题的一种方法，旨在通过学习包含少量样本的相关任务获取先验知识，并利用此知识快速解决新的少样本任务。因此，许多学者使用元学习解决少样本学习问题。SU等[13]提出了一种新的数据重构分层递归元学习方法，实现了轴承的少样本故障诊断。余晓霞等[14]提出了一种基于元学习门控神经网络的齿轮小故障样本诊断方法，通过门控神经网络提高了齿轮退化趋势预测精度。FENG等[15]提出了一种基于领域对抗相似性的元学习网络，实现了轴承的少样本故障诊断。HU等[16]提出了一种任务排序元学习方法用于轴承少样本故障诊断，利用K均值聚类算法将元训练阶段的任务从易到难进行排序，阶梯式的学习方式使得任务之间的适应更加稳定。

零样本问题作为少样本问题的一种特例，可以使模型诊断出从未见过的故障类别。它与少样本学习的区别是：少样本中的每种故障类型样本都存在，但是样本量少；在零样本中，某些或者全部故障类型样本根本不存在。因此，零样本学习比少样本学习更具有挑战性。许多学者也对此展开了深入的研究。XING等[17]提出了一种标签描述空间的智能故障诊断方法，用于齿轮单一元件的未知复合故障零样本诊断。LV等[18]提出了一种基于混合属性条件对抗式降噪自编码器的方法，实现了轴承单一元件的零样本故障诊断。XU等[19]提出了一种用于轴承复合故障诊断的零样本学习方法，实现了由已知单故障向零样本复合故障的单一元件故障诊断。GAO等[20]提出了一种基于压缩堆叠式自编码器的零样本学习方法，实现了轴承单一元件由已知工作负载向未知工作负载的零样本故障诊断。以上关于零样本问题的研究都是基于单一元件，而机械设备发生故障常常涉及多个元件，因此研究跨元件的零样本问题是很有必要的。

基于上述分析可知，目前还存在如下问题需深入分析：(1)多任务学习网络的参数量多大、结构过于复杂、规模更为庞大，导致故障诊断实时性差；(2)基于多个故障元件的跨元件零样本问题更为复杂，且尚未被研究。

针对上述问题，本文作者提出一种基于元学习优化的轻量化多任务学习网络。基于MobileNetV3构建轻量化多任务学习网络，引入元学习优化上述轻量化网络的训练方式，最后进行齿轮和滚动轴承多元件的实测故障分析。

1 基础理论

1.1 多任务学习

多任务学习网络是一种可以同时有效地解决多个任务的深度学习方法。多任务学习的核心思想是信息共享，即它可以学习多个任务的共享特性，并且允许此共享信息用于其他任务，从而提高网络的泛化能力。

与单任务学习相比，多任务学习可以通过共享层有效地提取多个任务之间的共同信息，克服了由于训练样本不足而导致的模型泛化能力不强的问题。而且多任务学习与深度神经网络结合后具有更强的特征学习能力，因此在人工智能领域日益流行。单任务学习网络和多任务学习网络示意如图1所示。

图1 单任务(a)和多任务(b)学习网络示意

在多任务学习框架中，一般通过硬参数共享机制或软参数共享机制实现任务间的信息共享。硬参数共享是多任务学习中最常见的共享机制，它通过在共享层进行参数共享、在子任务层使用独有的参数来实现。因此，硬参数共享可以在很大程度上降低过拟合的风险。与硬参数共享不同，在软参数共享中，每个任务都有自己模型和参数，在训练过程中需要施加范数来约束任务的相似度。因此，软参数共享会受到正则化技术的影响。硬参数共享和软参数共享机制如图2所示。

图2 参数共享机制

1.2 轻量化网络

随着神经网络的深度和宽度不断增加，其参数量、计算量以及储存成本也会随之增加。庞大的网络模型、昂贵的设备资源使得深度学习很难应用于移动便携设备。

MobileNetV1是谷歌提出的第一个轻量化神经网络，它使用深度可分离卷积代替传统卷积，深度可分离卷积由深度卷积和逐点卷积组成，分别用于减少参数量和调整通道，进而大大降低了参数量和计算的复杂度。MobileNetV2除了沿用MobileNetV1中的深度可分离卷积，还加入了线性瓶颈层和逆向残差网络结构，从而构成了高效的基本模块，解决了低维非线性映射的信息丢失问题。

MobileNetV3综合了MobileNetV1的深度可分离卷积和MobileNetV2的具有线性瓶颈层的逆向残差网络结构，并修改了MobileNetV2的网络末端，在不损失精度的同时降低了计算量。除此之外，还引入了MnasNet的基于压缩激励模块的轻量化注意力模型和新的非线性激活函数h-swish，该激活函数可表示为

(1)

MobileNetV3的基本模块如图3所示。

图3 MobileNetV3的基本模块

1.3 模型无关元学习

元学习，也称学会学习，旨在利用先验知识，在仅使用少样本量的情况下完成新任务的学习。元学习是以任务为基本单元，注重的是学习过程而不是单个任务结果。

元学习的学习方式为：将给定服从P(T)的任务集划分为元训练集和元测试集，它们都包含大量的N-wayK-shot任务，N表示每个任务中包含的类别数量，K表示从每种类别中抽取的样本数量。因此，每个任务中有N×K个样本作为支持集并用于训练，另外从每种类别中抽取一定量的样本作为查询集并用于测试，元学习在训练阶段和测试阶段均以这种方式进行小样本学习。

模型无关元学习(Model-Agnostic Meta-Learning，MAML)是元学习中的优秀算法之一，旨在找到任务分布Ti～P(T)中每个任务都比较敏感的初始化参数θ，当模型面对新任务时，通过梯度下降算法来微调参数θ，使模型的损失函数在很少步数内快速收敛。

MAML模型由内、外两层循环构成，形式上，将任务服从P(T)分布的模型fθ看作是由参数θ表示的函数。当学习新任务Ti时，模型的参数经过一步或多步梯度下降最终由θ更新为θ′i。其一次梯度更新可表示为

(2)

其中：α代表内部学习率。

在训练阶段，通过优化多个任务上的fθ′i来更新模型的初始参数，元优化目标可表示为

(3)

在外循环中，跨任务的元优化通过随机梯度下降实现，初始模型参数的更新过程可表示为

(4)

2 实验台与方法流程

文中以MFS-MG实验台的齿轮和滚动轴承为研究对象。齿轮的转速设定为2 100 r/min，在采样频率为50 kHz时分别采集缺齿、断齿和正常的振动信号。滚动轴承的转速设定为2 000 r/min，在采样频率为12 kHz时分别采集内圈、滚动体和正常的振动信号。实验系统如图4所示。

图4 齿轮(a)和滚动轴承(b)实验系统

将采集到的一维振动信号转换为二维图像作为样本数据。齿轮和滚动轴承的6种故障共计1 500个样本，每个样本包含512个数据点。每种故障的样本数量为250，按4∶1划分为训练集和测试集。图5和图6分别展示了齿轮和轴承每种故障的样本。

图5 齿轮振动图像样本

图6 滚动轴承振动图像样本

所提方法的流程如图7所示。

图7 所提方法流程

3 实验验证

此实验训练和测试的硬件环境为i7-9750 CPU、内存为16 GB，软件编程环境为Python3.7、Pytorch1.5.4。网络训练输入样本为3通道的RGB图像，尺寸大小为224像素×224像素。学习率为0.01、Batch-size设置为64，共迭代20个Epoch。

3.1 基于MobileNetV3的多任务学习网络构建及轻量化效果分析

为了证明基于MobileNetV3构建的轻量化多任务学习网络模型(MT-MNV3)的有效性和优越性，分别利用轻量化方法MobileNetV1和MobileNetV2构建轻量化多任务学习网络，将其分别记为MT-MNV1和MT-MNV2。图8所示为各个多任务学习网络的诊断精度和损失函数值的变化曲线，表1给出了各个多任务学习网络的具体诊断结果。

表1 不同多任务学习网络模型的诊断结果

图8 故障诊断结果

由图8可知：MT-MNV3的诊断精度上升速度较快，且迭代到一定次数后精度最高、最稳定。同时，MT-MNV3的初始损失函数值最小、收敛速度快，并且稳定性高。

由表1可知：MT-MNV3在各方面的表现都优于MT-MNV1和MT-MNV2。其中，在诊断精度方面，MT-MNV3的平均训练精度较MT-MNV1和MT-MNV2分别提高2.3%、3.1%；平均测试精度较MT-MNV1和MT-MNV2分别提高1.9%、6.1%。

诊断效率方面，MT-MNV3的训练时间较MT-MNV1和MT-MNV2分别显著降低42.7%、58.6%；预测时间较MT-MNV1和MT-MNV2分别显著降低38.9%、51.1%。

参数量、计算量和模型尺寸方面，MT-MNV3的参数量较MT-MNV1和MT-MNV2分别显著降低31.9%、8.9%；计算量较MT-MNV1和MT-MNV2分别显著降低90.3%、81.3%；模型尺寸较MT-MNV1和MT-MNV2分别显著降低31%、9.3%。

由上述可知，MT-MNV3可以同时实现齿轮和滚动轴承的高精度、高效率的故障诊断，并且模型尺寸小、设备资源占用量小。实现了多任务学习网络模型的高精度化、轻量化和实时性。

3.2 基于元学习优化的轻量化多任务学习网络的零样本问题研究

受到生产现场和经济成本的限制，某些或者所有故障类型样本无法采集，导致出现零样本问题。

通过上述对比分析证明了MT-MNV3在诊断精度、效率以及轻量化方面的优越性。因此，文中利用MAML元学习方法对MT-MNV3的训练方式进行了改进，提出一种MT-MNV3-ML方法。

所提方法可根据以往任务学习经验，得到一个对任务变化敏感的初始参数，从而在面对新的故障诊断任务时，即使没有训练样本，对测试样本进行诊断时，也能获得较高诊断精度。所提MT-MNV3-ML模型如图9所示。

图9 所提MT-MNV3-ML方法

3.2.1 基于元学习数据集生成N-wayK-shot任务

将齿轮和滚动轴承的6种运行状态划分为不同形式的元训练集和元测试集，分别构成数据集A、B、C和D。并基于各数据集的元训练集和元测试集分别生成N-wayK-shot训练任务和测试任务，N为故障类别数，K为每种故障的样本数，N越大、K越小说明N-wayK-shot的测试难度越大，可通过不同测试难度来评估诊断模型的泛化能力。在此研究中，齿轮和滚动轴承分别有3种故障，N可以设置为1、2或3，但为了增加诊断难度和展示方法优越性，N设置为3。从每种故障中选择K个样本作为任务支持集、选取15个新样本作为查询集，其中K分别设置为1、3、5、7和10。因此，数据集A、B、C、D分别都包含3-way 1-shot、3-way 3-shot、3-way 5-shot、3-way 7-shot和3-way 10-shot任务。

数据集A的元训练集缺失了齿轮所有运行状态样本，数据集D的元训练集缺失了滚动轴承所有运行状态样本，都属于严重零样本问题；数据集B和C的元训练集和元测试集分别缺失了某一元件的某一种或多种运行状态样本，属于轻微零样本问题。传统零样本问题基于1个元件进行研究，而文中零样本问题基于2个元件进行研究，所以统称为跨元件零样本问题，文中研究的零样本问题更具难度。数据集如表2所示。

表2 数据集划分

在训练阶段，N-wayK-shot任务的更新步数和批尺寸分别为5和4，训练步数为500。内部和外部学习率分别为0.01和0.001。同时，在给出N-wayK-shot任务的N和K之后，使用该训练集生成2 000个N-wayK-shot训练任务。每个任务中的支持集用于训练网络，然后将查询集输入到训练后的网络用于测试。

在测试阶段，首先利用测试集生成20个测试任务，每个任务中的支持集用于微调网络，微调步数为10。然后，将查询集输入到微调后的网络，实现故障诊断。最后，将上述20个测试任务的平均精度作为测试精度。

3.2.2 基于所提方法解决跨元件零样本问题

利用所提MT-MNV3-ML方法对上述数据集A、B、C和D进行诊断分析，结果如表3所示。

表3 数据集A、B、C和D下3-way K-shot的故障诊断结果

由表3中数据集B和C的诊断结果可知：所提方法在解决轻微跨元件零样本问题时，在3-way 1-shot和3-way 10-shot任务下获得的最低诊断精度和最高诊断精度，分别为91.99%和100%。这表明该模型在解决轻微跨元件零样本问题时，展现了很强的泛化能力，实现了高精度的故障诊断。

由表3中数据集A和D的诊断结果可知：所提方法在解决严重跨元件零样本问题时，也在3-way 1-shot和3-way 10-shot任务下获得的最低诊断精度和最高诊断精度，分别为75.46%和96.46%。所提方法在解决某一元件缺失所有运行状态样本的严重零样本问题时，依然能够获取较高的诊断精度。因此，所提方法具有很强的泛化能力。

综上可知，所提方法MT-MNV3-ML方法在解决轻微和严重跨元件零样本问题时，都取得了较高的诊断精度，展现了很强的泛化能力。

3.2.3 所提MT-MNV3-ML的泛化能力分析

由表3的诊断结果可知，基于数据集C和A的诊断结果分别为最好和最差，而基于数据集D的诊断结果为中等。所以，基于数据集D的3-way 5-shot任务，设置不同的微调步数和测试任务数，进一步验证所提MT-MNV3-ML的泛化性能。分析结果如表4和表5所示。