一种变工况下风电机组行星齿轮箱的故障诊断方法

2023-02-19李东东赵阳赵耀

电机与控制学报 2023年1期

李东东，赵阳，赵耀

(上海电力大学电气工程学院，上海 200090)

0 引言

行星齿轮箱具有结构紧凑、功率密度高和传动效率高等优点，是风电机组传动系统中的重要部件[1]。在实际运行过程中，在动态载重负荷和频繁变化的运行工况下，行星齿轮箱易发生故障并导致高额的维护成本[2]。因此，实现齿轮箱故障准确诊断对于提高风电机组的安全性和可靠性有重要意义[3-5]。

近年来，由于人工智能技术的发展，行星齿轮箱的智能诊断方法得到了广泛的研究[6]。其中，基于深度学习的故障诊断方法表现突出[7]。文献[8]构造了基于LeNet-5的卷积神经网络(convolutional neural network, CNN)，取得了较好的故障分类效果。文献[9]针对齿轮箱振动信号的多尺度特性，提出了一种多尺度卷积神经网络，成功提取出了不同尺度下的诊断信息。文献[10]使用CNN从振动信号的时域和频域两个维度提取特征，引入自注意机制实现特征的动态加权融合，使用分类器完成了故障识别。文献[11]设计了一种基于堆栈稀疏自编码器的深度学习模型，以齿轮箱振动信号的时频图像为输入，有效实现了状态分类。文献[12]提出了一种改进的Sigmoid单元，将其应用于深度置信网络，成功区分了行星齿轮箱的健康状态。文献[13]提出了一种自适应参数修正线性单元作为激活函数，将其插入深度残差网络(deep residual network,DRN)，提高了网络的特征学习能力。

然而深度学习的性能依赖于大量含标记的训练样本，而且要求训练样本与测试样本具有相同的特征分布，这在实际中需要花费大量的时间与经济成本[14-15]。

为解决故障诊断中含标签训练数据不足的问题，迁移学习能够从不同但相关的域学习知识并迁移到目标域，实现目标任务[16]。文献[17]使用源域样本预训练CNN，利用少量目标域含标记样本对网络进行微调，进而实现目标域故障诊断任务。文献[18]在CNN中引入对抗学习进行特征对齐，成功利用从源域样本提取出的特征实现对目标域样本的分类。文献[19]提出了一种基于特征的迁移学习网络，利用多层特征对齐和伪标签学习，实现将故障诊断知识从实验设备到真实设备的迁移。文献[20]通过最小化源域和目标域特征的最大均值差异(maximum mean discrepancy,MMD)与最大化域识别误差实现特征对齐，完成了同类不同设备间的诊断知识迁移。文献[21]通过构造多核MMD，在训练中使其最小化，实现诊断知识在不同转速样本域之间的迁移。文献[22]提出了一种对抗性域自适应网络，将故障分类器与域分类器统一并在对抗性训练中添加CORAL损失，结合非平衡对抗策略实现了不同负载、不同转速下的行星齿轮箱迁移故障诊断。

上述方法可以有效地利用源域知识实现目标域的故障诊断任务。然而，这些方法训练后的模型只能处理单一目标域的诊断任务且训练阶段仍需要该目标域的数据。在实际应用中，行星齿轮箱的转速是不断变化的，而转速的变化会直接导致样本分布的变化。一个有效的诊断模型必须能够识别各种转速下设备的健康状态，但是全面收集到各种转速甚至变转速情况下的含标签样本是不可能的。因此，需要一种可以将采集到的含标签样本中的诊断知识泛化到未知转速样本的诊断模型。

为了建立一种能应用于变转速下的行星齿轮箱故障诊断模型，本文设计了深度残差半监督域泛化网络(deep residual semi-supervised domain generalization network,DRSDGN)。该网络以域泛化理论为基础，在训练过程中引入对抗博弈机制和基于伪标签的半监督学习方法。首先，基于行星齿轮箱振动信号，利用Fast Kurtogram构造图像样本集；其次，以Wasserstein生成对抗网络(Wasserstein generative adversarial network,WGAN)为理论框架，构造基于DRN的生成器G用于特征提取，同时搭建利用特征诊断故障的分类器C和辅助实现特征对齐的判别器D。为充分利用可以收集到的源域样本，以含标签源域和无标签源域为输入，利用半监督学习和域对抗学习同时优化网络。最后，搭建了由生成器G和分类器C组成的诊断模型，实现对未知转速样本的故障识别。

1 理论基础

1.1 域泛化理论

在变工况的场景下，转速的变化会导致样本分布的变化，为使所设计的故障诊断模型可以应用于各种转速下的行星齿轮箱，提高诊断模型对工况变化的泛化能力，本文在训练中引入域泛化理论，该理论可以将采集到的含标签样本中的诊断知识泛化到未知转速样本的故障诊断中。

域适应作为迁移学习的分支，应用于源域和目标域数据分布不同但目标任务相同的场景[20]。作为域适应的延伸，域泛化理论的目标是从多个源域中学习域不变知识，并将其泛化到未知属性的目标域任务中。

假设域D={χ,P(X)}由特征空间χ和边缘概率分布P(X)定义，则X={x1,…,xn}∈χ。对于一个给定的域，目标任务T={Y,f(x)}由标签空间Y和预测函数f(·)定义，其中函数f(·)用于预测xi∈χ的真实标签yi∈Y。根据迁移学习的定义，域泛化理论定义如下[23]：已知存在目标任务为TS的多个源域ΔS={DS1,DS2,…,DSm}和目标任务为TT的未知属性目标域DT，域泛化的目标是将源域的预测函数fS(·)推广到目标域的目标任务TT上，其中DT≠DSi(i=1,2,…,m)，TT=TS。

1.2 深度残差网络

为了实现目标域样本的状态识别，需要引入一种深度学习方法来提取原始信号的故障特征。常用于深层特征提取的深度学习方法有卷积神经网络、深度置信网络和堆栈自编码器等。为了充分学习源域和目标域的深层诊断知识，从而更好地实现样本的状态识别，本文引入深度残差网络，该网络相较于卷积神经网络具有更深的网络结构，提取出的特征更加丰富，且可以实现更深层次的特征提取。

DRN使用堆叠网络拟合残差的方式来解决传统CNN精度退化和梯度消失的问题，常用于图像深层特征的提取[14]。如图1所示，DRN由一系列残差单元(residual building units,BRUs)、批归一化层(batch normalization,BN)、ReLU激活函数、全连接层组成(fully-connected layer,FC)。

DRN的训练过程和传统CNN类似，都使用交叉熵损失函数。首先，在FC中使用softmax函数将特征转换到(0,1)区间内，具体表达式：

(1)

式中：xj和yj为第j个神经元的输入和输出；nc为类别数；yj即为样本为第j类的预测概率，可计算衡量真实标签l和输出y之间差异的交叉熵损失：

(2)

式中：lj为样本为第j类的真实概率。

图1 RBU和DRN结构Fig.1 Structures of RBU and DRN

1.3 Wasserstein生成对抗网络

在域泛化理论的应用中，为了实现目标域样本的状态识别，需要使提取出的诊断知识具有域不变特性，因此需要在训练中引入对抗博弈机制，使网络提取出的特征对健康状态分类敏感，但对领域分类不敏感。因此在本文中，引入了Wasserstein生成对抗网络作为所提出诊断方法的对抗博弈框架，借助WGAN的极大极小博弈，旨在充分实现域不变特征的提取，从而在分类器中实现跨领域状态识别。

生成对抗网络(generative adversarial network,GAN)由两个深度神经网络构成：生成器G和判别器D。生成器通过输入的随机噪声z生成伪样本，判别器通过概率计算鉴别样本真伪，对抗性训练过程可以表示为两者的极大极小博弈，其函数值为V(D,G)为

Ez～Pz(z)[log(1-D(G(x)))]。

(3)

式中：Pdata(x)为真实数据x的概率分布；Pz(z)为噪声变量z的概率分布。

传统GAN利用JS散度来判别生成数据与实际数据的分布情况，训练过程中会出现梯度消失、模式坍塌等问题，可以使用Wasserstein-1距离代替JS散度，提高网络训练的稳定性。Wasserstein-1距离定义为

W(pa,pb)=infζ∈(pa,pb)E(x,y)～ζ[‖x-y‖]。

(4)

由于直接根据式(4)计算任意分布之间的Wasserstein-1距离较困难，因此在计算中引入Kantorovich-Rubinstein的对偶表达式：

W(pa,pb)=sup‖f‖≤1Ex～pa[f(x)]-Ex～pb[f(x)]。

(5)

式中：f为1-Lipschitz函数。

因此可以得到WGAN的目标函数：

Ex～pb[D(G(x))]。

(6)

为使其满足1-Lipschitz条件限制，防止出现梯度爆炸问题，在判别器的损失函数中加入梯度惩罚项。因此，得到WGAN生成器G和判别器D的损失函数如下：

LG-WGAN(z;θG)=-Ez～Pz(z)[D(G(z))]；

(7)

LD-WGAN(s;θD)=-Ex～pdata[D(x)]+

Ez～pz(z)[D(G(z))]+

(8)

1.4 伪标签

在实际诊断中，常常因为样本采集困难、故障种类不明等问题导致含标签样本不足。为充分利用可以采集到的含标签样本和无标签样本，本文在训练中引入基于伪标签的半监督学习方法，以含标签源域和无标签源域为输入，利用半监督学习指导样本特征的提取。

(9)

式中：fk′(x)为输出向量f(x)∈R1×nc第k′个元素。

2 基于DRSDGN的故障诊断方法

为实现风电机组行星齿轮箱变速运行条件下的故障诊断，本文首先将行星齿轮箱的振动信号转化为Fast Kurtogram图像，并构造样本图集，随后以WGAN的框架为基础构造了DRSDGN。为贴近实际情况下的齿轮箱故障诊断，DRSDGN在训练中仅使用一个含标记的源域和一个无标记的源域，不需要目标域的样本。

网络框架如图2所示，该框架主要基于上文介绍的Wasserstein生成对抗网络。网络中，生成器G以深度残差网络为基础，旨在从原始样本中充分提取深层故障特征，而分类器C使用提取的特征进行健康状态识别。为了充分利用可获取到的源域样本，并使所提取的特征需要对健康状态分类敏感，但对领域分类不敏感，网络学习过程可以分为基于伪标签的半监督学习和基于Wasserstein生成对抗网络的域对抗学习。通过半监督学习指导生成器G提取域判别特征，再利用这些特征对目标域样本的健康状态进行诊断。域对抗学习用于指导生成器G提取域不变特征，而判别器D的训练旨在更好地估计从不同领域提取出的特征之间的Wasserstein-1距离。最终，由训练完成的G和C组成的诊断模型用于实现对转速未知的目标域样本的故障诊断。

图2 DRSDGN模型结构Fig.2 Structure diagram of DRSDGN

2.1 样本预处理

时频分析有助于揭示振动信号包含在时域和频域的特征。传统的时频变换方法中，EMD存在模态混叠问题，WT的母小波函数选择困难，而STFT模型中时间和频率的分辨率存在矛盾。而Kurtogram不但可以显示信号中含有的有效故障特征成分，并且可以定位这些故障特征成分在整个频域中的位置。

为提高方法的通用性，使其对非平稳信号更加敏感，Antoni[26]在Kurtogram中加入了四个约束，进而生成Fast Kurtogram。Kurtogram定义为

(10)

式中：<.>为时域平均运算；H(t,f)为信号x(t)的包络过程。H(t,f)估计如下：

(11)

式中：ω(t)为窗口长度。

2.2 半监督学习

半监督学习旨在充分利用可获取的样本，训练样本为含标记源域和无标记源域，训练对象为生成器G和分类器C。在利用伪标签的半监督学习中，损失函数包括两部分：有监督分类损失LC和伪标签迭代损失LPL。损失函数如下：

LSemi=LC+η(i)LPL，i=1,2,…,m。

(12)

式中：η(i)为伪标签系数函数，其随着迭代次数i改变而改变；m为最大迭代次数。由式(2)，LC和LPL可以表示为

LC=E[-ylslog((C(G(xls)))T)]；

(13)

(14)

(15)

(16)

在早期迭代中，因为分类器不能提供足够准确的标记，η(i)需要保持在一个很小的值η0，然后随着迭代进行，系数线性增长到ηf并一直保持到训练结束，具体表达式如下：

(17)

式中：I1和I2为迭代阈值；η0和ηf分别为初始系数和最终系数。

2.3 域对抗学习

在传统WGAN中，判别器用于估计真实样本概率分布和生成样本概率分布之间的Wasserstein-1距离，通过对抗训练，使G可以生成使Wasserstein-1距离最小化的样本。基于上述思想，在DRSDGN中，训练判别器D估计分别从含标记源域样本和无标记源域样本提取出的特征之间的Wasserstein-1距离，同时训练生成器G提取域不变特征以使其最小化。Wasserstein-1距离是一种有效的估计分布差异的度量方法，因此域对抗训练后提取出的特征对域分类不敏感。对抗学习过程中G和D的损失函数如下：

LA-G=-Ladv=

E[D(G(xls))]-E[D(G(xus))]；

(18)

LA-D=Ladv+λLGP=

-E[D(G(xls))]+E[D(G(xus))]+

λE[(‖▽D(μG(xls)+

(1-μ)G(xus))‖-1)2]。

(19)

式中：μ～U[0,1]。

2.4 基于DRSDGN的故障诊断流程

在DRSDGN中，分类器C和判别器D分别使用半监督学习和域对抗学习进行训练，而生成器G使用两者进行训练，二者同时进行，生成器、分类器和判别器的损失函数如下：

LG=LA-G+LSemi；

(20)

LC=LSemi；

(21)

LD=LA-D。

(22)

基于DRSDGN的故障诊断流程如图3所示，主要步骤如下：

1)利用振动加速度传感器采集振动信号，域划分并将各个域分别转化为Fast Kurtogram图集，得到含标记源域Ωls、无标记源域Ωus和目标域Ωt，并确定G、C和D的结构，设置训练中需要的超参数，包括梯度惩罚系数λ，伪标签系数函数η(i)，批大小NB，批数量nbatch，每次G迭代时D的迭代次数ncritic，G、D、C的的优化算法，训练的最大迭代次数nepochs。

2)使用Ωls预训练G和C，初始化D的参数。

3)在Ωls中划分含标记批次Bls，在Ωus中划分无标记批次Bus。

4)从Bls和Bus中随机取样训练D。

5)重复步骤4)至最大迭代次数，计算Bus的伪标签并训练G和C。

6)重复步骤3)～5)至遍历Ωls和Ωus。

7)重复步骤6)至设定的最大epochs。

8)使用训练后的G和C搭建最终故障诊断模型，使用Ωt对模型进行评估。

图3 基于DRSDGN的故障诊断流程Fig.3 DRSDGN based fault diagnosis process

3 实验分析

3.1 实验介绍

风电机组行星齿轮箱故障模拟平台如图4所示，该平台包含6个设备：动力3匹的电动机、转速控制器、连轴罩、行星齿轮箱、平行齿轮箱和磁粉制动负载。图5(a)所示为实验使用的行星轮，实验包括正常(normal condition,NC)、点蚀(chipped tooth fault,CTF)、磨损(surface wear fault,SWF)和断齿(miss tooth fault,MTF)四种状态，为获取故障数据，选取行星齿轮箱中的某一行星轮，将其替换为故障行星轮，使用加速度传感器采集箱体振动信号，传感器安装如图5(b)所示。

图4 风电机组故障诊断实验台Fig.4 Wind turbine fault diagnosis test bench

图5 故障设置与信号采集Fig.5 Fault setting and signal collection

1)定速实验。

设定电机转速恒定为900、1 200、1 500、1 800 r/min，传感器采样率设置为12 k，分别采集四种工况下不同健康状态行星齿轮箱的振动信号。1 800 r/min工况下1 s内的振动波形如图6(a)所示。

图6 行星齿轮箱振动信号Fig.6 Vibration signals of planetary gearbox

2)变速实验。

改变负载大小，调节电动机的转速从900 r/min开始增加至1 500 r/min，持续时间为100 s，转速变化如图7所示，变速工况下1 s内的振动波形如图6(b)所示。

图7 行星齿轮箱转速变化曲线Fig.7 Speed curve of planetary gearbox

为尽可能保证每个样本都含有丰富的故障特征，在每组振动信号中截取100 s，生成100个样本数据，即每个样本包含1 s的特征信息，12 000个数据点。采用Fast Kurtogram分析将时域振动样本转换为时频图像，每种转速下得到400个图像样本，共得到定速样本1 600个，变速样本400个，变速工况下的示例图像如图8所示。

3.2 DRSDGN网络设计

网络结构如图2所示，生成器G为一个包含9个残差单元的DRN，共包含19个卷积层和1个全连接层，网络输入维度为64×64×3，为提高计算效率并且可以提取出局部特征，卷积核尺寸设定为3×3×Nw，Nw为输入的通道数。图2中的DRN结构中，“/2”表示卷积层步长为2，为降低特征映射的维度，在网络中选取3个卷积层设定步长为2，m代表第一层卷积核数量，为使深层特征可以多次出现，随着网络的加深卷积核增加至2m和4m。

其余网络结构见表1。C和D以G的输出作为输入，训练过程中的超参数见表2，G、D、C的训练都使用Adam优化算法，初始学习率设置为0.001。

表1 网络结构Table 1 Network structure

表2 DRSDGN超参数Table 2 Hyperparameter of DRSDGN

图8 振动信号的Kurtogram图像Fig.8 Kurtogram images of vibration signals

3.3 对比实验

对上文中获取的图像样本，定义同一转速下的样本集为一个域，共计5个域。为验证提出方法的有效性，如表3所示，本文设计了12组行星齿轮箱域泛化诊断实验，在每组实验中，使用一个含标签源域(LS)和一个无标签源域(US)训练网络，使用多个目标域(T1,T2,T3)对诊断模型进行评估。

在不同的m取值下，分别进行12组实验，使用T3变速样本评估训练后故障诊断模型结果如图9所示，可知当log2(m)值为5时，模型对变速样本识别的准确率较高，因此在下文的对比实验中，m取值为32。

图9 不同m取值下识别准确率Fig.9 Accuracy under different values of m

使用深度学习网络CNN[8]、迁移学习网络DDC[26]和域适应网络DACNN[18]作为对比，其中为了同时利用LS和US，在CNN中添加与DRSDGN相同的伪标签迭代。为减少随机性的影响，将每组实验重复10次，单个目标域的平均准确率曲线和总体准确率曲线如图10所示，准确率定义为正确分类的测试样本占样本总数的百分比。可见DRSDGN的折线更高且平滑，说明方法相较于现有的研究具有更高的准确率和鲁棒性。

具体总体平均准确率、标准差以及平均训练、测试时间见表4、表5。可以看出，传统CNN的整体准确度最差且不稳定，因为CNN可提取出的域不变特征有限，说明没有迁移学习策略的深度学习方法在实际故障诊断中的应用有很大局限性。而引入了MMD距离后的迁移学习方法DDC表现较好，可以实现80%以上的诊断准确率。引入了域适应方法的DACNN性能在大部分实验中高于DDC，部分实验可以达到95%的诊断准确率，但相较于DRSDGN不稳定，鲁棒性较差。

表4 实验结果(准确率±标准差)Table 4 Experiment results %

表5 实验结果(时间)Table 5 Experiment results s

图10 目标域测试结果Fig.10 Testing results of target domain

除准确率指标外，本文引入受试者工作特征曲线(receiver operating characteristic,ROC)，利用该曲线对最终诊断模型的分类性能进行评估，根据真实类别和预测类别的组合，测试样本可以划分为真阳性(true positive,TP)、假阳性(false positive,FP)、真阴性(true negative,TN)和假阴性(false negative,FN)，则真正类率(true positive rate,TPR)和负正类率(false positive rate,FPR)计算如下：

(23)

(24)

式中：PTP、PFP、PTN、PFN分别为真阳性、假阳性、真阴性、假阴性样本在总样本中的占比；RTRP和RFPR分别为真正类率和负正类率。

由表4、表5可知，DRSDGN在第1组实验中平均准确率最高，在第12组实验中平均准确率最低，为充分验证网络性能，绘制上述两组实验对T3分类的ROC曲线并计算曲线面积(area under curve,AUC)如图11、图12所示。可见在上述两组实验中，DRSDGN训练后的分类器对各类健康状态分类的AUC值均在0.98以上，且均显著高于其他算法，说明本文设计的网络能够训练出对各种健康状态进行分类的诊断模型，进而实现对变速行星齿轮箱健康状态的识别。

表4、表5给出了各个网络的平局训练结查和时间，可以看出，DRSDGN的训练需要花费最多的时间。主要原因有两点：

1)为充分提取深层特征，生成器使用的DRN层数较多，大大增加了可训练的权值与偏置数量，增加了训练成本。

2)生成器G用于提取故障特征，判别器D用于估计不同域之间的Wasserstein-1距离，而为了更好地估计分布差异从而帮助生成器G提取出域不变特征，每次生成器迭代中，判别器需要迭代ncritic次，因此判别器总迭代次数远远大于nepochs，同样增加了训练成本。

相较于训练时间与其他方法的较大差距，本文方法所需的测试时间增加在0.4 s以内，因此训练后的诊断模型在实际应用中不会造成额外的计算负担。在实际应用中，风电机组的工作场景相较于实验模拟设备更为复杂，可能遇到的工况更为多变，故障种类更多，因此需要构造更为完善的历史数据库来对智能诊断模型进行训练，但整体故障诊断流程不变。

图11 第1组实验ROC曲线Fig.11 ROC curve of the first group

图12 第12组实验ROC曲线Fig.12 ROC curve of the 12th group

3.4 可视化分析

为进一步验证所设计网络的可行性，选取接近平均准确率95.24%的第8组实验进行可视化分析，使用训练后的诊断模型对目标域样本状态分类，分类结果混淆矩阵如图13所示。可以看出，模型对目标域各个转速下磨损与断齿故障的区分度低于正常与点蚀故障，对变速样本的识别率低于定速样本，但总体识别率在95%以上，可以满足实际应用中对未知转速样本的故障诊断要求。

图13 故障诊断混淆矩阵Fig.13 Fault diagnosis confusion matrix

此外，采用t-分布邻域嵌入(t-distribution stochastic neighbor embedding,t-SNE)算法对生成器G中全连接层的特征进行降维可视化如图14所示。可见最终诊断模型从源域样本和目标域样本提取出的特征表现出类间可分性和类内聚集性，除个别样本存在混叠外，其他样本均可得到准确的区分。试验结果表明，基于伪标签的半监督学习可以提高源域样本的利用率，实现对LS和US中各个状态的准确分类，此外判别器可以帮助生成器提取到域不变特征，实现对目标域样本的聚类。

图14 各域特征散点图Fig.14 Scatter plot of each domain features

4 结论

为了解决大多数现有的深度迁移学习方法只能在目标转速下工作，而且在模型的训练中总是需要目标域样本的问题，针对风电机组行星齿轮箱在变速工况下的故障诊断设计了DRSDGN。其中，生成器用于故障特征提取，判别器用于辅助实现特征对齐，分类器用于故障识别。在训练过程中引入对抗博弈机制和基于伪标签的半监督学习方法，将最终诊断模型应用于变转速的目标域样本，主要结论如下：

1)从最终诊断识别的准确率和特征可视化两个角度证明，相较于一维信号波形，利用Fastkurtogram生成的图像样本包含更多的故障信息，且DRN可以从图像中提取出用于分类的深层特征信息，判别器成功辅助生成器提取出判别特征和域不变特征，并将其用于分类器的状态识别。

2)以训练后的生成器和分类器构造最终诊断模型，该模型对目标域的平均识别率达到95.24%，对目标域定速样本的识别效果优于变速样本，但均达到实际应用需求。由ROC曲线评价模型分类性能，最终诊断模型中分类的AUC值明显高于传统深度学习或迁移学习网络。

3)在网络训练过程中，提出基于半监督学习和域对抗学习共同优化网络的方法。半监督学习用于充分利用可获取到的源域样本，域对抗学习用于实现对未知工况样本的状态分类。相较于经典深度迁移学习网络提高了对源域样本的利用率，降低了对目标域样本的需求，使得所设计的网络有更高的实际应用价值。实验结果表明，所设计的网络可以实现变工况下风电机组行星齿轮箱的故障诊断。