两级混淆对抗域自适应网络轴承故障诊断

2022-02-03邬春明朱海潮郭晓利

北京交通大学学报 2022年5期

邬春明，朱海潮，马欣，郭晓利

（东北电力大学 a.现代电力系统仿真控制与绿色电能新技术教育部重点实验室，b.电气工程学院,吉林吉林 132012）

滚动轴承作为现代工业中广泛使用的关键基本机械部件，由于工作条件复杂多变，容易出现各种形式的缺陷，影响机械设备的效率，产生经济损失，甚至威胁人身安全.因此，轴承故障诊断在工业领域具有重要意义［1］.

传统的轴承故障诊断方法主要采用小波变换、傅里叶变换等信号处理方法手动提取特征，然后使用SVM、随机森林等机器学习方法进行故障识别，诊断结果依赖很强的专业背景和先验知识.深度学习的发展，使得神经网络能够自动提取特征，对专业知识依赖程度降低.在轴承故障诊断领域，包括自动编码器、递归神经网络及卷积神经网络（Convolution Neural Network，CNN）等在内的几种深层网络被广泛应用，并取得了瞩目的成果［2］.然而，目前大多数基于深度学习的故障诊断算法都有个前提，即训练和测试数据必须具有相同的概率分布，这要求设备必须恒工况运转，但在实际工业生产中，设备的运行工况复杂多变，很难保证这一前提，因此传统深度学习方法对变工况轴承故障诊断力有未逮.

为解决上述问题，无监督领域自适应［3］受到了广泛关注，其通过学习源域和目标域的域不变特征，使得目标域在无标签情况下，将从源域学到的分类器用到目标域，对目标域样本进行分类.在轴承故障诊断领域，现有的域自适应方法大致可分为两类.第一类是匹配统计矩的方法，通过使用不同分布测度的损失函数，来减少域间差异，主要包括最大均值差异（Maximum Mean Discrepancy，MMD）［4］，相关对齐（Correlation Alignment，CORAL）［5］等.例如，Lu 等［6］提出了一种领域自适应诊断方法，通过最小化最大均值差异来对齐两个域，并使用权重正则化项来增强域不变特征.An 等［7］提出了一个基于MMD 的多层多核变量的诊断网络，该方法用核函数法来代替高维特征的最大均值差异，使得来自不同域的特征在再生核希尔伯特空间中彼此接近，在保证诊断结果的稳定性同时提高了诊断精度.第二类是基于对抗学习的方法，它由特征生成器、类别分类器和领域鉴别器组成.特征生成器用来学习领域无关的特征，将两个领域的数据从原始的特征空间映射到一个共同的特征空间中.领域鉴别器用来判断输入的特征是来自哪个领域的，当鉴别器很难分辨时，说明特征提取器学到的特征具备了领域无关的特性.分类器负责将领域无关的特征映射到类别空间，完成分类任务.Wang 等［8］将领域对抗网络（Domain-Adversarial Training of Neural Networks，DANN）引入跨域故障诊断，证明了在实际故障诊断环境中的适用性.Guo 等［9］结合MMD 与对抗性学习，并提出了一种深度卷积迁移网络，用于轴承故障诊断.

尽管领域自适应方法在轴承故障诊断领域取得了一定的成就，但还存在一定局限性：域对抗算法仅仅只是全局对齐源域和目标域特征，没有考虑特定的类别信息，特征和类别的联合分布在数据域中没有很好地对齐.因此，即使特征生成器经过良好训练，能够学得源域和目标域样本的领域不变特征，但因为分类器是在源域样本上训练的，不能很好地推广到目标域样本上.为解决上述问题，本文作者提出了一种两级混淆域对抗域自适应网络（Confusion Adversarial Domain Adaptation Network，CADAN）来进行跨域故障诊断，通过对抗性训练，使特征和类别的联合分布在数据域之间保持一致.CADAN 的诊断模型由一个源域任务分类器、一个目标域任务分类器、一个附加在它们之上的辅助分类器和一个特征提取器四个部分组成.通过附加的辅助分类器进行领域鉴别，构建了类别级和领域级的两级混淆损失，从而增强面向类别级的领域不变特征学习.通过在两个轴承平台上进行了大量的故障诊断实验，对所提出的方法进行了评估，并与现有的诊断方法进行了比较.实验结果表明，在变工况故障诊断任务中，CADAN 的性能远远优于其他5 种方法.

1 无监督对抗领域自适应

1.1 问题定义

本文主要研究基于无监督域自适应的轴承故障诊断问题，其中标记数据只存在于源域，目标域中没有标记数据.假设源域为，其有ns个标签样本，目标域为，其有nt个无标签样本，这里x和y分别代表数据样本和所对应的标签.另外，对于源域和目标域，当数据来自不同的分布时，标签空间是相同的，假设类别数都为K.本文的目标是建立一个生成网络f=F(x)和分类器y=G(f)，提取领域不变性和类别区分性特征，以最小化目标域分类风险ε(f)=其中E表示数学期望.

1.2 对抗领域自适应

Ben［10］提出可以通过限制源域分类误差和减小源域与目标域分布之间的距离来降低目标域分类误差.而对抗学习能通过对抗训练，减小不同域分布之间距离［11］.在对抗域自适应方法中，对抗性损失函数有各种不同的可能选择，文献［12］中给出了一个总结，这里只介绍与所研究内容最相关的域混淆损失.

对抗域适应网络通常包含特征提取器F，标签分类器G和域鉴别器D.因为源域数据是带标签的，通过以下损失函数，最小化源域分类误差为

式中：Lcls是交叉熵损；I是指示函数.

源域和目标域分布不同，如果直接将上式训练的模型用在目标域，可能会导致在目标域中识别时性能降低.但可以直接训练一个域鉴别器D，在特征提取器提取到不同域样本的特征后，识别样本是来自源域还是目标域，训练损失函数如下

在给定D之后，通过施加域混淆损失，即计算域预测与域标签的均匀分布之间的交叉熵，训练特征提取器F以最大程度地“混淆”两个域

综上所述，基于混淆损失的领域对抗网络的优化目标如下

2 研究方法

2.1 网络结构

如图1 所示，CADAN 网络框架包括特征发生器F（红色）、源任务分类器Gs（黄色）、目标任务分类器Gt（绿色）、辅助分类器Gst（蓝色）以及相应的损失函数，具体训练目标损失函数见第2.2节.为了有效地提取特征，减少复杂的信号预处理算法设计，采用一维卷积网络作为特征提取器，直接对原始机械信号进行处理.网络的具体结构如表1 所示，16-11×1 表示当前卷积层有16 个11×1 大小的卷积核；Pad 为零填充运算；BN 为批量归一化；ReLU 表示所使用的激活函数.在CADAN 中，不同域中的类别数目相同，因此Gs和Gt最后一层全连接层神经元个数相同，假设其为K.给网络一个输入x，有as(x)=Gs(F(x))，at(x)=Gt(F(x))，其分别表示分类器Gs和Gt最后一层全连接层的输出 .ps(x)=softmax(as(x))，pt(x)=softmax(at(x))为经过softmax 操作后的输出.对于辅助分类器Gst，其设计思路如下，给定输入x，分类器Gs和Gt最后一层全连接层会输出向量as(x)∈RK和at(x)∈RK，将其拼接成向量[as(x)；at(x)]∈R2K，然后使用softmax 函数，得到概率向量pst(x)∈[0，1]2K，即Gst(F(x))=pst(x).为了方便后续损失函数书写，用(x)k∈{1，…，K}表示ps(x)的第k个元素，其中Gs(F(x))=ps(x)，同理有需要说明的是，在CADAN 设计中没有显式的域判别器.域判别和域混淆都是通过对分类器Gst施加适当的损失来实现的.

表1 CADAN 网络具体结构Tab.1 Structure of the proposed model

图1 CADAN 网络框架Fig.1 The architecture of CADAN

2.2 网络目标函数

2.2.1 分类器学习

本文采用带标签的源域样本上的标准交叉熵损失来训练分类器Gs，损失函数可以定义为

对于目标域分类器Gt，因为目标样本没有被标记，不能直接使用它们来训练.想法是利用带标签的源样本，并使用以下交叉熵损失进行训练

初看之下，似乎Gt和Gs都是用源域数据进行监督学习的，Gt的学习和Gs一样.然而，通过Gst进行域鉴别训练将会使它们区别开来.事实上，使用（6）可以在Gs和Gt之间建立神经元级的对应关系，这为实现第2.2.3 节中提出的类别级域混淆提供了基础.同时，使用式（6），通过带标签的源域样本训练Gt也为其能更准确的分类目标域样本奠定基础.

2.2.2 域鉴别器学习

Gs和Gt都使用带标签的源域样本进行训练，为了区分它们，利用辅助分类器Gst，并使用以下交叉熵损失来学习Gst

理想情况下，损失函数（5）、（6）和（7）的组合，不但使Gst前K个神经元和后K个神经元都具有很好的分类能力，而且还让两组神经元有区分性.例如，对于第K 类的源域样本xs，Gs和Gt都倾向于对其类别做出准确的预测，而对于Gst，由于使用损失函数（7）的概率将大于同理，对于第K类的目标域样本xt，Gs和Gt也都倾向于对其所属类别做出准确的预测，而对于的概率将大于.

2.2.3 两级域混淆损失

在CADAN 中，采用对抗训练的策略来学习特征提取器F，设计了域级混淆损失函数和类别级混淆损失函数，最大程度地“混淆”源域和目标域，使特征和类别的联合分布在两个域之间对齐.

因为两个域的全局混淆不需要标签信息，因此本文使用未标记的目标域样本来构建全局混淆损失.对于一个目标域样本，使用Gst中前K个和后K个神经元，让这两组神经元各自的预测结果之和与均匀分布[]之间的交叉熵作为损失，学习特征提取器F如下

在F上最小化式（9），使得其输出尽可能满足就能使得域鉴别器无法判别特征生成器生成的特征是源域样本特征还是目标域样本特征，从而实现两个域的全局对齐.

2.2.4 总目标函数

结合损失函数（5）、（6）和（7）来更新所有分类器，类别级混淆损失（8）和域级全局混淆损失（9）来更新特征生成器F，CADAN 网络的整体优化目标如下

这些损失很容易在标准的深度学习框架中实现，在适当地设置学习率以便等式（10）仅更新G的参数，等式（11）仅更新F的参数之后，可以通过标准反向传播来执行参数更新，总之，通过以上损失确保生成的特征在两个域的相应类别对齐.

3 实验结果分析

3.1 实验数据集

数据集一采用美国凯斯西储大学（CWRU）的轴承数据集［14］.数据是在1 797 r/min/0 hp、1 772 r/min/1 hp、1 750 r/min/2 hp 和1 730 r/min/3 hp 四种工况下采集的，四种工况（A0、A1、A2、A3）可以建立12个迁移场景（A0→A1、A0→A2、A0→A3，A1→A0，A1→A2、A1→A3，A2→A0，A2→A1、A2→A3，A3→A0、A3→A1、A3→A2）.本文使用的数据采样频率为12kHz.此数据中有4 种不同健康状况的轴承，包括正常状况（NC）、内圈故障（IF）、外圈故障（OF）和滚子故障（RF），每种故障类型有三种不同的严重程度，即7、14和21 mil（1 mil=0.177 8 mm）.因此，使用该数据可以形成10 个类别，即NC、IF-07、IF-14、IF-21、OF-07、OF-14、OF-21、RF-07、RF-14、RF-21.其中每个类别有500 个样本，每个样本由1024 个数据点组成，训练样本和测试样本划分比例为7∶3.

数据集二是帕德伯恩大学（PU）的轴承数据集［15］.本文选取了5 种故障模式用于测试和分析，故障模式包括正常（NC）、外圈临界损伤（OR-L）、外圈损伤（OR-H）、内圈临界损伤（IR-L）内圈损伤（IR-H）.另外，如表2 所示，该实验是在四种工况下进行的.可以形成12 个迁移诊断场景（B0→B1、B0→B2、B0→B3，B1→B0，B1→B2、B1→B3，B2→B0，B2→B1、B2→B3，B3→B0、B3→B1、B3→B2）.在测试中，每类的轴承故障在每种工况下有1500 个样本，每个样本由1024 个点组成，训练样本和测试样本划分比例为7∶3.

表2 PU 数据集不同工况信息Tab.2 The information of PU working conditions

3.2 实现细节与对比方法

为更全面的评价，选择了传统深度学习方法CNN 和4 种深度领域自适应网络MMD、CORAL、DANN、MCD［16］进行对比分析.本文方法CADAN和DANN 用Adam 算法训练，CNN、MMD、MCD、CORAL 使用随机梯度下降训练.所有方法训练迭代200 次，batch size 大小为64.

3.3 CWRU 数据集实验结果

表3 显示了12 组CWRU 轴承诊断任务的实验结果.在五种比较方法中，领域自适应的方法优于传统深度学习方法.DANN、CORAL 和MMD 只对齐全局分布，平均识别率分别为94.06%、95.95%和96.64%.MCD 不仅考虑了全局分布的对齐，还考虑了决策边界的模糊性，识别准确率为97.62%.CADAN 在全局对齐基础上进行了更细粒度的类别对齐，促使特征生成器学习到更多可迁移特征，使得平均准确率达到99.04%.此外，CORAL、DANN 在不同的任务中有很大的差异，特别是A0-A1、A0-A3任务的准确率明显低于其他任务.相比之下，CADAN 可以在各种迁移任务中获得比较鲁棒结果.总的来说，这些实验结果表明了本文所提出方法的有效性和优越性.

表3 CWRU 数据集测试准确率Tab.3 Accuracy on CWRU dataset %

更进一步，本文通过混淆矩阵来进行较为详细的各个类别的分类性能分析.随机选取任务A0-A3，计算出CADAN 和精度较高的4 种方法（MCD、CORAL、MMD、DANN）的混淆矩阵.结果如图2所示，从中可以看出，MMD、CORAL 和DANN 在RF-21 类中存在较大的分类错误，特别是DANN，其准确率仅仅为23%，错误地将RF-21 故障识别为RF-14 或者RF-7.此外，DANN 在IF-14 类中准确率为57%，将大多数IF-14 样本识别为OF-21 样本.与此相反，CADAN 对RF-21 和IF-4 故障样本的识别准确率达到100%.以上结果表明，与仅全局域对齐的方法相比，CADAN 进行更细粒度的类级对齐，可以更好地分类目标域中更难区分的类别，在复杂的诊断场景中具有更准确的诊断结果.

图2 CWRU 混淆矩阵Fig.2 Confusion matrix on CWRU

此外，本文绘制了6 种方法在任务A0-A3的测试误差曲线，如图3 所示，可以观察到6 种方法都表现出相对满意的收敛性能，但本文所提出的方法测试误差明显更低，曲线也更平滑.其他比较方法的测试误差曲线虽然呈现水平收敛趋势，但存在较大的波动和分类误差.该图清楚地表明，本文所提出方法在故障诊断中训练更稳定，结果更准确.

图3 CWRU 数据集测试误差曲线图Fig.3 Test error for all methods on CWRU

最后，为了进一步展示CADAN 的性能，利用t-SNE 技术对CADAN 和精度较高的四种方法特征生成器生成的特征进行可视化.在诊断任务A0-A3下的二维可视化结果如图4 所示，其中不同的颜色表示不同的类别.可以看出，CADAN 不仅能将两个领域的类别对齐，而且还能很好地区分开各种不同的故障模式.相反，其他比较方法中仅仅进行了全局对齐，源特征和目标特征在对应的类别上没有很好的对齐.可视化的特征图直观地证明了CADAN能够获得最佳的特征学习和分类能力.

图4 CWRU 特征可视化Fig.4 Visualization of learned features on CWRU

3.4 PU 数据集实验结果

PU 数据集分类结果如表4 所示.与未域适应的CNN 相比，CADAN 获得了大约27%的准确率提升.与DANN、CORAL、MMD 三种只对齐全局分布，未进行类别对齐的方法相比，CADAN 诊断精度分别提高约17%、6%、7%.与对齐了全局分布，并考虑到分类器边界模糊性的MCD 相比，CADAN 诊断精度提高了2.44%.以上所有的结果都证明了CADAN 在变工故障诊断中的有效性和优越性.

表4 PU 数据集的测试准确率Tab.4 Accuracy on PU dataset %

本文用用t-SNE 对任务B3-B0特征生成器输出的特征图进行可视化，从图5 可以清楚地观察到，对于本文所提出的方法来说，两个域在相应的类别上很好地对齐，因此CADAN 可以减少域之间的差异，学习更细粒度的域不变特征.相反，在其他的比较方法中，两个领域在相应类别上没有很好的对齐，并且在类别之间可以观察到很多混淆.总之，这些特征图直观体现了本文所提出方法的故障识别能力.