基于隶属度和LMK-ELM的航空电子部件诊断方法
2019-12-27朱敏许爱强李睿峰戴金玲
朱敏,许爱强,李睿峰,戴金玲
海军航空大学,烟台 264001
模块级故障诊断属于航空装备三级维修体系中的中继级维修范畴,是提升航空保障能力的关键环节。航空电子设备各模块间交联关系复杂[1-3],难以对各故障建立严格的数学模型,这对故障诊断带来了极大的挑战[4-5]。
基于数据驱动的方法为解决上述问题提供了良好的思路。其中,深度学习与基于核方法的学习算法在航空电子部件的故障诊断中得到了最广泛的关注。前者主要适用于故障样本充足、计算资源丰富的情况,因此应用范围较为狭小,在电路元件级诊断中较为常见,文献[6-7]用深度置信网络(DBN)自动提取模拟电路的抽象故障特征,极大地提高了诊断正确率;考虑到神经网络训练时间长以及固有的人为经验依赖性,文献[8]结合数据压缩和自编码技术,提出了一种基于改进人工神经网络的航天器电信号分类方法。后者在小样本条件下尤为适用[9],在文献[10-11]中,支持向量机(SVM)与核极限学习机(KELM)分别被运用于电子系统的故障诊断,展现了较强的统计学习能力。此外,从诊断方法的角度看,为使航空电子设备的诊断结论更加可靠,将多个分类器的结果进行信息融合是另一个重要的研究方向[12];从诊断对象的角度看,作为航空电子设备在服役中后期的主要故障类型,间歇故障的诊断正受到越来越多的关注,将成为复杂电子设备故障诊断的新方向[13];从诊断的基础看,当前航空电子设备很少考虑故障诊断的测试需求,直接导致特征参数获取困难,因此,测试性设计技术也依然是研究的重点[14]。
实际应用中,航空电子部件的样本规模一般很小[11],因此,基于核方法的学习算法更有前景。在该类方法中,核函数及其参数的选取将严重制约方法的性能[15-16]。大量研究表明,多核学习(Multiple Kernel Learning, MKL)可增强决策函数的可解释性,且比单核模型具备更优的性能[17-18]。文献[19-20]分别在模拟电路、局域网的故障诊断中尝试运用MKL,在多种复杂故障情形下验证了MKL对提升诊断精度的有效性。文献[21]提出了一种更有效的MKL方法,称作SimpleMKL,通过简单的子梯度下降方法求解MKL问题,提高了MKL的实用性。但在MKL的框架里,基核权重被不加判别地应用于整个输入空间,忽视了基核在不同样本上可用性的差异。针对该问题,局部算法被引入到MKL中,称之为局部多核学习(Localized MKL,LMKL)。
近年来,国内外学者对LMKL进行了广泛的研究,大致可分为两类。一类为每一个样本学习一组独立的基核权重,称之为面向样本的LMKL(Sample-based Localized MKL,S-LMKL)模型[22-23]。针对S-LMKL中局部权重的优化形式二次非凸的问题,文献[24]中Gönen和Alpaydin通过一系列参数化的门模型(Gating Model)去局部地拟合核参数;文献[25]则着重研究了SVM分类框架下,对基核权重施加不同的范数约束对LMKL的影响。另一类是由Yang等[26]最初提出的基于分组的LMKL(Group-based Localized MKL,G-LMKL)模型,该方法首先根据样本相似性进行聚类,再为每个聚类学习一组基核权重,继承了S-LMKL的局部特征自适应表达能力,还有效约减了计算量,避免了过拟合。基于文献[26]的思想,文献[27]将聚类过程嵌入LMKL的训练中,提出了基于动态聚类的G-LMKL模型;文献[11]则引入近邻传播聚类来挖掘局部特征信息,由于事先不需指定聚类数目,使得G-LMKL对于不同规模的样本均具有较好的实用性。
G-LMKL克服了S-LMKL面临的主要风险,并且可以通过控制聚类数量来控制计算复杂性,更具灵活性。然而,G-LMKL中简单的“硬聚类”并不足以有效描述样本间的多样性,在同一聚类的内部基核的可用性显然也存在差异。出于这样的考虑,针对航空电子设备故障样本的采集困难性、分布复杂性以及本身固有的不确定性,提出一种小样本条件下融合隶属度信息的局部多核超限学习机模型(Fuzzy Clustering Localized Multi-Kernel Extreme Learning Machine,FC-LMKELM),其主要贡献在于:
1) 不同于现有的基于SVM的G-LMKL,受2015年提出的多核超限学习机(MK-ELM)[28]和文献[11]启发,本文将G-LMKL与ELM结合,从理论上给出了G-LMK-ELM的形式化表达。
2) 不同于已有的基于“硬聚类”的G-LMKL,基于模糊C均值聚类结果,本文的核权重将由样本落入各聚类的概率以及为每个聚类分配的核权重共同决定。在继承一般G-LMKL算法局部特征自适应能力和计算复杂性约减能力的同时,还进一步挖掘类内多样性,有利于提高诊断精度。
3) 针对局部权重优化形式的二次非凸问题,通过剖析G-LMK-ELM的初始优化问题及其对偶优化问题之间的关系,搭建了面向初始-对偶混合优化问题的参数三阶段交替更新策略。
1 问题描述
(1)
式中:βq∈R|φq(·)|×m为基于第q个基核的输出权重;|φq(·)|为第q个基核诱导的特征空间维数,m为类别数量;yi=[yi1,yi2,…,yim]T和ξi=[ξi1,ξi2,…,ξim]T分别为与xi对应的理想输出向量和误差向量;C为正则化因子。
在该问题的Lagrange函数中分别对βq和ξi求偏导,并令结果等于0,可以进一步获得其对偶优化形式,即
(2)
式中:αi为Lagrange乘子,对应于ELM的模型参数,并且有αi=[αi1,αi2,…,αim]T,α=[α1,α2,…,αn]T。
求解上述对偶优化问题,得到以下决策函数
(3)
2 基于隶属度的G-LMK-ELM诊断模型
2.1 基于模糊C均值聚类的样本空间划分
本节运用模糊C均值聚类方法(FCM)[29]对数据集进行模糊划分,进而达到挖掘样本局部分布特征的目的。不同于硬聚类方法,模糊C均值聚类可以获取每个故障样本对于各个聚类的隶属度,将该隶属度信息作为先验知识融入G-LMK-ELM的局部核权重的优化中,有利于增强诊断模型的解释性,提高其诊断精度。
在FCM中,对样本的模糊划分可以表示成一个隶属度矩阵U=[uij](1≤i≤n,1≤j≤C),且U满足:
(4)
式中:μij为第i个数据关于第j个聚类的隶属度,uij越大,则第i个数据落入第j个聚类的概率越大。FCM算法的具体实施流程描述如下:
步骤2更新聚类中心
步骤3更新隶属度矩阵
2.2 基于隶属度的FC-LMKELM诊断模型优化
(5)
(6)
式(5)和式(6)对应的基于隶属度信息的FC-LMKL-ELM优化问题可以等效为式(7)所示的初始-对偶混合优化问题
(7)
证明:
步骤1由表达式(5)到表达式(7)
初始优化问题(5)对应的Lagrange函数为
在Lagrange函数中对ξi求偏导,并令结果等于0,有
将该结果代入Lagrange函数中,得到式(7)。
步骤2由表达式(7)到表达式(6)
将表达式(7)重新写为
(8)
(9)
将式(9)代入式(7)中,整理后可式(6)。
证毕。
2.3 FC-LMKELM的模型优化
为了求解融合隶属度的FC-LMKELM模型,针对式(7)定义的优化问题,提出一种3阶段的参数交替优化策略。
1) 固定γ,优化α
(10)
图1 增广矩阵K′
Fig.1 Augmentation matrixK′
对式(10)的α′求偏导,并令结果等于0,可得
α′=(K′+I″/C)-1y′
(11)
2) 给定α、γ,计算βq和fq(xi)
(12)
不妨用fq(·)表示第q个基核导出的子分类器的输出函数,则样本xi基于fq(·)的输出向量为
(13)
3) 固定α、fq(xi),更新γ
(14)
种不同的局部权重更新方式。
1)l1-范数约束
基于直流线路参数的50Hz谐波放大评估方法//李晓华,吴立珠,丁晓兵,张冬怡,吴嘉琪,蔡泽祥//(6):146
2)lp-范数约束
式(14)在lp-范数约束下的Lagrange函数表示为
(15)
(16)
联合lp-范数约束条件和式(16),可得
(17)
特别地,当p=2时,有
(18)
2.4 诊断决策
(19)
决策模型的图形解释如图2所示。
在融合隶属度的FC-LMKELM模型中,不妨设测试样本的模型输出f(z)={f(1)(z),f(2)(z),…,f(m)(z)},其中,f(l)(z)对应于第l个节点的输出值,则z的故障模式判定为
(20)
融合隶属度的FC-MKELM模型整体框架总结如图3所示。
图2 FC-LMKELM的决策模型
Fig.2 Decision-making model of FC-LMKELM
图3 FC-MKELM模型的流程图
Fig.3 Flowchart of FC-MKELM model
3 方法流程
为方便表示,不妨将采用l1-范数和l2-范数约束时的FC-LMKELM分别记为l1-FC-LMKELM和l2-FC-LMKELM。根据图4将所提方法的实施流程总结如下:
步骤4通过式(13)计算fq(xi)。
4 实验分析
所有算法均在MATLAB 2018a上运行,实验电脑配置为:Windows 7操作系统,Inter Core i7-4770 CPU,3.4 GHz主频和8 GB RAM。
4.1 方法有效性验证
本节通过人造数据集Gauss4证明FC-LMKELM的有效性。由于Gauss4具有明显的类内局部结构,因此常用其进行局部算法的性能验证[11,24]。该数据集包含2种类别,每个类别服从2个不同的高斯分布,每个分布产生300个样本,共1 200个样本。与文献[11,24]一致,每种分布的先验概率、均值、协方差为
ρ11=0.25,ρ12=0.25,ρ21=0.25,ρ22=0.25
实验共进行20次,每次随机选择600个样本用于训练,400个样本用于测试,设置所提方法的聚类数量为4。将所提方法与SimpleMKL[21]、M1-LCMKELM[11]、M2-LCMKELM[11]、S-LMKL-softmax[24]、S-LMKL-sigmoid[24]比较。参考文献[11,24]中的配置,上述所有方法均以线性核、参数是2的多项式核、参数是1的高斯核作为基核;F1分数是统计学中衡量二分类模型精确度的重要指标[30],本节将之与分类准确率以及文献[31]中的G-mean作为评价分类性能的3大指标,其值以“均值±标准差”的形式记录于表1中。
由表1可知,与其他方法相比,在l1-范数和l2-范数约束下,FC-LMKELM可以实现最优的分类性能。其原因在于:
表1 实验1中各指标值Table 1 Index values in experiment 1
1) SimpleMKL没有考虑样本的局部特征信息,因此在所有方法中,其分类性能最差。
2) 与2种常见的S-LMKL方法相比,LCMKELM和FC-LMKELM将基核权重拟合到样本所属聚类而非每个样本上,一定程度上抑制了过学习问题,分类精度得以提升;与2种基于硬聚类的LCMKELM方法相比,隶属度信息的融入使FC-LMKELM得以有效描述聚类内部样本间的多样性,因此,即便与诊断性能更佳的M2-LCMKELM相比,在不同范数约束下,诊断精度也分别提升了0.35%和1.10%。
为更直观地展现FC-LMKELM相较于其他方法的优势,选取l2-FC-LMKELM、SimpleMKL、S-LMKL-softmax与M1-LCMKELM的受试者工作特征曲线(ROC)绘制于图4中。由图4可知,l2-FC-LMKELM的曲线下方面积(AUC)依次大于M1-LCMKELM、S-LMKL-softmax和SimpleMKL,这进一步验证了所提方法的性能。
图4 4种方法的ROC曲线
Fig.4 ROC curves of 4 methods
为说明聚类数量对算法精度的影响,随机选择600个样本用于训练,400个样本用于测试,设置不同的聚类数量后,其测试结果如表2所示。
表2 不同聚类数目时的分类准确率
由表2可知:当聚类数量为1时,诊断精度处于较低水平;随着聚类数量增加,模型诊断精度出现不同程度的提高,但最佳的聚类数量与输入空间的局部结构有关,并无明确的规律可循,当聚类数量取值不当时,测试精度甚至会出现下降;当聚类数量增加到训练样本数量时,本文方法演变为S-LMKL-ELM,泛化性能有所降低。
4.2 某型机前端接收机故障诊断实例
某型机前端接收机组成如图5所示,本节以其为例,验证FC-LMKELM的有效性。自动测试系统(ATS)对其进行12项测试:5个频点的灵敏度、动态范围,以及两项射频增益。用F0、F1、F2、F3分别表示正常模式、放大单元故障、微波单元1故障和微波单元2故障。ATS对每种模式采集48组样本,共得到192组样本,将之均分后形成训练集和测试集。基于厂家维护保养手册中的测量方法,利用ATS的标准信号源、功率计和频谱仪对每种模式采集48组样本,共获得特征数为12、样本数为192的原始数据集,对该数据集按特征进行Z-score标准化预处理,然后将之均分为训练集和测试集。运用t分布随机邻域嵌入(t-SNE)算法[32]将训练集的96个样本降维到三维空间中,如图6所示。显然,不同故障模式的样本间重叠严重,同一故障模式的样本分布也并不集中,这对分类算法性能提出了较高的要求。
图5 前端接收机
Fig.5 Front-end receiver
图6 训练集的三维可视化图
Fig.6 3-D visualization of training set
基于该训练集,以线性核、参数为2的多项式核、参数分别为[2,10,20,30,40,50]的高斯核作为基核(共8个),运用FC-LMKELM进行诊断。首先对训练样本进行模糊C均值聚类,经试验,当聚类数为4时可达到最佳性能,其隶属度矩阵如表3所示。
基于表3所示的隶属度信息,按照第3节中的步骤3~步骤6执行迭代更新过程,在不同的范数约束下,FC-LMKELM的学习曲线如图7所示。
表3 诊断数据的隶属度矩阵Table 3 Membership matrix of diagnosis dataset
图7 FC-LMKELM的学习曲线
Fig.7 Learning curves of FC-LMKELM
图9以混淆矩阵的形式直观地展示了FC-LMKELM与SimpleMKL、S-LMKL-softmax、S-LMKL-sigmoid、M2-LCMKELM的诊断效果。
图8 FC-LMKELM的局部权重分布
图9 不同方法的混淆矩阵
Fig.9 Confusion matrices of different methods
表4 各方法的指标值Table 4 Index values for different method
表4对各方法的精度指标进行了总结。由图9和表4可知:
1) FC-LMKELM在避免漏警与抑制虚警方面表现优异,尤其是l2-FC-LMKELM,实现了0漏警,0虚警。
2) 两种S-LMKL方法的测试诊断精度远远低于训练诊断精度,显然发生了严重的过拟合,其原因在于为每一个样本点学习独立的基核权重导致了算法泛化性能严重下降。与之相对的是M2-LCMKELM,通过“硬聚类”的方式将局部权重关联至所属聚类而非各个样本上,既关注了局部特征又防止了过学习,泛化性能得以提升。
3) 由于融合了各个样本对群组的隶属度信息,相比于M2-LCMKELM,这种“软聚类”的方式使FC-LMKELM的泛化性能得到了进一步的提升;l2-FC-LMKELM的诊断准确性比l1-FC-LMKELM高,原因在于后者的基核权重具有稀疏性(见图8),可能带来有用信息的损失。相比其他4种非“软聚类”方法,在测试精度方面,l1-FC-LMKELM分别提升了4.16%、6.99%、4.16%和1.04%;l2-FC-LMKELM则分别提升了5.20%、8.03%、5.20%和2.08%。
从另一个角度看,本节以文献[28]中给出的适用于多分类问题的F1的推广形式微观F1(Micro-F1)、宏观F1(Macro-F1)以及G-mean作为诊断方法的精确性评价指标,基于图9的直观结果将这3大指标统计于表5中,从中可知FC-LMKELM仍然表现最佳。
最后,为了探究所提方法的时效性,重复10次实验,表6以“均值±标准差”的形式统计了各方法的时间开销。
表5 各方法的F1分数和G-meanTable 5 F1 score and G-mean of different methods
表6 不同方法的时间开销Table 6 Time cost for different method
由表6可知:① 在训练时间上,尽管FC-LMKELM要略长于其他方法,尤其在l1-范数约束下,每次迭代中加入的解线性规划过程更多地延长了训练时间,但需要注意的是,正如图7所示,只需极少的迭代步数FC-LMKELM就能快速收敛,因此训练时间开销实际上是可控的;② 在测试时间上,FC-LMKELM与其他方法基本相同,均可实现实时输出;③ 作为线下诊断方法,以少量时间开销来换取更多的精确性上的提高是值得的;此外,航空电子部件的诊断多数情况下在小样本条件下进行,时间花费不会过多,因此FC-LMKELM是有效的。
5 结 论
面向航空电子部件模块级故障诊断问题,提出一种融合隶属度信息的FC-LMKELM诊断方法。以某型机前端接收机的ATS测试数据为例,验证了所提方法的有效性,可以得到以下结论:
1) 在诊断精度方面,相比于MKL方法和3种非“软聚类”的LMKL方法,FC-LMKELM能够有效避免漏警、抑制虚警并提升诊断精确度。对于某型机前端接收机,l1-FC-LMKELM和l2-FC-LMKELM比其他方法的平均值分别提高了4.09%和5.13%。
2) 在时间开销方面,相比于MKL方法和3种非“软聚类”的LMKL方法,FC-LMKELM训练时间稍长,但较少的迭代次数确保了时间开销的可控性;在测试时间上各方法基本在同一水平。
3) 聚类数量对所提方法的性能有很大的影响,并且没有明确的规律可循,需要依据具体的数据进行验证后确定。在训练过程中融入聚类数量自适应变化的“软聚类”方法是下一步的研究方向。