基于加权合成少数类过采样技术的故障诊断

2016-01-02韩志艳

计算机技术与发展 2016年9期

关键词：类间邻域类别

韩志艳，王健

(渤海大学工学院，辽宁锦州 121000)

基于加权合成少数类过采样技术的故障诊断

韩志艳，王健

(渤海大学工学院，辽宁锦州 121000)

合成少数类过采样技术(Synthetic Minority Oversampling Technique，SMOTE)是一种著名的过采样方法，但是它没有考虑样本的分布和潜在的噪声数据。为了改善SMOTE的性能，提出了加权合成少数类过采样技术(Weighted Synthetic Minority Oversampling Technique，WSMOTE)。WSMOTE通过引入邻域并将样本按照分布的不同划分为不同的组群，不同的群组拥有不同的采样价值，然后根据采样价值的不同加权合成样本。WSMOTE在处理类别不平衡数据时具有优异的性能，并在半导体制造过程的监控数据仿真中得到了验证。

故障诊断;类别不平衡;SMOTE;过采样技术

0 引言

近年来，半导体制造工业一直保持较高的增长速度。半导体制造是一个非常复杂的生产过程，由数百个步骤构成，其中晶元制造是其最关键的一步。晶元制造工艺包括一系列步骤，以在晶元表面覆盖特殊的材料层。在这个复杂的过程中，一些很小的缺陷就可以使最终的产品测试失败。因此，为了满足半导体工艺的质量要求，故障诊断与分类研究成为当前的热点问题［1］。

如今，随着数据收集和采集技术被广泛应用于半导体制造过程中，如何使用大量的已收集到的数据来有效地描述生产过程，极大地促进了基于数据驱动的故障诊断方法的研究工作。最近一些基于模式识别的故障诊断方法被提出以解决半导体制造过程中出现的非线性和多批次轨迹问题。例如，He等［2］提出在半导体工业的故障检测中使用k-最近邻(KNN)规则来完成故障分类。Verdier等［3］同样应用了KNN规则，但他们提出的方法使用自适应马氏距离来代替传统的欧几里得距离。然而，在半导体故障诊断过程中的数据类别不平衡特性，给这些方法的应用带来了困难，由于与正常工况的数据相比，故障工况的数据常常难以获取，所以工业现场中收集的监测数据常常具有严重的类别不平衡特性。在这种情况下，传统的分类器倾向于将数据归类于多数类(正常工况)，以得到更高的总体准确率而忽视了少数类(故障工况)的准确率。然而，在故障诊断中，最重视的往往是少数类(故障工况)的分类准确率。在解决这一问题的方法中，重采样技术最为常用，特别是合成少数类过采样技术(SMOTE)引起了研究者的广泛关注［4］。Chawla的实验研究表明，SMOTE能够比其他采样方法取得更好的效果［5］。该文在SMOTE的基础上，提出了一种加权合成少数类过采样技术(Weighted Synthetic Minority Oversampling Technic，WSMOTE)，通过有选择的过采样少数类样本来平衡两类样本在数量上的差距。

1 合成少数类过采样技术

合成少数类过采样技术(the Synthetic Minority Oversampling Technique，SMOTE)是一种主要的过采样技术，主要用来解决在分类问题中出现的样本分布不均衡。该算法的思想是合成新的少数类样本，以获得均衡的样本分布。合成策略是对每个少数类样本x，搜索k个少数类最近邻样本;若向上采样的倍率为n，则在其k个最近邻样本中随机选择n个样本，记为y1，y2，…，yn;在少数类样本x与yj(j=1，2，…，n)之间随机线性插值，构造新的少数类样本pj。

其中，rand(0，1)表示(0，1)内的一个随机数。

图1是一个SMOTE算法的范例。

如图所示:xi为某一个少数类样本，xi1，xi2，xi3，xi4分别为xi的四个近邻，r1，r2，r3，r4为生成的四个新的人造数据。

2 加权合成少数类过采样技术

SMOTE是一种著名的过采样方法，但是它没有考虑样本的分布和潜在的噪声数据。为了改善SMOTE的性能，文中提出了加权合成少数类过采样技术(WSMOTE)。

由于基于流形假设的局部拓扑结构既受到类间的不平衡的影响又受到类内不平衡的干扰，因此WSMOTE算法分别从类内和类间两个层面研究样本的分布和潜在的噪声影响。在本节中，类间不平衡是指样本的多数类的数目不同于少数类的数目的情况;类内不平衡是指同一类样本是由许多不同的子群组成，而这些子群的重要性是不同的。

同SMOTE相似，WSMOTE通过产生合成样本解决类间不平衡问题。在处理类内不平衡时，WSMOTE通过引入邻域并将样本按照分布的不同划分为不同的组群再加权合成样本来解决。

如图2所示，点q和r分别是近邻的类间样本xq和xr，N(xq)和N(xr)是它们各自的近邻，其对应的邻域并写作 N(xq，xr)，其中 N(xq，xr)=N(xq)∪N(xr)。显然，xq和 xr的关系处于 N(xq，xr)的约束下。当xq和xr是类内近邻样本，邻域并也可以用同样的方式定义。

在邻域并中，从局部类别分布上看，由于N(xq，xr)对xq和xr间关系的约束能分解为N(xq)和N(xr) 对xq和xr各自的约束。如果Nw(xr)≠ø且Nb(xr)≠ø，其中ø是空集，Nw(xr)和Nb(xr)分别表示xr的类内邻域和类间邻域，可以令xr是一个边界样本。如果样本xr的近邻都位于Nb(xr)里，即Nw(xr)≠ø，这样的样本可以假定是孤立样本。如果一个样本被同类近邻包围，即Nb(xr)≠ø，令xr是内部样本。因此，根据局部类别分布与样本所属类别的数据量大小，样本可划分到六个不同子集中:

ANy:由大类和中等类的孤立样本所组成的噪声样本集;

ALmg:大类和中等类的边界样本集; ALin:大类和中等类的内部样本集; ASiso:小类的孤立样本集; ASmg:小类的边界样本集; ASin:小类的内部样本集。

在样本集中，每个样本仅仅属于一个集合，这六个子集的并集构成了整个样本集。图2给出了特征空间的一个场景示例，其中方块、圆块和三角形分别代表大类、中等类和小类的样本。样本xq和xr分别受N(xq) 和N(xr)约束，xq和xr之间的关系受N(xq，xr)约束。根据样本子集的定义，样本可以如下归类:ASin={a}，ASmg={b}，ASiso={c}，ALin={ALin1∪ALin2∪ALin3∪…}，ALmg={ALmg1∪ALmg2∪ALmg3∪…}，并且ANy={d，e}。

不同的局部分布类型对具有不同的采样价值。内部样本代表了一个特定类别的典型属性，所以可以看作标准样本。和内部样本不同，边界样本在特征空间中离类间样本很近，因此有更高的误分可能性。因为孤立样本与异类样本更相似，所以有最高的误分可能性。因此，WSMOTE根据不同的策略选择生成合成样本。具体规则如下:算法随机地从ASin集合中选择样本的k近邻产生合成样本，从ASmg集合中选择样本最近邻产生合成样本，对ASiso集合不合成任何样本，移除ANy集合中的样本。

3 仿真实验及结果分析

文中使用SECOM数据集验证WSMOTE算法的有效性。首先介绍了不平衡数据分类性能的评估方法。然后，简要介绍了SECOM数据集。最后，分析了在SECOM数据集中获得的仿真结果。

3.1 不平衡数据分类性能评估方法

在故障诊断实践中，由于正常工况数据容易获得，而故障工况数据难以获得，导致训练数据广泛存在类不平衡情形［6-8］。当处理类分布不平衡数据时，由于多数类占优势，分类边界偏置于优势数据，经典分类算法面临对少数类预测能力下降的问题，从而影响整体预测性能。

表1所示的混淆矩阵表达了样例分类的分布情况。混淆矩阵是计算若干分类器性能度量的基础。

对于两类问题，通常称少数类为正类，称多数类为负类，正确率Acc和错误率Err为:

正确率Acc和错误率Err是常用的分类器性能度量，但是，这两个度量对类不平衡敏感，过于偏置多数类。在处理不平衡数据时，使用Acc或Err将会导致性能比较的错误结果［9］。

以下度量由混淆矩阵派生，也是其他度量的基础:

真正率:

真负率:

假正率:

假负率:

显然，分类器想要在两个类别中均取得良好的分类性能，单靠其中某一个性能指标是不能胜任的，需要把其中某些指标结合起来，形成一种新的评价基准。

3.2 SECOM数据集简介

文中使用的SECOM数据集［10］是从真实的半导体制造生产线上获取的相关数据。SECOM数据集包含2个文件，数据文件包含1 567个样本，每个样本包含591个特征，标签文件包含每个样本的分类标签和采样时间。如同多数采自工业现场的数据，数据集中很多特征对应着空值或常值，这一情况需要在数据预处理阶段进行处理。

3.3 结果和分析

在数据预处理阶段，由于SECOM数据集中的某些特征包含空白值或常值，共删除了137个特征，这些特征符合80%的数据记录丢失或为常值，在剩余的454个特征中，使用10倍交叉验证技术验证用于比较的各种模型算法。所以，首先把SECOM数据集分成训练数据集和测试数据集，训练数据集包含从原始数据集中随机选择的94个故障样本和1 037个正常样本，测试数据集包含250个样本，其中，故障样本104个，正常样本146个。WSMOTE中的ASin取值为3。

为了比较SMOTE+PCA(SPCA)，WSMOTE+PCA (WPCA)，SMOTE+FDA(SFDA)，WSMOTE+FDA(WFDA)，SMOTE+MFA(SMFA)，WSMOTE+MFA(WMFA)的性能，在SECOM数据集分别使用它们进行特征选择，进行对比研究。其中，SPCA，SFDA和SMFA是首先使用SMOTE进行类别数据再平衡后再和主元分析(Principal Component Analysis，PCA)［11-13］、费舍尔判别分析(Fisher Discriminant Analysis，FDA)［14］、边际费舍尔分析(Margin Fisher Analysis，MFA)［15］相结合产生的特征提取算法;WPCA，WFDA和WMFA是首先使用WSMOTE进行类别数据再平衡后再和PCA，FDA和MFA相结合产生的特征提取算法。图3分别比较了六种算法的多种性能指标。

从图3可以看出，在六种算法中，WFDA拥有最佳的分类性能，因为它能够满足对一个好的特征选择算法的期望，即拥有高的TPR，TNR和Acc，拥有低的FPR和FNR。而且，所有使用了WSMOTE算法的特征选择方法在故障样本的识别性能上均优于使用SMOTE算法的特征选择方法。它表明，WSMOTE算法可以通过有选择地增加故障样本的数量，改进训练数据集的样本多样性，从而改善特征选择算法的性能。但是，有时使用WSMOTE算法的模型会降低多数类(正常样本)的分类性能，这是由于想在两个类别中同时获得更优的性能是一件困难的事情，因此在实施这一算法时应综合考虑多方面因素。

4 结束语

在SMOTE的基础上，提出WSMOTE算法用于解决故障诊断过程中因故障数据难以获得而出现的数据类别不平衡问题。该算法分别从类内和类间两个层面研究样本的分布和潜在的噪声影响。同SMOTE相似，WSMOTE通过产生合成样本解决类间不平衡问题。在处理类内不平衡时，WSMOTE通过引入邻域并将样本按照分布的不同划分为不同的组群，不同的群组拥有不同的采样价值，然后根据采样价值的不同加权合成样本来解决。WSMOTE在处理类别不平衡数据时具有优异的性能，并在半导体制造过程的监控数据仿真中得到了验证。

［1］ Bleakie A，Djurdjanovic D.Feature extraction，condition monitoring，and fault modeling in semiconductor manufacturing systems［J］.Computers in Industry，2013，64(3):203-213.

［2］ He Q P，Wang J.Fault detection using the k-Nearest neighbor rule for semiconductor manufacturing processes［J］.IEEE Transactions on Semiconductor Manufacturing，2007，20(4): 345-354.

［3］ Verdier G，Ferreira A.Adaptive mahalanobis distance and knearest neighbor rule for fault detection in semiconductor manufacturing［J］.IEEE Transactions on Semiconductor Manufacturing，2011，24(1):59-68.

［4］ Chawla N V，Hall L O，Bowyer K W，et al.SMOTE:synthetic minority over sampling technique［J］.Journal of Artificial Intelligence Research，2002，16:321-357.

［5］ Chawla N V.C4.5 and imbalanced datasets:Investigating the effect of sampling method，probabilistic estimate，and decision tree structure［C］//Proceedings of the workshop on learning from imbalanced datasets.Washington D C:［s.n.］，2003:17-23.

［6］ Chawla N V.Data mining and knowledge discovery handbook ［M］.Berlin:Springer，2010:857-886.

［7］王和勇，樊泓坤，姚正安.SMOTE和Biased-SVM相结合的不平衡数据分类方法［J］.计算机科学，2008，35(5):174-176.

［8］ Cebe M，Gunduz-Demir C.Qualitative test-cost sensitive classification［J］.Pattern Recognition Letters，2010，31(13): 2043-2051.

［9］ Elazrneh W，Japkowicz N，Matwin S.Evaluating misclassifications in imbalanced data［C］//Proc of the 17th European conference on machine learnin.Berlin:Springer，2006:126-137.

［10］McCann M，Li Y，Maguire L.Causality challenge:benchmarking relevant signal components for effective monitoring and process control［C］//Proc of JMLR.Canada:［s.n.］，2008: 277-288.

［11］Wang T，Xu H，Han J，et al.Cascaded h-bridge multilevel inverter system fault diagnosis using a PCA and multiclass relevance vector machine approach［J］.IEEE Transactions on Power Electronics，2015，30(12):7006-7018.

［12］Ding S，Zhang P，Ding E，et al.On the application of PCA technique to fault diagnosis［J］.Tsinghua Science and Technology，2010，15(2):138-144.

［13］Wang N，Yuan Z H，Wang D.Improving process fault detection and diagnosis using robust PCA and robust FDA［C］//Proc of WRI world congress on computer science and information engineering.USA:IEEE，2009:54-59.

［14］Tang X C，Yuan L.Monitoring and fault diagnosis using fisher discrimnant analysis［C］//Proc of the international conference on machine learning and cybernetics.USA:IEEE，2007:1100-1105.

［15］Tsang I W，Kocsor A，Kwok J T Y.Large-scale maximum margin discriminant analysis using core vector machines［J］.IEEE Transactions on Neural Networks，2008，19(4):610-624.

Fault Diagnosis Method Based on Weighted Synthetic Minority Oversampling Technique

HAN Zhi-yan，WANG Jian
(College of Engineering，Bohai University，Jinzhou 121000，China)

The Synthetic Minority Oversampling Technique(SMOTE)is a famous oversampling method，whereas it doesn’t consider the distribution of samples and latent noises in the data.In order to improve the performance of SMOTE，a modified method，the Weighted Synthetic Minority Oversampling Technique(WSMOTE)，is proposed.WSMOTE introduces the neighborhood union to classify the samples into several groups，and different groups have different importance.Then，WSMOTE generates synthetic sample according to the different importance.The proposed method has a better performance when dealing with class imbalance data and it is demonstrated through its application to the semiconductor wafer fabrication process.

fault diagnosis;class imbalance;SMOTE;oversampling technique

TP391.4

1673-629X(2016)09-0043-04

10.3969/j.issn.1673-629X.2016.09.010

2015-10-28< class="emphasis_bold">修回日期:20

2016-02-24< class="emphasis_bold">网络出版时间:

时间:2016-08-23

国家自然科学基金资助项目(61403042，61503038);辽宁省教育科研计划项目(L2013423)

韩志艳(1982-)，女，博士，副教授，研究方向为情感识别、语音识别。

http://www.cnki.net/kcms/detail/61.1450.TP.20160823.1359.042.html