APP下载

基于小球大间隔方法的机械故障检测

2012-07-25郝腾飞

中国机械工程 2012年15期
关键词:机械故障训练样本识别率

郝腾飞 陈 果

南京航空航天大学,南京,210016

0 引言

机械故障检测在本质上是一个模式识别问题,建立在统计学习理论之上的支持向量机(support vector machines,SVM)[1-2]具有良好的推广能力,已经在机械故障检测领域得到了广泛应用[3-8]。但是,支持向量机作为一种两类分类方法,在训练中须同时使用正常样本和故障样本。机械故障检测中,故障样本通常很难获取,也不可能为了获得故障样本而故意破坏机械设备,因此,在机械故障检测中,故障样本是可遇而不可求的。针对该问题,一些学者将支持向量数据描述(support vector data description,SVDD)[9-10]应 用 于机械故障检测[11-13],该方法只需使用正常样本进行训练,因此有效地解决了故障样本缺失情况下的故障检测问题。但是,在现实的机械故障检测中,故障样本虽然不易获取,但一般通过各种途径还是能获取到一些,如通过机械设备曾经偶尔发生的一些故障可以收集到一些故障样本,只是这些样本相对于正常样本较少,因此,机械故障检测的现实情况是正常样本较多,故障样本较少,两者在数量上严重不平衡。在这种情况下,如果使用传统的支持向量机进行故障检测,由于训练样本严重不平衡,其性能会显著下降。如果使用支持向量数据描述进行故障检测,则故障样本得不到有效利用。基于上述分析,在机械故障检测领域,研究不平衡样本下的故障检测方法是一个重要且有意义的问题。

针对该问题,本文将小球大间隔方法(small sphere large margin,SSLM)[14]应用于机械故障检测,提出了一种不平衡样本下的机械故障检测方法。该方法在训练中不仅使用大量的正常样本,而且可以使用少量的故障样本对决策边界进一步修订,其基本思想是通过训练构造一个包围正常样本的超球,在使超球体积最小化的同时,进一步使超球边界和故障样本之间的间隔最大化。本文首先使用仿真数据进行不平衡样本下的分类实验,直观地表明了小球大间隔方法在不平衡样本学习下的优越性;然后将该方法应用到滚动轴承故障检测中,并将其与传统的支持向量机和支持向量数据描述进行了比较,验证了该方法在解决不平衡样本下机械故障检测问题中的优越性。

1 小球大间隔方法

小球大间隔方法[14]是一种针对训练中拥有大量正常样本和少量异常样本情况的异常检测方法,其集成了一类分类方法(支持向量数据描述)和传统两类分类方法(支持向量机)的思想。一方面,与支持向量数据描述类似,小球大间隔方法通过在特征空间中构造一个包围正常样本的超球来进行异常检测,若一个测试样本落入超球内部,则将其分类为正常,否则,将其分类为异常。为了减小将异常样本分类为正常样本的可能性,该超球的体积被最小化。另一方面,受支持向量机大间隔思想的启发,为了进一步减小将异常样本分类为正常样本的可能性,小球大间隔方法要求超球边界与异常样本之间的间隔最大化。

式中,φ(xi)、φ(xj)分别为正常样本和异常样本在特征空间中的位置;c、R分别为在特征空间中建立的超球的球心位置和半径;ρ2为超球边界与异常样本之间的间隔;ξ为松 弛 向 量,ξ= (ξ1,ξ2,…,ξn)∈ Rn;ν、ν1、ν2为 三 个 正常数。

根据上述最优化问题,最小化目标函数将使超球的半径R最小化,同时超球边界与异常样本之间的间隔ρ2最大化,因此将该异常检测方法称为小球大间隔方法。

为了导出式(1)~式(4)的对偶形式,定义以下Lagrange函数:

其中,αi、βi为 Lagrange乘子,αi≥0,βi≥0。令L(R,c,ρ,ξ,α,β)关于原始变量的导数为零,可得

由式(10)、式(6)可得

将式(6)~ 式(9)和式(11)代入式(5),即可得到上文最优化问题的对偶形式:

求解出对偶问题(式(12)~式(16))后,为了计算半径R,考虑下列集合:

根据KKT(Karush-Kuhn-Tucker)条件,对于S中的样本,式(2)和式(3)中的等号成立,同时松弛变量为零。令n=|S|,则

根据式(11),可求得

为了对一个测试样本x∈Rd进行分类,只须根据决策函数判断该样本是否在训练阶段构造的超球体内。决策函数的表达式为

2 小球大间隔方法在不平衡样本学习下的优越性比较与分析

为了直观地比较支持向量机、支持向量数据描述以及小球大间隔方法应用于不平衡样本时的局限性与优越性,利用二维仿真数据对三种方法进行了不平衡样本下的分类实验。

仿真数据通过随机均匀分布产生,具体产生办法为:在由横坐标[0,1]和纵坐标[0,1]形成的区域内根据均匀分布随机产生200个正类训练样本,在由横坐标[1,2]和纵坐标[0,1]形成的区域内根据均匀分布随机产生20个负类训练样本,训练样本中正类样本和负类样本的不平衡比为10∶1,然后采用相同的方法另外产生100个正类样本和100个负类样本用于测试,实验数据的具体细节如表1所示。

表1 仿真实验数据

3种方法的核函数均选取高斯核函数。SVM和SSLM的参数通过五折交叉验证进行选取。由于SVDD仅使用一类样本进行训练,因此不适合使用交叉验证的方法选取参数,鉴于该方法和SSLM一样都是通过构造一个包围正类样本的超球来进行分类,因此,为公平起见,选取和SSLM一样的核参数,另一个惩罚参数选取1,即要求在训练集上没有误分。使用上述参数选取方法选取参数后进行分类实验,3种方法在训练集和测试集上的分类结果分别如图1和图2所示,具体的识别率如表2所示。

图1 三种方法在训练集上的分类结果

图2 三种方法在测试集上的分类结果

建立在结构风险最小化之上的SVM,通过在模型的复杂性和训练误差之间寻求折中,而不是一味地追求训练误差最小化,从而能够有效地避免过拟合现象,表现出良好的推广能力。但是,当训练样本严重不平衡时,一方面较少一类的样本很容易远离理想的分类面,另一方面SVM软间隔的特点使得SVM训练得到的分类面会向样本较少一类偏移[15],当使用该分类面对测试样本进行分类时,样本个数较少的一类会具有较高的误识率。从图1a可以看出:由于正类样本较多,因此在理想分类面附近分布有很多样本;由于负类样本较少,仅有一个样本接近理想分类面。这种情况下,SVM在软间隔特点的作用下,为了获得更大的间隔,最终训练得到的分类面向负类样本方向发生了偏移,并越过了一个负类样本,导致在训练集上该类样本有一个发生了误分。总之,由于上述两个原因,SVM在训练样本不平衡的情况下得到的分类面明显向样本较少的负类方向发生了偏移。从图2a可以看出,当使用该分类面对测试样本进行分类,正类样本没有误分,其识别率达到了100%,而负类样本有相当一部分发生了误分,其识别率仅为81%。

表2 三种方法在仿真数据上的识别率

SVDD作为一种一类分类方法,在训练中只须使用正常样本,其基本思想是通过构造一个包围正常样本的超球来进行异常检测,若测试样本落入超球内部,则将其分类为正常,否则将其分类为异常。通过引入核技巧,该方法可以获得灵活的描述边界。从该方法的原理可以看出,SVDD进行异常检测的效果取决于得到的描述边界是否紧凑,若描述边界非常紧凑,则异常样本很难落入超球内部,从而可以获得较好的异常检测效果,否则,异常检测的效果会较差。但是,只有当核参数选取恰当时,SVDD才能获得紧凑的描述边界,由于该方法在训练时仅使用了正常样本,当训练样本位于高维空间时,仅通过正常样本很难判断选取的核参数对应的描述边界是否紧凑,若训练得到的描述边界不是非常紧凑,使用该方法进行异常检测时接受异常样本的风险会较高。另外,由于SVDD要求包围正常样本的超球尽可能小,这使得其和SVM相比,正常样本的识别率容易偏低。图1b所示为SVDD使用正类样本训练得到的分类面,该分类面包围住了所有的正类样本,即其在训练集上的识别率达到了100%,但是从图2b可以看出,使用该分类面对测试样本进行分类时,正类样本没有一个发生误分,负类样本有7个发生了误分,即正类样本的识别率为100%,负类样本的识别率为93%。

SSLM也是通过构造一个包围正常样本的超球来进行异常检测,这一点与SVDD类似,不同点在于该方法在训练中引入了异常样本,在最小化超球的同时,进一步使超球边界和异常样本之间的间隔最大化,因此,与SVDD相比,该方法一般可以获得更加紧凑的描述边界,从而能够降低接受异常样本的风险。由于该方法同样要求包围正常样本的超球尽可能小,因此和SVM相比,其正常样本的识别率也容易偏低。图1c所示为SSLM通过训练得到的分类面,其对正类样本和负类样本的识别率均达到了100%。对比SSLM和SVDD的分类面,可以看出,在靠近负类样本一侧,SSLM的分类面更加紧凑,这一点正是通过大间隔的要求获得的。图2c所示为SSLM在测试样本上的分类结果,其对正类样本的识别率为98%,略低于另外两种方法的正类识别率,对负类样本的识别率为100%,明显高于另外两种方法的负类识别率。

根据以上实验和分析可以看出,当训练样本高度不平衡时,SVM的分类面会偏向样本较少的类,这使得其对样本较少类的识别率容易偏低,因此训练样本不平衡会明显降低SVM的性能;SVDD仅使用一类样本进行训练,虽不存在训练样本不平衡的问题,但该特点导致其核参数选择比较困难,不能保证对应的描述边界一定非常紧凑,若核参数选择不当,该方法对异常样本的识别率容易偏低;SSLM在训练中同时使用正常样本和异常样本,通过构造一个包围正常样本的超球来进行异常检测,这一特点使得其面对不平衡的训练样本时不存在SVM的缺点,而大间隔的特点又克服了SVDD的不足,因此SSLM可以作为一种很好的不平衡样本下的异常检测方法。机械故障检测是一种典型的不平衡样本下的异常检测问题,因此SSLM可以用于解决不平衡样本下的机械故障检测问题。

3 滚动轴承故障检测应用

为验证SSLM在不平衡样本下机械故障检测中的优越性,本文使用滚动轴承故障模拟实验台数据进行了不平衡样本下的故障检测实验,作为对比,同时使用SVM和SVDD进行了实验。滚动轴承故障模拟实验台如图3所示,其中,通道1的传感器用于测试滚动轴承转速,通道2和通道4的传感器用于测试水平加速度信号,通道3的传感器用于测试垂直加速度信号。采用4个6304型滚动轴承进行实验,其中,1个为正常轴承,另外3个被设置有内圈故障、外圈故障和滚动体故障(故障通过电火花技术加工而成)。实验中轴 承 的 转 速 为 1500r/min、1800r/min 和 2000 r/min,采样频率为10kHz。根据上述实验条件采集4种状态(正常、内圈故障、外圈故障和滚动体故障)下的滚动轴承振动信号各300组数据,每一组数据包含4096个数据点。实验中将内圈故障、外圈故障和滚动体故障样本混合组成故障类样本。根据训练样本中正常样本和故障样本的不同比例(1∶1、10∶1、20∶1、40∶1),将实验分为4组,实验数据的具体细节如表3所示。

图3 滚动轴承故障模拟实验台

表3 滚动轴承故障检测实验数据

本文将滚动轴承振动信号的波形指标、峰值指标、脉冲指标、裕度指标和峭度指标作为滚动轴承的故障特征,将这5个特征组成五维特征向量并作为分类器的输入。

实验中,3种方法的核函数统一选择高斯核函数。参数选取方法同上节仿真实验一样,即SVM和SSLM的参数通过五折交叉验证进行选取。为公平起见,SVDD选取和SSLM一样的核参数,另一个惩罚参数选取1,即要求在训练集上没有误分。每一组实验中,训练样本和测试样本随机划分10次,对每一次划分的数据进行分类实验,然后将10次分类结果的平均值作为最终结果。实验结果如表4所示。

表4 3种方法在滚动轴承实验数据上的识别率

从表4中SVM的检测结果可以看出,当训练样本平衡时,在训练集和测试集上,SVM对于正常样本和故障样本均取得了较高的识别率,这表明当训练样本平衡时,SVM是一种很好的故障检测方法。当训练样本不平衡时,在训练集上,SVM对正常样本的识别率达到了100%,对故障样本的识别率较训练样本平衡时出现了一定下降,而且不平衡比越高,对故障样本的识别率下降越明显;在测试集上,与训练样本平衡时相比,SVM对正常样本的识别率稍有上升,达到了100%,但对故障样本的识别率出现了明显下降,而且随着不平衡比的增加,对故障样本的识别率急剧下降,这表明在训练样本不平衡时,SVM对正常样本的识别率容易偏高,而对故障样本的识别率容易偏低。在机械故障检测中,由于将故障误判为正常的代价远高于将正常误判为故障的代价,因此一般希望对故障的识别率能够较高,但是SVM在训练样本不平衡情况下的性能正好与该目标相反。

从表4中SVDD的检测结果可以看出,由于该方法仅使用正常样本进行训练,因此不存在训练样本不平衡的问题。在训练集上,其对正常样本的识别率达到了100%;在测试集上,其对正常样本的识别率低于SVM对正常样本的识别率,对故障样本的识别率低于训练样本平衡时SVM对故障样本的识别率,但高于训练样本不平衡时SVM对故障样本的识别率。总体来说,当训练样本不平衡时,SVDD的故障检测性能优于SVM的故障检测性能。

从表4中SSLM的检测结果可以看出,在训练集上,对于各种不平衡比,其对正常样本和故障样本的识别率都接近或达到了100%;在测试集上,该方法对正常样本的识别率略低于SVM对正常样本的识别率,与SVDD对正常样本的识别率基本相当,但是对故障样本的识别率明显高于SVM和SVDD对故障样本的识别率。总体来说,对于各种不平衡比,在训练集和测试集上,SSLM对于正常样本和故障样本的识别率均取得了较大的值,这表明SSLM基本不受训练样本不平衡的影响。此外还可以看出,SSLM对故障样本的识别率较正常样本更高一些,这一点与故障检测中更加重视故障识别率的目标一致。总之,SSLM基本不受训练样本不平衡的影响和其更加注重故障识别率的特点使得其非常适合不平衡样本下的机械故障检测。

4 结论

(1)当训练样本严重不平衡时,支持向量机训练得到的分类面会向训练样本较少的故障类方向偏移,从而会导致故障类具有较高的误识率,而且训练样本不平衡程度越严重,支持向量机对故障类的误识率越高。

(2)支持向量数据描述在训练中仅使用了正常样本,该特点导致其核参数选取困难,不能保证获得的描述边界一定非常紧凑,若核参数选取不当,容易造成故障识别率偏低。

(3)小球大间隔方法在最小化超球的同时,进一步使超球边界和故障样本之间的间隔最大化,这使得其对故障的识别率能有很好的保证,可以作为一种解决不平衡样本下机械故障检测问题的有效方法。

[1]Vapnik V N.The Nature of Statistical Learning Theory[M].New York:Springer-Verlag,1995.

[2]陈果.基于遗传算法的支持向量机分类器模型参数优化[J].机械科学与技术,2007,26(3):347-350.

[3]尉询楷,陆波,汪诚,等.支持向量机在航空发动机故障诊断中的应用[J].航空动力学报,2004,19(6):844-848.

[4]徐启华.师军.应用SVM的发动机故障诊断若干问题研究[J].航空学报,2005,26(6):686-690.

[5]吴峰崎,孟光.基于支持向量机的转子振动信号故障分类研究[J].振动工程学报,2006,19(2):238-241.

[6]Yuan S F,Chu F L.Support Vector Machinesbased Fault Diagnosis for Turbo-pump Rotor[J].Mechanical Systems and Signal Processing,2006,20(4):939-952.

[7]唐浩,屈梁生.基于支持向量机的发动机故障诊断[J].西安交通大学学报,2007,41(9):1121-1126.

[8]Widodo A,Yang B S,Han T.Combination of Independent Component Analysis and Support Vector Machines for Intelligent Faults Diagnosis of Induction Motors[J].Expert Systems with Applications,2007,32(2):299-312.

[9]Tax D,Duin R.Support Vector Domain Description[J].Pattern Recognition Letters,1999,20(11/13):1191-1199.

[10]Tax D,Duin R.Support Vector Data Description[J].Machine Learning,2004,54(1):45-66.

[11]李凌均,张周锁,何正嘉.基于支持向量数据描述的机械故障诊断研究[J].西安交通大学学报,2003,37(9):910-913.

[12]王自营,邱绵浩,安钢,等.基于一类超球面支持向量机的机械故障诊断研究[J].振动工程学报,2008,21(6):553-558.

[13]李强,王太勇,王正英,等.基于EMD和支持向量数据描述的故障智能诊断[J].中国机械工程,2008,19(22):2718-2721.

[14]Wu M R,Ye J P.A Small Sphere and Large Margin Approach for Novelty Detection Using Training Data with Outliers[J].IEEE Transactions Pattern Analysis and Machine Intelligence,2009,31(11):2088-2092.

[15]Akbani R,Kwek S,Japkowicz N.Applying Support Vector Machines to Imbalanced Datasets[C]//Proceedings of the 15th European Conference on Machine Learning.Pisa,Italy,2004:39-50.

[16]He H B,Garcia E A.Learning from Imbalanced Data[J].IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263-1284.

猜你喜欢

机械故障训练样本识别率
汽车发动机机械故障的非接触式检测技术研究
人工智能
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
听力正常青年人的低通滤波言语测试研究*
提升高速公路MTC二次抓拍车牌识别率方案研究
汽车机械故障成因及维修处理方式探讨
档案数字化过程中OCR技术的应用分析
基于小波神经网络的网络流量预测研究
汽车机械故障原因及诊断探究
宽带光谱成像系统最优训练样本选择方法研究