APP下载

基于半监督邻域自适应LLTSA算法的故障诊断

2017-07-18房立清张前图齐子元

振动与冲击 2017年13期
关键词:约简降维维数

房立清, 吕 岩, 张前图, 齐子元

(军械工程学院 火炮工程系,石家庄 050003)

基于半监督邻域自适应LLTSA算法的故障诊断

房立清, 吕 岩, 张前图, 齐子元

(军械工程学院 火炮工程系,石家庄 050003)

为了有效利用振动信号进行故障诊断,提出了一种基于半监督邻域自适应线性局部切空间排列(SSNA-LLTSA)算法的故障诊断方法。从多域提取振动信号的混合特征,构建原始高维特征集。利用半监督邻域自适应线性局部切空间排列算法对原始特征集进行维数约简,提取出辨识性较高的敏感特征子集。将得到的低维特征输入SVM分类器进行识别,判断故障类型。液压泵故障诊断实验结果表明,该算法克服了LLTSA无监督和使用全局统一邻域参数的不足,可更有效地寻找数据的低维本质流形,提高了识别准确率,具有一定优势。

故障诊断;维数约简;半监督;邻域自适应;LLTSA

目前,机械设备的监测方式日趋多元化,设备运行监测数据涵盖了其工作状态的大量信息。振动信号通常作为设备状态信息的载体[1],对其从多角度提取特征并进行分析处理是实现设备状态检测的常用方法。但经多角度特征提取创建的高维特征集中往往包含一定数量的非敏感特征,且存在大量的冗余和混叠信息[2],降低了数据的区分度,影响机器识别精度。因此,须采用维数约简方法对高维多域特征集中敏感特征进行提取,获取分类错误率低、敏感性高的低维特征。

自Tenenbaum等[3-4]提出流形学习的方法后,流形学习在图像处理、人脸识别和故障诊断等领域得到了较为广泛的应用[5-6],成为一类重要的维数约简算(法。线性局部切空间排列[7](Linear Local Tangent Space Alignment, LLTSA)作为一种新型流形学习算法,比局部保持投影[8](Locality Preserving Projection, LPP)等算法具有更好的维数约简能力。但LLTSA是一种无监督的流形学习算法,降维过程中不能有效利用少量样本的类别信息;且在维数约简时,使用全局统一的邻域参数,导致算法性能受到影响,降低维数约简效果。

因此,本文提出了一种基于半监督邻域自适应线性局部切空间排列(Semi-Supervised Neighborhood Adaptive Linear Local Tangent Space Alignment,SSNA-LLTSA)算法的故障诊断方法。首先,从多域提取振动信号特征,构建原始特征集;然后,将SSNA-LLTSA应用在多域特征构成的高维特征集中,该算法有效地克服了LLTSA无监督和使用全局统一邻域参数的不足,可充分挖掘数据信息的本征流形结构,提高所得低维特征集的可辨识性。最后,将得到的低维特征子集输入分类器,对设备运行状态进行识别。通过液压泵故障诊断实例验证了本文所提方法的有效性。

1 线性局部切空间排列(LLTSA)算法

1.1 问题描述

LLTSA的主要思想[9]是寻找一个转换矩阵A将RD空间中具有N个点的含噪数据集XORG映射为Rd空间数据集Y=[y1,…,yN],即

Y=ATXORGHN(d

(1)

式中:HN=I-eeT为中心化矩阵;I为单位矩阵;e为所有元素为1的N维列向量;Y为XORG的d维非线性流形。

1.2 算法步骤

LLTSA主要有以下几个步骤

(1) 构建邻域

采用ε-临界法搜索数据点xi的邻域Xi,若dist(xi-xj)≤ε,则判定xj为xi的邻近点,得到Xi=[xi1,…,xik],k为邻近点个数。

(2) 获取局部邻域切空间

在数据样本点xi的邻域中寻找一组正交基Qi,并将Xi投影到Qi上提取邻域内的主要流形结构信息,即

(2)

式中:Hk=I-eeT/k为中心化矩阵;e为k维全1向量;I为单位矩阵。Qi的求取过程相当于在Xi上进行主成分分析(Principle Component Analysis, PCA),Qi为由XiHk的d个最大特征值所对应的d个特征矢量构成的切空间正交基矩阵。Xi的局部低维坐标为

(3)

(3) 局部切空间全局排列

局部切空间全局排列实际上是对数据集的本征结构进行重构的过程,为了使低维坐标能够保持更多的高维数据信息,通常需要使得重构误差达到最小,即如下目标函数

(4)

XHNBHNXTα=λXHNXTα

(5)

2 半监督邻域自适应LLTSA算法

2.1 半监督线性局部切空间排列(SS-LLTSA)

LLTSA属于无监督的维数约简算法,无法将类别信息融入维数约简过程来提高低维特征集的可辨识属性[10]。然而在实际中,部分样本的类别信息往往是可以获取的,在高维样本空间中,具有相同类别信息的点具有相同的流形结构,不同类别点的流形结构不同,对这些类别信息进行有效的利用能够使算法更充分地提取高维空间中的本质流形。因此,将半监督学习思想引入LLTSA算法,具体步骤如下:

(1) 距离度量公式

LLTSA通过计算样本点间的欧式距离,然后直接通过欧式距离的大小来选择邻近点,但欧氏距离只能反映样本间的空间位置关系,不能反映流形结构关系[11]。因此,结合文献[12]将多种距离结合作为度量函数的思想,文中将余弦相似度[13]和欧氏距离结合,即

(6)

表1 三种方法计算的距离值

(2) 半监督方法重构距离矩阵

假设有高维故障数据特征集X={X1,X2},其中X1={(x1,l1),(x2,l2),…,(xm,lc)},m为含类别信息样本个数,li(i=1,2,…,c)为样本点xi的类别,c为类别数目;X2=(xm+1,xm+2,…,xm+n},n为不含类别信息样本个数。在构建邻域时,选择的邻近点中同类样本点个数越多,异类样本点个数越少,则构建的局部空间越准确,降维所得的低维数据越容易保持高维数据的本质流形。因此,为提高算法的降维效果,并充分利用部分样本类别信息,定义距离矩阵如式(7)所示

(7)

图1 D与d关系曲线

2.2 邻域参数自适应调整

在LLTSA算法中邻域参数ε的选取对降维结果起着直接的影响。若参数选取过大,则会将非邻近点纳入邻域,破坏局部邻域结构;若参数选取过小,则会导致邻域构建不关联,而无法准确地将局部切空间整合为全局的低维流形,因此邻域参数ε的选取非常关键[14]。一般情况下,LLTSA采用的是全局统一的参数ε,而实际中数据点的局部空间分布往往并不均匀,选取全局统一的邻域参数必然会降低算法的维数约简能力。若能根据数据点的局部空间分布自适应地调整邻域参数ε,则将会提高算法的降维能力,得到的低维数据也更能反映高维数据的本质流形。Parzen窗概率密度估计[15]是一种非参数的概率密度估计方法,它不需要有关数据分布的先验知识,对数据分布不附加任何假定,可从数据集本身出发估计数据总体概率密度。因此,利用Parzen窗估计样本数据的分布,根据每个样本点邻域空间的概率密度自适应地调整局部邻域参数。

假设高维空间RD中存在一个数据集X={x1,x2,…,xN},对于数据点xi(i=1,2,…,N),Parzen窗的概率密度估计式为

(8)

设定LLTSA中邻域参数ε初始值为ε0,则数据点xi的初始邻域为Nε0(xi),窗函数选择平滑性较好的正态窗函数[16]

(9)

窗宽h对估计结果有较大影响,若窗宽选择过大,则会导致估计的分辨力降低,反之则会使估计的统计变动很大,根据文献[15]设定窗宽h=ε0,则数据点xi的邻域概率密度为

(10)

根据p(xi)通过式(11)调整邻域参数ε

(11)

分析式(11)可知:当数据点xi的概率密度小于平均概率密度,即其局部空间较稀疏时,可自动减小ε(xi),降低非邻近点纳入邻域的几率,保证建立数据点邻域空间的可靠性;当数据点的概率密度较大时,能自动增大ε(xi),保持邻域的局部线性结构,保证低维数据集全局结构的恢复。

2.3 半监督邻域自适应LLTSA算法流程

SSNA-LLTSA算法的具体步骤如下:

输入,高维空间数据样本集X={(x1,l1),(x2,l2),…,(xm,lc),xm+1,xm+2,…,xm+n},xi∈RD,li∈R为数据样本类别信息,目标低维特征空间维数d,邻域参数初始值ε0。

输出,低维特征向量Y,转换矩阵A。

(1) 根据式(6)和式(7)计算高维空间数据点的距离矩阵D,并对距离矩阵进行归一化;

(2) 设定邻域参数初始值ε0,根据式(10)和式(11)计算调整后的邻域参数ε(xi);

3 基于SSNA-LLTSA的故障诊断方法

为了提高特征提取的全面性,在特征提取时,需要从不同角度提取原始振动信号特征。因此,本文从四个方面进行特征提取:① 提取原始信号的波形、峰值、脉冲、裕度、偏斜度、峭度共6个时域指标;② 提取原始信号均值频率、标准差频率、频率中心、均方根频率共4个频域指标;③ 对原始信号进行局部特征尺度分解[17](Local Characteristic-scale Decomposition,LCD),从时频域提取前m个内禀尺度分量(Intrinsic Scale Component,ISC)的能量信息和将ISC分量组成m维矩阵进行奇异值分解所得的奇异值作为特征;④ 计算m个ISC分量的模糊熵,从复杂度域提取特征。基于SSNA-LLTSA的故障诊断方法流程如图2所示,具体步骤如下:

步骤1 获得原始振动信号,按一定的采样频率采样,得到一定数量的数据样本。

步骤2 确定m值,并对训练样本和测试样本进行特征提取,得到高维混合域特征集。

步骤3 将训练样本和测试样本的高维特征输入SSNA-LLTSA算法,得到d维特征集,1≤d≤D。

步骤4 将训练样本的d维特征子集用于SVM训练,使用已训练的(Support Victor Machine,SVM)分类器对测试样本进行分类识别。

图2 基于SSNA-LLTSA的故障诊断流程

4 实验验证

4.1 故障数据获取

实验数据源于液压泵实验平台,液压泵型号SY-10MCY14-1EL,为斜盘式轴向柱塞泵,柱塞数为7,额定转速为1 500 r/min,在泵端盖处安装压电式加速度传感器采集振动信号,传感器安装位置如图3所示。

分别选用一个柱塞松靴故障(S1)、两个柱塞松靴故障(S2)、正常(N)、滑靴磨损故障(H)的液压泵运行状态进行实验,主溢流阀压力为10 MPa,采样频率为20 kHz。按时间顺序以2 048个采样值为一组数据样本,分别测取4种运行状态数据各40组,液压泵4种状态的振动信号如图4所示。

图3 传感器安装位置

(a)单松靴信号(b)双松靴信号(c)正常信号(d)滑靴磨损信号

图4 液压泵4种状态时域波形

Fig.4 Time domain waveform of hydraulic pump in four states

4.2 实验结果与分析

在对数据样本进行特征提取时,首先要对其进行LCD分解,图5所示为双松靴故障中一组数据样本的分解结果。

分析全部样本数据分解结果可知,多数数据样本被分解为10个ISC分量和1个剩余量,因此,可确定m=10,按照基于SSNA-LLTSA的故障诊断方法中步骤2所述对数据样本中的每一组数据进行特征提取,可得到4个维数为40×40的特征矩阵。随机选取每种状态的15组数据作为训练样本,剩余25组作为测试样本,训练样本中含类别信息和未含类别信息的样本按1∶2比例随机分配。

将特征集输入SSNA-LLTSA中进行维数约简,作为比较,选用主成分分析(PCA)、LLTSA对特征集也进行维数约简。使用SSNA-LLTSA、LLTSA算法时,目标维数d和邻域参数ε0通过多次试验确定为d=16,ε0=0.8。图6为3种方法得到的低维特征集的前3个矢量三维空间分布图。

(a)(b)(c)(d)(e)(f)(g)(h)(i)(j)(k)

图5 双松靴故障振动信号LCD分解结果

图6 3种算法维数约简结果对比

Fig.6 Comparison of dimension reduction results of three algorithms

分析图6可知,PCA对双松靴故障(S2)的聚类效果较差,对滑靴磨损故障(H)、单松靴故障(S1)和正常状态(N)实现了有效的聚类,但三者的类间距较小,且存在着一定的混叠现象;LLTSA的聚类效果相比于PCA有所提高,可有效区分4种状态,但N和S1状态间存在一定程度的混叠,对S2降维后类内散度较大;SSNA-LLTSA可将4种状态完全区分开,具备较高的类别区分度,相比于PCA和LLTSA,每种状态内的数据聚集性有所提高,取得了较理想的降维效果。

为了能够定量评价文中所提出算法的性能,将所得低维特征集的类间距与类内散度的比值作为评价指标,比值越大,说明同类样本的低维坐标分布越集中,异类样本越分散,降维效果越理想。分别给出采用不同方法降维得到低维特征集的指标值如图7所示,图7中横轴的1~6分别表示PCA、LLTSA、SSNA-LLTSA、SSNA-LLTSA(欧氏距离)、NA-LLTSA(Neighborhood Adaptive LLTSA)、SS-LLTSA(Semi-Supervised LLTSA)降维方法。

分析图7可知,将半监督(SS)和邻域参数自适应(NA)与LLTSA算法结合的低维特征聚类效果要优于仅将半监督或邻域参数自适应与LLTSA结合;同时,采用文中所提出的距离度量方式的效果要优于欧氏距离。

图7 6种方法低维特征类间距与类内散度的比值

将采用不同方法维数约简得到的低维特征输入SVM进行分类识别。实验中SVM的核函数选用性能较好的径向基核函数(RBF),设置惩罚参数C=1,核函数参数g=1,识别结果如表2所示(其中None表示高维特征集未经降维处理)。

分析表2可知,未经降维处理的高维特征集识别率偏低,对于本次实验而言可能从多域提取的特征集中包含大量的冗余混叠信息,影响SVM的识别精度;由于PCA属于线性降维方法,旨在将高维数据转换到数据最大方差集方向,忽略了原始特征集的非线性结构,因此使用PCA降维后的平均识别率低于LLTSA;但LLTSA属于无监督降维方法,没有考虑原始样本的类别信息,且选取的邻域参数ε0为全局固定的参数,所以LLTSA的诊断精度低于SSNA-LLTSA(欧氏距离)。由于文中提出的算法采用余弦相似度和欧氏距离结合的度量函数计算样本点间的距离,融合了样本点的空间位置和夹角信息,得到的距离更精确,构建的局部空间中样本点的流形相似性更高,使获得的低维特征具有更好的辨识能力,所以平均准确率达到了最高。

表2 支持向量机识别结果

5 结 论

本文提出了一种基于半监督邻域自适应线性局部切空间排列(SSNA-LLTSA)算法的故障诊断方法。该方法采用余弦相似度与欧氏距离结合的距离度量方式代替传统的欧氏距离,并在维数约简时利用少量带有类别信息的样本重构原始特征空间样本点间的距离矩阵,使同类样本点间的距离更近,异类样本点间的距离更远,改善数据的区分度;同时,针对LLTSA算法中采用统一邻域参数的不足,利用Parzen窗估计样本点的空间分布情况从而自适应地调整邻域参数,可更有效地获取数据的低维本质流形。利用SSNA-LLTSA对从多域提取出的原始特征集进行维数约简,将获得的低维特征输入SVM进行分类,结合SSNA-LLTSA的维数约简能力和SVM的模式识别优势,可对机械故障进行有效的诊断,提高了识别准确率,具备一定优势。

[1] 张淑清, 孙国秀, 李亮, 等. 基于LMD近似熵和FCM聚类的机械故障诊断研究[J]. 仪器仪表学报, 2013, 34(3): 714-720.

ZHANG Shuqing, SUN Guoxiu, LI Liang, et al. Study on mechanical fault diagnosis method based on LMD approximate entropy and fuzzy C-means clustering[J]. Chinese Journal of Scientific Instrument, 2013, 34(3): 714-720.

[2] 苏祖强,汤宝平,姚金宝,等.基于敏感特征选择与流形学习维数约简的故障诊断[J].振动与冲击,2014,33(3):70-75.

SU Zuqiang, TANG Baoping, YAO Jinbao, et al. Fault diagnosis method based on sensitive feature selection and manifold learning dimension reduction[J].Journal of Vibration and Shock,2014,33(3):70-75.

[3] TENENBAUM J B, SILVA V, LANGFORD J C. A global geometric framework for nonlinear dimensionality reduction[J]. Science, 2000, 290:2319-2323.

[4] ROWEIS S T, SAUL L K. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290:2323-2326.

[5] JIE G, WEI J, LING Z, et al. Locality preserving discriminant projections for face and palm print recognition[J]. Neurocomputing, 2010, 73: 2696-2707.

[6] 杨庆,陈桂明,何庆飞,等.局部切空间排列算法用于轴承早期故障诊断[J].振动、测试与诊断,2012,32(5): 831-835.

YANG Qing, CHEN Guiming, HE Qingfei, et al. Inchoate fault diagnosis of rolling bearing based on local tangent space alignment algorithm[J]. Journal of Vibration, Measurement & Diagnosis, 2012, 32(5): 831-835.

[7] ZHANG T H, YANG J, ZHAO D L, et al. Linear local tangent space alignment and application to face recognition[J]. Neurocomputing, 2007, 70: 1547-1553.

[8] HE X F, YAN S C, HU Y X, et al. Face recognition using laplacianfaces[J]. IEEE Trans. Pattern Analysis and Machine Intelligence, 2005, 27 (3):328-340.

[9] 李锋, 汤宝平, 陈法法. 基于线性局部切空间排列维数化简的故障诊断[J]. 振动与冲击, 2012, 31(13): 36-40.

LI Feng, TANG Baoping, CHEN Fafa. Fault diagnosis model based on dimension reduction using linear local tangent space alignment[J]. Journal of Vibration and Shock, 2012, 31(13): 36-40.

[10] 苏祖强, 汤宝平, 邓蕾,等. 有监督LLTSA特征约简旋转机械故障诊断[J]. 仪器仪表学报, 2014, 35(8): 1766-1771.

SU Zuqiang, TANG Baoping, DENG Lei, et al. Rotating machinery fault diagnosis with supervised-linear local tangent space alignment for dimension reduction[J]. Chinese Journal of Scientific Instrument, 2014, 35(8): 1766-1771.

[11] 刘志勇,袁媛. 基于测地距离的半监督增强[J].计算机工程与应用,2011,47(21):202-204.

LIU Zhiyong, YUAN Yuan. Semi-supervised boosting based on geodesic distance[J]. Computer Engineering and Applications, 2011,47(21):202-204.

[12] CAO Q, YING Y M, LI P. Similarity metric learning for face recognition[C]//Proceedings of the 2013 International Conference on Computer Vision. Sydney: IEEE, 2013: 2408-2415.

[13] 李文博,王大轶,刘成瑞. 一类非线性系统的故障可诊断性量化评价方法[J].宇航学报,2015,36(4):455-462.

LI Wenbo, WANG Dayi, LIU Chengrui. An approach to fault diagnosability quantitative evaluation for a class of nonlinear systems[J]. Journal of Astronautics, 2015, 36(4):455-462.

[14] 董冀媛,穆志纯,欧阳定恒. 基于改进的局部切空间排列算法的多姿态人耳识别[J].北京科技大学学报,2010,32(12):1637-1642.

DONG Jiyuan, MU Zhichun, OUYANG Dingheng. Multi-pose ear recognition base on a local tangent space aliment algorithm[J]. Journal of University of Science and Technology Beijing, 2010,32 (12):1637-1642.

[15] 杨望灿,张培林,吴定海,等. 基于改进半监督局部保持投影算法的故障诊断[J]. 中南大学学报(自然科学版),2015,46(6):2059-2064.

YANG Wangcan, ZHANG Peilin, WU Dinghai, et al. Fault diagnosis based on improved semi-supervised locality preserving projections[J]. Journal of Central South University (Natural Science), 2015,46(6):2059-2064.

[16] 刘晗,张庆,孟理华,等. 基于Parzen窗估计的设备状态综合报警方法[J].振动与冲击,2013,32(3):110-114.

LIU Han, ZHANG Qing, MENG Lihua, et al. Comprehensive alarm method for equipment conditions based on parzen window estimation[J]. Journal of Vibration and Shock, 2013,32 (3):110-114.

[17] 曾鸣,杨宇,郑近德,等. 基于LCD和KNNCH分类算法的齿轮故障诊断方法[J].中国机械工程,2014,25(15):2049-2054.

ZENG Ming, YANG Yu, ZHENG Jinde, et al. Fault diagnosis approach for gears based on LCD and KNNCH classification algorithm[J]. China Mechanical Engineering, 2014,25(15):2049-2054.

Fault diagnosis based on semi-supervised neighborhood adaptive LLTSA

FANG Liqing, LÜ Yan, ZHANG Qiantu, QI Ziyuan

(Department of Artillery Engineering, Ordnance Engineering College, Shijiazhuang 050003, China)

In order to diagnose faults effectively using vibration signals, a fault diagnosis method based on the semi-supervised neighborhood adaptive linear local tangent space alignment (LLTSA) was proposed. Firstly, the mixed features of vibration signals were extracted in multi-domain to construct the original high-dimensional feature set. Then, the algorithm of semi-supervised neighborhood adaptive LLTSA was used to reduce the dimension of the original feature set and to extract the sensitive feature subset with the higher identifiability. Finally, lower dimensional features were input into a SVM classifier to recognize fault types. The fault diagnosis test results of hydraulic pumps indicated that the proposed algorithm overcomes drawbacks of LLTSA without supervision and using globally unified neighborhood parameters; lower dimensional intrinsic manifolds of data can be more effectively found with this algorithm; it improves the recognition accuracy and has certain advantages.

fault diagnosis; dimension reduction; semi-supervised; neighborhood adaptive; linear local tangent space algorithm (LLTSA)

河北省自然科学基金(E2016506003)

2015-12-31 修改稿收到日期:2016-05-26

房立清 男,博士,教授,1969年生

TH113.1;TN911.7

A

10.13465/j.cnki.jvs.2017.13.030

猜你喜欢

约简降维维数
修正的中间测度和维数
混动成为降维打击的实力 东风风神皓极
基于混合增量式属性约简的中医甲状腺结节诊疗规律分析
含非线性阻尼的二维g-Navier-Stokes方程全局吸引子的维数估计
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降维打击
近似边界精度信息熵的属性约简
广义分布保持属性约简研究
一种改进的稀疏保持投影算法在高光谱数据降维中的应用
基于粗糙集属性约简与进化算法的贝叶斯网络分类器