基于熵权距离的图正则局部线性嵌入算法
2023-08-01李宏王静李跃波李富
李宏 王静 李跃波 李富
摘 要 针对局部线性嵌入(Locally Linear Embedding,LLE)算法在挖掘数据结构时未考虑特征权重且仅局限于数据的线性拟合关系,导致特征提取效果不佳的问题,提出一种基于熵权距离的图正则局部线性嵌入(Graph Regular Local Linear Embedding Algorithm Based on Entropy Weight Distance,EWD?GLLE)算法。首先,采用信息熵加权的余弦距离划分样本邻域,减小不重要特征对邻域划分的影响,提高了邻域划分的准确性;然后,利用融合热核权重与余弦权重的拉普拉斯图约束低维嵌入,以保留更多的原始数据信息,进而提取到更显著的特征。在两种轴承数据集上的实验结果表明:EWD?GLLE算法的特征提取性能明显优于LLE、LTSA、LDA算法。
关键词 局部线性嵌入 拉普拉斯特征映射 熵权距离 余弦高斯核函数 轴承故障诊断 特征提取
中图分类号 TP391 文献标识码 A 文章编号 1000?3932(2023)02?0216?08
随着信息时代的到来,数据量常以指数形式增长,这将导致“维数灾难”[1,2]。因此有必要对高维数据进行维数约减[3]。流形学习是基于拓扑流形概念发展而来的一类数据降维方法[4],可以从原始高维数据中挖掘出低维流形结构,是数据挖掘领域的一种重要方法。在图像识别[5]、故障诊断[6]等领域,流形学习被学者们广泛地应用和研究。主成分分析(Principal Component Analysis,PCA)[7]、局部切空间(Locally Tangent Space Alignment,LTSA)[8]、线性判别分析(Linear Discriminant Analysis,LDA)[9]、拉普拉斯特征映射(Laplacian Eigenmaps,LE)[10]及局部线性嵌入(Locally Linear Embedding,LLE)[11]等都是流形学习的典型算法。其中,LLE算法利用邻域内样本之间的线性关系,实现了数据从高维空间到低维空间的投影,算法具有实现简单、计算复杂度小等优点,在实际中应用广泛[12]。
然而LLE算法在实际应用过程中也存在着缺点,它是一种无监督的数据处理方法,对近邻参数敏感[13,14]。为了解决上述问题,大量算法被相继提出。为了解决不同的近邻点参数k值对检测效果影响较大的问题,文献[15]通过引入确定合理k值的方法,利用更加合理的k值,提高运行效果。文献[16]采用以流形距离代替欧氏距离度量数据间相似度的方法,创建能够正确反映流形内部结构的邻域图,解决以欧氏距离作为相似性度量时对邻域参数敏感的问题。文献[17]利用均匀化距離代替传统的欧氏距离,使样本点的总体分布趋于均匀化,减少了相邻点的影响,选择有效邻域点构造权矩阵有助于降维,同时引入监督学习机制。以上算法都取得了很大的成功,但未考虑不重要特征对邻域划分的影响以及如何保留更多数据信息的问题。
笔者提出了一种基于熵权距离的图正则局部线性嵌入算法[18]。其中,熵权距离是由信息熵对特征进行权重预评估后进行加权的距离,能够较好地区分特征的边缘性,从而增强重要特征对数据的表征能力。因此,笔者引入熵权余弦距离进行邻域划分以解决特征权重占比不应相同的问题;另外,为了保留更多原始数据信息,利用改进权值的拉普拉斯特征映射来重构损失函数,在保持数据间线性关系的同时保持数据间的相似性,可以有效地表示非线性数据的流形结构。从后续实验可以看出,笔者所提算法具有较好的特征提取效果。
3 实验数据及分析
为证实算法的有效性,分别在凯斯西储大学(CWRU)轴承数据中心的数据集和东北石油大学轴承故障模拟平台(OL)数据集上进行可视化评估、定量聚类评估、聚类精度评估和鲁棒性评估实验,验证笔者算法的优良性能。
3.1 实验数据集
数据集1。数据集是由凯斯西储大学的轴承数据中心的测试平台采集的。如图1a所示,该测试平台由一台电机(左侧)、一个转矩传感器(中间)、一个转矩传感器(右侧)和电子控制设备组成。该数据在采样频率为12 kHz下获得,分为4类:正常数据、滚珠故障、内圈故障和外圈故障。每类数据采集100个样本,1 024维特征。
数据集2。数据集2由实验室平台采集,该平台由电机、轴承和齿轮箱组成,如图1b所示。该数据在采样频率为10 kHz下获得,分为4类:正常数据、滚珠故障、内圈故障和外圈故障。每类数据集采集100个样本,1 024维特征。
3.2 可视化评估
严格按照对照原则,在数据集1上进行了LDA、LTSA、LLE算法和笔者提出的EWD?GLLE算法的可视化实验。图2为三维可视化结果,图中红点表示正常数据,绿点表示内圈故障数据,蓝点表示滚珠故障数据,黑点表示外圈故障数据。
从图2可以看出,LTSA和LLE算法存在不同水平的类分性较差的情况,即不同类之间存在重叠。LDA算法类可分性较好,但类内紧致程度稍逊色,且分类水平不稳定。LTSA算法具有较好的类内紧致性,不同类之间的分离性有待提高。笔者所提出的EWD?GLLE算法具有很好的类间分离性和类内紧致性,优于以上算法。基于以上分析,与其他3种算法相比,EWD?GLLE算法具有更好的嵌入效果。
3.3 定量聚类评估
为了充分评估笔者所提算法的性能,引入Fisher测度作为评估指标。该指标由类间距离Sb和类内距离Sw构成,可用于衡量同一类别的靠近程度和不同类别样本的区分程度。具体定义如下:
其中,C表示样本的总类别数,x表示第i类样本,n表示x的样本数目,C表示第i类的样本数,[x][-]表示x的样本均值向量,[x][-]表示总样本的均值向量。
F值与算法性能正相关。笔者分别在两种数据集上,将所提出算法与其他经典算法进行了对比分析,结果见表1。
从表1中可以看出,笔者所提EWD?GLLE算法在两种数据集上F值均最大,证明了该算法的优越性。LDA、LTSA、LLE算法在不同程度上都存在特征分布稀疏、类间分离性差的现象,而EWD?GLLE算法在保持类内紧致性的同时也能很好地处理类间可分性。
3.4 聚类精度实验
分别在两种数据集上进行4种算法的聚类精度实验,其中,每类样本选择80%进行训练,剩余20%用于测试。实验结果如图3、4所示,可以看出EWD?GLLE算法具有优良的聚类精度。
3.5 鲁棒性评估
传统流形学习算法对样本邻域的选择较为敏感,近邻参数选取对低维空间的聚类效果会产生很大的影响,为全面衡量笔者提出的EWD?GLLE算法的鲁棒性,在CWRU数据集上进行不同k值的可视化评估,如图5所示。
从图5中可以看出,EWD?GLLE算法在CWRU数据集上表现出对邻域参数的非敏感性,k值的变化没有影响到低维空间的聚类效果,证明该算法对参数k具有较好的鲁棒性。
4 结束语
笔者提出了一种基于熵权距离的图正则局部线性嵌入算法,该算法使用熵权距离来度量数据之间的相似性,提高邻域划分的准确性,此外,该算法利用拉普拉斯图正则约束保持数据间相似性。因此能够获得良好的效果。在CWRU和OL两种轴承故障数据集上的对比实验表明,该算法具备较好的可视化、类内聚集、类间分离的效果,且对邻域参数具备鲁棒性,明显优越于其他算法。
参 考 文 献
[1] 潘恪谨,胡建华,宋燕,等.不完整张量上基于流形学习和张量分解的特征提取[J/OL].小型微型計算机系统,2022:1-10[2022-04-21].DOI:10.20009/j.cnki.21?1106/TP.2021?0573.
[2] ZHOU Y H,WANG H F,LIU Y Y,et al.Accelerating MR Parameter Mapping Using Nonlinear Compressive Manifold Learning and Regularized Pre?Imaging[J].IEEE Transactions on Biomedical Engineering,2022,69(10):2996-3007.
[3] WAN Z T,YANG R,HUANG M J,et al.EEG fading data classification based on improved manifold learning with adaptive neighborhood selection[J].Neurocomputing,2022,482:186-196.
[4] SHAH M,HU L,AHMED Z.Modified LPP based on Riemannian metric for feature extraction and fault detection[J]. Measurement, 2022, 193:110923?1-110923?18.
[5] 汪明昕.基于图像识别的一类工业组装产品质量检测方法研究[D].长春:吉林大学,2021.
[6] 孙康,岳敏楠,金江涛,等.基于改进变分模态分解与流形学习的滚动轴承故障诊断[J].热能动力工程,2022,37(3):176-185.
[7] 张颖,马承泽,杨平,等.基于小波变换和改进PCA的人脸特征提取算法[J].吉林大学学报(理学版),2021,59(6):1499-1503.
[8] 佘博,田福庆,梁伟阁,等.增量式监督局部切空间排列算法及齿轮箱故障诊断实验验证[J].振动与冲击,2018,37(13):105-110;129.
[9] LI B,DING H Y,ZHOU M J.Semi?supervised LDA and Multi?distance Metric Learning for Person Reidentifi?cation[J].Journal of Physics:Conference Series,2022,2171(1):012054.
[10] 李响,吕勇.结合拉普拉斯特征映射的权重朴素贝叶斯高光谱分类算法[J].分析测试学报,2020,39(10):1293-1298.
[11] 王波,刘太安,樊建聪,等.基于局部线性嵌入极限学习机的人脸识别新方法[J].计算机应用与软件,2020,37(3):178-183.
[12] HU Z B,YIN H S,LIU Y H.Locally linear embed ding vote:A novel filter method for feature selection[J].Measurement,2022,190:110535.
[13] NIU G,MA Z M.Tensor local linear embedding with global subspace projection optimisation[J].IET Com? puter Vision,2021,16(3):241-254.
[14] 刘均,宫子栋,吴力.基于信息熵度量的局部线性嵌入算法[J].吉林大学学报(理学版),2022,60(1):143-149.
[15] 蒋涛.基于局部线性嵌入的免疫检测模型研究[D].哈尔滨:哈尔滨理工大学,2018.
[16] 马丽,董唯光,安志龙.流形距离与压缩感知核稀疏投影的局部线性嵌入算法[J].计算机与数字工程,2020,48(3):523-527;727.
[17] WANG G B,LUO J,HE Y L,et al.Fault Diagnosis of Supervision and Homogenization Distance Based on Local Linear Embedding Algorithm[J]. Mathematical Problems in Engineering:Theory,Methods and Appli?cations,2015(Pt.19):981598.1-981598.8.
[18] 张忠平,刘伟雄,张玉停,等.ERDOF:基于相对熵权密度离群因子的离群点检测算法[J].通信学报,2021,42(9):133-143.
[19] GAO T,MA Z M,GAO W X,et al.Dimensionality reduction of tensor data based on local linear embed?ding and mode product[J]. Journal of Intelligent & Fuzzy Systems,2021,41(2):2779-2796.
[20] MIAO J Y,YANG T J,SUN L J,et al.Graph regularized locally linear embedding for unsupervised feature selection[J].Pattern Recognition,2022,122(6):108299.
[21] 楊鹏飞,陈梅,张忠帅,等.自适应邻居和图正则的表示学习[J].小型微型计算机系统,2023, 44(3):553-559.
(收稿日期:2022-08-06,修回日期:2023-02-17)
Graph Regular Local Linear Embedding Algorithm Based on Entropy Weight Distance
LI Hong1, WANG Jing1, LI Yue?bo2,LI Fu3
(1. School of Electrical and Information Engineering, Northeast Petroleum University;
2. Digital Operation and Maintenance Center, No. 1 Oil Production Plant of Daqing Oilfield;
3. No.1 Drilling Company, Daqing Drilling Engineering Company)
Abstract Considering the fact that the locally linear embedding (LLE) algorithm doest consider the feature weight and is limited to the linear fitting relationship of data when mining the data structure and it results in poor effect in the feature extraction , a graph regular local linear embedding algorithm based on e?ntropy weight distance(EWD?GLLE) algorithm was proposed. Firstly, it has the cosine distance which weighted by information entropy adopted to divide the sample neighborhood so as to reduce the influence of unimportant features on the neighborhood division and improve its accuracy thereof; then, it has the Laplacian graph which combining the thermal kernel weight and cosine weight employed to constrain the low?dimensional embedding and to retain more original data information and extract more significant fea?
作者简介:李宏(1969-),教授,从事油气管道泄漏检测和信号处理的研究。
通讯作者:王静(1998-),硕士研究生,从事机器学习和轴承故障诊断的研究,wj446587180@163.com。
引用本文:李宏,王静,李跃波,等.基于熵权距离的图正则局部线性嵌入算法[J].化工自动化及仪表,2023,50(2):216-222;261.