基于双度量约束的拉普拉斯特征映射
2021-09-06刘庆强
李 宏 齐 涵 刘庆强 李 富 吴 丽
(1.东北石油大学 电气信息工程学院,黑龙江 大庆 163318;2.大庆钻探工程公司 钻井一公司,黑龙江 大庆 163318;3.大庆油田有限责任公司 天然气分公司培训中心,黑龙江 大庆 163318)
0 引 言
随着大数据时代的到来,在人脸识别、故障诊断[1]、高光谱图像分类[2-3]等方面采集到的数据通常具有高维的特征,这降低了机器学习算法的计算效率,造成了维数灾难[4-5]。维数约简是解决上述问题的有效手段,可采用特征提取的方式对数据进行维数约简,提高学习算法的效率[4]。
流形学习是一种有效的维数约简方法[4],经典的流形学习方法主要有:主成分分析(PCA:Principal Component Analysis)、局部线性嵌入(LLE:Locally Linear Embedding)、局部切空间对齐(LTSA:Locally Tangent Space Alignment)、基于Hessian 矩阵的局部线性嵌入(HLLE:Hessian-based Local Linear Embedding)和拉普拉斯特征映射(LE:Laplacian Eigenmaps)等[6]。PCA 算法的思想是寻找正交变换最大化投影数据的方差[7];LLE 算法假设高维流形中局部邻域的重构系数在低维中保持不变[8-9];LTSA 算法利用局部切线信息表示局部几何信息,然后通过该局部切线信息提供全局坐标[10-11];HLLE 算法通过Hessian 系数建立矩阵并分析获得低维表示[12];LE 算法的中心思想是在高维中相似的两个点映射到低维中应该尽可能地靠近[13]。
LE 算法是一种通过构建邻接矩阵为W的图重构数据流形局部结构特征的流形学习算法。其思想是在高维空间中相似的点在特征提取后的目标子空间中应该尽量接近,将两点间加权距离作为损失函数,利用拉普拉斯算子的谱性质进行求解,求出保持数据集某种局部信息的最优低维表示[14]。近年来,一些基于LE的改进算法也在不断被提出,如,王浩任等[15]将小波包与拉普拉斯特征映射结合,提高了机器状态评估的准确性;孙伟伟等[16]提出了自适应加权综合核距离,获得了改进LE 和KNN(K-Nearest Neighbor)分类器的组合策略,同时改进了流形学习算法和分类器方法,提高了样本的分类结果。
上述方法通过预处理原始信号或优化近邻点的选择等提高LE 算法特征提取的性能,然而以上算法在非平坦流形中度量样本的位置关系仍存在不准确的问题[17-18]。为解决上述问题,笔者提出了一种双度量约束的算法,该算法利用余弦相似性度量样本点间的相似性,并融合了样本及其局部流形间的度量关系,更准确地获取了样本点间的位置信息。该算法克服了欧氏距离度量方式的缺点,提高了样本的度量精度。经过实验对比发现,该算法能有效提高分类和聚类效果,降维效果良好。
1 相关工作
笔者主要给出了拉普拉斯特征映射算法的计算流程以及余弦相似性度量概念及其所表示的意义。
1.1 LE 算法
LE 算法从局部角度构建相似关系图,进而重构数据之间的关系,其主要思想是希望相互有关系的点在降维后的空间中尽可能地靠近,即高维空间中距离很近的两个点在低维空间中距离同样很近[14]。设原高维数据为X=[x1,x2,…,xN]T∊RD×N,其中xi(i=1,2,…,N)为样本点数据;D为数据维数;N为样本点的个数。设降维后的数据为Y=[y1,y2,…,yN]T∊Rk×N,其中yi(i=1,2,…,N)为降维后的样本点数据[13]。从高维中挖掘低维特征的结果为Y,其步骤如下。
1) 构建邻接图。使用KNN 算法将每个点最近的K个点连上边,K是预先设定的值。
2) 确定权重W。可选用热核函数确定,如果i点和j点相连,则两点间关系的权重为
3) 特征映射。计算拉普拉斯矩阵L的特征向量与特征值,拉普拉斯特征映射优化的目标函数为
式(6)可转换为
其中Λ为对角矩阵,L、D均为实对称矩阵。对单独的向量y,式(7)可写为Ly=λDy,这就变为广义特征值问题,通过求K个最小非零特征值所对应的特征向量,即可达到降维目的。
1.2 余弦相似性
通常,LE 算法通过使用欧氏距离度量样本点间的位置关系,构建图矩阵。当流形不平坦或部分数据丢失时,欧氏距离度量容易造成近邻点的选择不准确[17],可以用余弦相似性度量xi和xj之间的距离,从而确定xi的邻域,即
其中s(xi,xj)∊[0,1],s(xi,xj)越大,则xj为xi近邻点的可能性越大,通过选择K个最大的余弦相似度选择xi的K个近邻点。
2 基于双度量约束的拉普拉斯特征映射模型
2.1 双度量约束模型
在高维空间中,由于流形往往具有非平坦性,因此,同一类样本间的欧氏距离可能大于其与不同样本间的欧氏距离[19],如图1 所示。在这种情况下,通过单一的欧氏距离度量样本间信息时样本就可能被错误分类,影响降维模型的构建,从而影响数据的特征提取效果。
图1 双度量约束模型Fig.1 Dual-metric constraint model
为克服上述缺点,笔者提出了基于双度量约束的拉普拉斯特征映射算法,首先通过余弦相似性度量样本间以及样本与其相邻局部流形间的度量关系,最后通过设置非负参数α对权重矩阵进行双度量约束。通过双度量约束可得最优权重矩阵,克服了单一的欧氏距离度量造成样本分类错误的问题,使样本之间的度量的取值更加合理,提高了样本的分类效果和度量精度。
图1 中x1,x2,x3,x4均为样本点,x12,x34为样本近邻点的中心点。通过观察可以发现x1与x2为同一类样本,但x2与x3的距离更小,因此通过度量样本与其局部流形间的关系,对样本的权重进行双度量约束,得到最优权重矩阵。
2.2 基于双度量约束的拉普拉斯特征映射
基于双度量约束的拉普拉斯特征映射算法主要的思想是先利用余弦相似性对样本间的相似性进行评估,然后融合样本间以及样本与局部流形间的度量关系,最后将得到的两种权重选取适当的参数值进行融合,从而寻找最优的权重矩阵W,通过更新权重使样本的分类和聚类效果更好。
算法的推导过程如下。
1) 构建邻接图。使用KNN 算法将每个点的最近K个近邻点连上边,K是一个预先设定的值。
2) 确定权重1。使用余弦相似性计算两个点之间的距离,确定点与点之间权重
3) 计算权重2。通过计算数据点与近邻点的中心点之间的距离,计算权重
4) 选取最优权重。选取适当的参数α,将权重1 与权重2 进行融合,选取最优权重矩阵
其中α为非负调节参数,当α=1 时,权重矩阵W=W1,式(11)表示LE 算法;当α=0 时,权重矩阵W=W2,式(11)则代表权重仅由样本与其局部流形间的度量进行约束。
5) 特征映射。优化目标函数,计算拉普拉斯矩阵L的特征向量与特征值。
算法的流程图如图2 所示。
图2 算法流程图Fig.2 Algorithm flow chart
3 实验及数据分析
将笔者算法分别与LLE、LTSA、LE 算法进行对比,通过可视化的方式证明了该算法的有效性。并且从定量的角度采用Fisher 测度衡量类内及类间距离指标,最后通过选取不同的K值,讨论参数对降维效果的影响。
3.1 数据集
数据集1。采用凯斯西储大学(CWRU:Case Western Reserve University)提供的轴承数据集,是公开的数据集,广泛应用在轴承的故障诊断。如图3 所示,试验平台包括一个电机(左侧),一个转矩传感器(中间),一个功率计(右侧)和电子控制设备。数据分为4 类:正常数据、滚珠故障、轴承内圈故障和轴承外圈故障。每类数据采集100 个样本,每个样本包含1 024 个数据点,即样本的特征数目为1 024[20]。
图3 CWRU 实验测试平台Fig.3 CWRU experimental test platform
数据集2。采用该实验室测试平台上采集的轴承信号数据集。如图4 所示,平台由电机、轴承和齿轮箱组成。为了采集故障信号数据集,采样的频率为1 kHz,转子的转速为500 r/min。共采集4 类样本:正常数据、滚珠故障、内圈故障和外圈故障。每种类型的数据共100 个样本,样本的维度为1 024。
图4 实验室测试平台Fig.4 Laboratory test platform
数据集3。也是从该实验室测试平台采集,通过采集各种类型的齿轮数据反应变速箱中齿轮的不同缺陷。如图5 所示,该测试平台中,电机的转速为1 200 r/min,模拟采集模块的采样频率为10 kHz。采集到4 种数据类型:齿轮破损、齿轮裂纹、齿轮磨损和正常数据。每类数据类型包含100 个样本,样本的维度为1 024。
图5 齿轮箱Fig.5 Gear box
3.2 可视化实验
在实验1 中,笔者采用了数据集1,将基于拉普拉斯特征映射的双度量约束算法(D-LE:Double metric constraint Laplace Eigenmaps)分别与LLE、LTSA、LE 几种算法进行可视化对比。通过取相同的K值,将几种算法降维后的效果进行比较,如图6 所示。
图6 可视化实验Fig.6 Visualization experiment
通过可视化实验结果表明,LLE 算法中4 种不同样本的特征量发生了重叠现象,并且样本点分布散乱,没有明显的分类效果;LTSA 和LE 算法中的特征量也发生了重叠现象,分类效果较差;D-LE 算法明显优于其他3 种算法,其不仅具有较好的类内紧凑形,聚类效果良好,并且能将数据集1 中的4 类样本明显分离,因此还具有较好的类间分离性。
3.3 Fisher 度量
在实验2 中,利用Fisher 准则对所提出的方法进行定量分析比较。将LLE、LTSA、LE、D-LE 算法分别使用数据集2 和数据集3 计算F值。F值表示样本的类间距离和类内距离的比值,常用于评估数据的分离效果[21],F值的大小与算法的性能呈现正相关。其定义为
表1 Fisher 度量Tab.1 Fisher measure
经过定量的实验对比可以发现,LTSA 和LLE 算法的F值较小,说明其数据的分离效果较差;LE算法的分类效果略优于其他算法,这是因为当参数值α取1 时,笔者算法即为LE 算法;D-LE 算法的分类效果明显优于其他3 种算法,这主要是由于采用双度量约束,提高了样本的聚类效果,使数据更具有类内紧凑性和类间分离性。
3.4 参数对比实验
在该实验中,采用数据集1 作为实验所用的数据集,通过取不同的K值分析参数对D-LE 算法特征提取效果的影响,分别选取K=21、K=23、K=25、K=27 进行对比分析。
图7 参数对比Fig.7 Comparison of parameters
通过参数对比实验可以看出,当K=21、K=23、K=25、K=27 时均取得了较好的特征提取效果,这表明笔者所提算法对K取较广范围的值时,均能取得良好的聚类效果,即在实际应用中简化了对K的设置。
4 结 语
笔者提出了一种基于双度量约束的拉普拉斯特征映射。该算法首先利用余弦相似性度量样本间的相似性,在此基础上融合了样本间以及样本与局部流形间的度量关系,构建了降维模型。该方法提高了算法度量精度,使样本的聚类效果更加明显。将该算法应用在CWRU 数据集和本实验室实验平台采集的数据集中,通过可视化和F值等实验进行对比,证明了本算法的有效性。未来将重点研究如何优化参数值α,提高算法的计算效率,使最优权重矩阵的选取更加合理,以得到最佳的降维效果。