基于Kmeans-DBSCAN融合聚类的轴承异常温升诊断模型

2020-03-27罗怡澜邹益胜邓佳林

机械设计与制造 2020年3期

罗怡澜，邹益胜，王超，邓佳林

（西南交通大学机械工程学院先进设计与制造研究所，四川成都 610031）

1 引言

温度是反映轴承热状态的最直接参量，因此可基于温度信号对轴承异常温升进行诊断，进而预警热轴故障。轴承磨损退化可能造成轴温升高，而正常工况下轴承转速、载荷、环境温度的变化亦可引起轴承温升[1]。轴承温度信息能有效表征其健康状况，而轴承温升原因的不确定性是基于温度信号进行故障诊断的难点。

在机车车辆轴温异常判别在热轴判别研究方面，文献[2-5]分别基于模糊判别法、模糊神经网络、增量型极限学习机、DTW算法建立了热轴等级判别模型，避免了绝对阈值判别的局限性，提高了热轴判别准确性，此类方法本质上属于建立固定异常模型，为获得准确且具有泛化能力的异常判别模型，需要大量不同工况不同等级下热轴故障历史数据，而在车辆运行中引起轴承温升原因多样且耦合作用，列车轴温测点分布于整车，测点数量多，工况差异大且热轴故障发生次数较少，难以建立准确有效的基于已标记历史数据的故障识别模型，且难以规避轴承温升原因多样性带来的误判。文献[6]针对风电设备齿轮箱状态监测问题、应用非线性估计法（NSET）基于历史数据建立了运行工况-齿轮箱温度的状态估计模型，以实测温度值与模型估计值偏差统计量评价设备温度异常程度。此类方法致力于构建标准正常模型，在建模数据选取中难以保证设备不存在退化或异常状况，而正常模型偏差量将通过估计值影响判别结果。综上所述，在基于温度信号的故障诊断中由引起温升因素的多样性和复杂性带来的判别难点仍然未得到良好解决。

针对上述问题，提出基于关联测点进行轴承异常温升诊断的思想：即基于列车同车相对位置一致测点，在车辆运行过程中所受外界激励相似，其温度变化应呈现近似趋势的假设，将异常温升诊断问题转化为寻找多组关联序列中少数持续离群子序列的问题。

同时，通过对轴温特征空间分布特点的进一步分析发现：当测点温升正常时，空间分布均匀，无明显密度差异，而当少数测点温升异常时，温度特征的空间分布发生改变，具体表现为：（1）温升特征空间位置分化；（2）高密度区域和低密度区域的分化。因此，对异常温升的诊断问题进一步转化为：（1）特征空间中少数分布位置离群样本的检测问题；（2）特征空间高密度区域与低密度区域的分割问题。

由于聚类算法能在没有历史训练数据的前提下较好解决离群样本的判别问题和密度区域的分割问题，故拟采用该种算法。现有聚类算法主要分为层次型聚类算法和分割式聚类算法[7]。层次型聚类算法采用自底向上的凝聚模型或自顶向下的分裂模型，不断将相似的簇合并或不断分裂出不同的簇。分割式聚类算法同时找出数据中相似簇，在模式识别问题中应用更为广泛，文献[7]是应用最为广泛的分割式聚类算法，具有收敛速度快、简单等优点，但Kmeans以绝对距离作为相似度评价指标，并以所有样本点到聚类中心距离的均值作为收敛标准，使得其只能发现数据中规则的球形簇，对非规则形状簇易出现样本混叠，且聚类中心位置受噪声点扰动较大。针对这一问题文献[8]提出k-medias算法以中位值代替均值，增强算法抗扰动能力。文献[9]提出核k均值法，通过将数据向核空间映射，使簇间的非规则边界显著化，再在核空间内进行Kmeans聚类，提高了算法处理非规则形状数据的能力。文献[10]针对滚动轴承故障诊断中内圈、滚动体或多点故障时很难从解调谱线分辨故障类型的问题，提出了一种新的基于模糊聚类的滚动轴承故障诊断方法，该方法以模糊Fisher准则为聚类目标，通过对待测样本与已知状态样本数据聚类，求得待测样本隶属度，进而判断滚动轴承的故障类型。

经典的Kmeans及其相关改进算法，本质上根据样本点之间距离评价其相似度，结合策略能有效辨别异常温升，但不能对局部密度差异进行判别，导致正常温升误判严重。文献[11]是一种基于密度的经典聚类方法，但该算法中的簇半径和邻域内最小密度这两个参数对判别结果比较敏感，而合理选取这两个参数主要依赖使用者的经验，导致判别结果的不确定性增大。针对参数选择问题，文献[11]采用K邻域方法，文献[12]采用网格划分技术等进行了改进，但由于轴温数据特征随着轴承故障的动态发展在不同阶段分布体现出不同的特点，且有较大的随机性，因此在聚类参数选取的自适应性方面需要进一步研究。

针对经典聚类算法在机车车辆轴承异常温升诊断中存在的不足，提出一种基于Kmeans-DBSCAN融合聚类的轴温异常诊断模型。通过对同车同类关联测点温度特征进行聚类找出温度变化离群测点，实现了无历史训练模型的轴温异常检测。根据异常温升测点温度特征相比其邻近同类测点，具有空间位置和分布局部密度差异性的特点，首先利用Kmeans对温度特征进行聚类，对关联测点温度特征空间分布进行初步判断，确定其空间位置差异性。在此基础上，以多数簇半径作为邻域半径进行DBSCAN聚类，确定其密度评价邻域，实现温度特征分布局部密度差异性检测，通过两种聚类算法的融合实现了异常温升的准确诊断，大大降低了漏判率和误判率。最后通过某轨道车辆的运行数据验证了这里方法的正确性和可靠性。

2 关联测点轴温异常诊断原理及其特征分析

2.1 关联测点温升异常检测原理

根据对轴承温升机理的分析，轴承温升与其转速、载荷、环境温度、等工况参数密切相关，同列车同类温度测点轴承运行工况参数近似，是关联测点，如图1所示。为同车4根轴上小齿轮箱电机侧轴承测点温度变化情况，相关测点状态均无明显异常，其温度应随列车运行工况同步变化，趋势近似。反之，故障轴承测点温度与其同类关联测点相比呈现明显差异，如图2所示。且差异持续存在并随工况变化（加速、制动、载荷增加）趋于显著化。从轴承可靠性设计角度出发，同车同类测点在寿命周期内同时失效的概率小于0.01%[13]，且历史履历数据中并未发现多个同类测点同时发生故障的工况。基于上述分析，假设多个同类测点轴承不会同时失效，通过检测关联温度测点中高温持续离群测点，进而实现轴承异常温升的诊断。

图1 正常工况关联测点温度变化Fig.1 Correlation Measure Points Temperature Change in Normal Condition

图2 异常工况下关联测点温度变化Fig.2 Correlation Measure Points Temperature Change in Abnormal Condition

2.2 关联测点轴温特征空间分布特点分析

基于上节所述思想，为避免关联测点单个时间点温度值比较的随机性，侧重于展现关联测点间温度变化差异随时间变化趋势，同时满足后续聚类检测中样本数量要求，以原温度信号输入，采用滑动时间窗口将温度序列从一维空间向高维空间映射，将某时刻温度历史邻域划分为多个时间窗口，提取其最大值、最小值、峰值、峰-峰值、均值、方差、均方值、均方幅值、方根幅值、平均幅值、峰值指标、波形指标、脉冲指标、裕度指标、峭度指标15维时域特征，由于Kmeans算法及DBSCAN算法对低维度数据的聚类效果更优，且时域特征空间中存在特征冗余。在轴温异常检测中需构建合理的样本空间，使得异常测点与正常测点温度特征分化明显，以保证准确判别异常温升，同时避免误判。异常温升测点（测点3），及其关联测点温度时域特征空间分布情况，如图3所示。图3为最大值、方差特征布情况，由图3可知，正常测点，测点1、测点2、测点4特征分布集中与异常测点3温度特征分布分化较为显著。波形指标、峰值标构成的特征空间，其中正常测点与异常测点分布差异显著度相对图3较低，如图4所示。综上所述需对特征空间进行空间重构，消除噪声及冗余信息。

图3 异常温升最大值-方差分布Fig.3 The Maximum Value and Variance Distribution of Abnormal Temperature

图4 异常温升波形指标、峰值指标分布Fig.4 Shape Factor and Crest Factor Distribution of Abnormal Temperature Rise

主成分分析法（PCA）可以将高维数据向低维空间映射，去除冗余数据同时保留原数据最主要特征[14]。将PCA应用于15维时域特征空间，按95%特征贡献率提取其特征主成分。异常温升工况与正常工况下关联测点温度时域特征主成分，如图5、图6所示。由图5可知当异常温升出现时，异常测点特征主成分离群现象明显，具体体现为特征空间位置与局部密度的差异。而正常工况下则无特征离群测点出现，如图6所示。

图5 异常温升特征主成分分布Fig.5 The Principal Component Distribution of Abnormal Temperature Rise

图6 正常温升关联测点特征分布Fig.6 The Principal Component Distribution of Normal Temperature Rise

3 基于Kmeans-DBSCAN融合聚类的异常温升诊断模型

根据对关联测点温度特征空间分布的分析，异常温升测点特征相比其邻近同类测点具有空间位置和分布局部密度差异性。Kmeans聚类算法能较好地辨识特征空间位置差异性，实现异常温升的判别，但对正常温升误判较多，DBSCAN聚类算法能有效识别特征空间分布的密度差异，但其密度评价邻域由输入参数邻域半径（Eps）决定，Eps的确定需基于特征空间分布的先验信息。高速列车轴温的异常检测需实时在线进行，故要求聚类算法能够根据不同的轴温特征分布自适应地选择参数。

针对上述问题提出一种基于Kmeans-DBSCAN融合聚类的异常温升诊断模型。结合异常温升特征空间分布特点及异常检测二分类问题特点，先对温度特征空间进行一次Kmeans聚类（k=2），对特征位置差异进行判断，按各测点多数样本所属簇给定类标签，避免由于个别样本带来的误判，考察是否有测点属于孤立类，同时获取温度特征分布先验信息。若存在孤立类，则以多数簇的最大半径作为邻域半径Eps，以单个测点样本数作为最小邻域密度Minpts，进行DBSCAN聚类，判断其分布密度是否存在显著差异。若测点特征同时满足位置差异性与分布密度差异性即判断为异常温升。算法设计针对异常温升特征特点，结合Kmeans、DBSCAN聚类算法对不同问题的判别优势，最大可能避免了漏判误判情况的发生。算法流程，如图7所示。

图7 基于Kmeans-DBSCAN融合聚类的异常温升诊断模型算法Fig.7 Abnormal Temperature Rise Diagnosis Model Algorithm Based on Kmeans-DBSCAN Fusion Clustering

（1）算法步骤1

为建立测点某时刻温度与其时间邻域内温度值关联关系，同时满足后续聚类检测中样本数量要求，针对时间点t，在其历史时间邻域［t-T+1，t］内设置宽度为w的滑动窗口，滑动因子为δ=1，用滑窗将同列车同类s个关联测点温度监测数据片段化，提取共（T-w+1）s个时间窗口内的最大值、最小值、峰值、峰峰值、均值、方差、均方值、均方幅值、方根幅值、平均幅值、峰值指标、波形指标、脉冲指标、裕度指标、峭度指标共15维时域特征，得描述窗口内温度变化的关联测点特征空间X，其中，单个测点样本数N=T-w+1。

提取特征空间主成分：

（1）对15维时域特征样本进行标准化处理消除不同特征量纲带来的差异，得标准化特征矩阵并计算其协方差矩阵：

（2）求特征矩阵和特征值与特征向量：

（3）按特征累积贡献率确定主成分个数，特征贡献率表征主成分表达前n维主成分所包含信息占原特征集X信息比例，取累积贡献率大于95%确定主成分维数n。

则确定主成分分析投影方向为前n个特征值向量即V15×n=［v1，v2，…，vn］将原特征集合X向该方向投影，得降维后特征空间Y。

（2）算法步骤2

对关联测点温度特征主成分特征集Y进行Kmeans聚类，k=2，给定各关联测点的数据样本类标签向量label（label=1，2），按测点统计样本类标签，对测点k（k=1，2…s）按如下准则进行统计，以测点样本所属多数类作为该测点类标签。

得s个关联测点类标签class，统计各类测点数量，考察是否存在孤立类测点：

式中：r0—孤立类测点判别阈值，当某类测点数量小于r0时，outliter=1，存在孤立类测点，孤立类测点即为满足判别条件测点。

（3）算法步骤3

若Kmeans聚类检测出孤立测点，计算多数簇最大簇半径：

其中：n—多数簇内样本数。

对关联测点温度特征集合D按[11]中所述流程进行DBSCAN聚类：根据关联测点异常温升特征呈现，异常测点样本分布稀疏，而多数正常测点样本分布相对集中的特点。Eps取为上步Kmeans聚类结果中多数类样本最大距离的一半dmax/2，Minpts设为单个测点样本数。若多数类与少数类间分布密度差异显著，聚类结果中出现多数类测点样本均归为同类，而少数类测点样本全被归为噪声，则判定该噪声类测点为异常测点。若多数类与少数类分布密度相近，DBSCAN聚类结果为同类，判定为不存在异常温升测点。

4 实例验证

4.1 实验条件

以某型机车车辆履历服役轴温监测数据为例，对提出的基于Kmeans-DBSCAN融合聚类的机车车辆轴承异常温升诊断模型的有效性及优越性进行验证。数据来源为某型机车车辆车载轴温监测系统测得同列车上多个轴温测点温度，温度传感器为pt100采样频率为1Hz，监测轴温数据传输频率为每分钟一次，以齿轮箱轴温测点为例，其位置分布，如图8所示。根据同车同类测点工况相近（转速、载荷），相对位置相近，将齿轮箱上16个轴温测点划分为4类关联测点，每类包含同车4根车轴上4个测点，如表1所示。根据异常温升测点温度特征连续时间段内离群，且为同类关联测点中最高温度测点的特点，设置预警策略。运用Kmeans-DBSCAN融合的异常诊断模型进行异常温升预警。

图8 测点分布位置Fig.8 Location of Measure Points

表1 关联测点划分Tab.1 Location of Measure Points

4.2 验证结果

选取小齿轮箱电机侧轴承、小齿轮箱电机侧轴承轴温数据200min，如图9、图10所示。其中3轴测点存在异常温升，现有阈值预警法在测点绝对温度超过环境温度80℃时报警，分别运用这里的判别方法，Kmeans，DBSCAN（K邻域方法确定邻域半径）采用同样的预警策略结果，如表2所示。提出的Kmeans-DBSCAN融合判别方法与基于Kmeans的判别法对异常温升的判别准确率达100%，而DBSCAN由于参数选择不当判别准确率为77.6%，较绝对阈值预警法，这里方法预警时间提前57min。选取大齿轮箱车轮侧轴承温升正常数据200min片段、大齿轮电机侧温升正常数据200min片段分别应用三种方法对各时刻温度数据进行异常温升检测其误判率，如图11、图12及表3所示。Kmeans和DBSCAN最高误判率分别为12.5%和19%，提出方法误判率低至0.5%。基于Kmeans-DBSCAN融合聚类的轴温异常诊断模型相比DBSCAN、Kmeans这两类经典的聚类误判率显著降低。对轴承异常温升与正常温升数据检测，Intelcore i5-7200，2.5GHz，12GB内存，windows10操作系统环境下模型平均单次运行时间分别为：60ms。算法满足实时检测要求。

图9 小齿轮箱电机侧轴承异常温升Fig.9 Abnormal Temperature Rise of Bearing in Small Gearbox Motor Side

图10 小齿轮箱车轮侧轴承异常温升Fig.10 Abnormal Temperature Rise of Bearing in Small Gearbox Wheel Side

表2 异常温升判别准确率Tab.2 Diagnostic Accuracy of Abnormal Temperature Rise

综合对异常轴承温升诊断的准确率及对正常温升的误判率，提出的Kmeans-DBSCAN融合聚类算法判别准确性优于两种经典聚类算法，且算法计算效率满足随车实时诊断的要求。

图11 大齿轮箱车轮侧轴承正常温升Fig.11 Normal Temperature Rise of Bearing in Large Gearbox Wheel Side

图12 大齿轮箱电机侧轴承正常温升Fig.12 Normal Temperature Rise of Bearing in Large Gearbox Motor Side

表3 误判率Tab.3 Misjudgment Rate

5 结论

针对高速列车异常轴温预警中缺乏足够的已标记历史数据难以建立有效的故障辨识模型，及关联测点异常温升判别准确率低的问题进行了深入研究，获得了以下主要结论：

（1）以工况相近的关联测点温度变化互为参照通过对其温度特征进行聚类找出温度变化离群测点，实现了无历史训练模型的轴温异常检测。

（2）提出了一种基于Kmeans-DBSCAN的关联测点轴温融合聚类模型，并实现了模型参数的自适应选择，提高了基于聚类的异常温升检测算法准确性。

（3）实例验证结果表明：所提出的Kmeans-DBSCAN融合聚类的轴承异常温升诊断模型，继承了Kmeans和DBSCAN算法的优点，对故障诊断的准确率达100%，与Kmeans算法保持一致，比DBSCAN算法提高22.4%；误报率低至0.5%，比Kmeans算法降低18.5%，比DBSCAN算法降低12%，较好地满足了机车车辆对于轴承异常温升的诊断要求，同时预警时间较现有基于绝对阈值的预警法提前了57min，该模型的单次运行时间为60ms，可以满足轴温在途诊断的实时性要求。

由于仅通过单一的测点温度信息难以确定引起轴温异常的原因，在下一步研究中将结合振动信号分析得出早期异常温升原因，准确评价其危害性，从而为做出合理的行车或维护策略调整提供依据。