基于多尺度空间的直升机滚动轴承故障诊断
2022-10-28黄玉婧单添敏王景霖
黄玉婧, 徐 智, 单添敏, 曹 亮, 王景霖, 沈 勇
1.故障诊断与健康管理技术航空科技重点实验室,上海 201601;2.航空工业上海航空测控技术研究所,上海 201601)
直升机由于其灵活机动、受空间限制较小的优势,近几年来在工业、民用、国防等领域都得到了越来越广泛的应用。尤其在国防领域,军用直升机的工作条件往往较为恶劣,其飞行的可靠性尤为重要。其中传动系统作为其核心功能系统,不仅需要满足小体积、大功率的要求,而且其工作环境往往存在电磁、高温等干扰,另外也会有不可避免的工艺误差、材料缺陷,因此直升机传动系统的故障诊断是一个重要的研究方向[1-2]。滚动轴承作为直升机的核心零部件之一,是影响直升机健康运行的重要因素,因此对其进行高效准确的故障诊断具有重要意义[3-4]。
近几年来,众多学者对滚动轴承故障诊断开展了研究。张琛等[5]利用集合经验模态分解进行信号的筛选和重构,并根据重构信号奇异值熵的大小来进行滚动轴承故障类型的判断。陈海周等[6]利用最小熵解卷积,对强噪声环境下的故障信号进行降噪,再对降噪后的Teager能量信号进行频域特征提取。随着机器学习的进一步推广,越来越多的学者将机器学习算法应用到滚动轴承故障诊断上。徐可等[7]首先对经验模态分解进行改进,提取能量特征,再利用优化支持向量机进行故障识别。汪朝海等[8]在经验模态分解的基础上将分量能量和分量局部平均频率生成复合特征,再用主成分分析法实现故障识别。Han等[9]在两个数据集上对比了极限学习机、概率神经网络、支持向量机和随机森林(Random Forest,RF)这4种分类算法,证明RF在分类准确性、稳定性和鲁棒性上均表现更优。
为了进一步提高直升机滚动轴承故障诊断的精度,解决分类算法常用的时域特征指标在直升机部件与传递路径复杂、信号表现非平稳等条件下,在特征空间内可能存在重叠,难以充分反映信号特性,从而影响分类精度的问题,将传统时域指标和多尺度空间的思想相结合,构造能够表征更丰富信息的多尺度特征,并进行有效的特征选择处理,通过RF模型实现故障的有效分类诊断。
1 相关基本理论
1.1 时域特征指标
在滚动轴承的故障诊断中,时域特征是一类常用且有效的指标,其计算方法简单,且能表征丰富信息。时域特征根据量纲的有无可以分成两类。本文共提取出10个时域特征,其中有量纲指标4项,无量纲指标6项,各指标具体计算公式如下。
(1)
② 均方根(Xrms):有量纲指标,表征信号有效值。
(2)
③ 方差(Xvar):有量纲指标,表征信号动态分量。
(3)
④ 标准差(Xst):有量纲指标,表征信号离散程度。
(4)
⑤ 波形指标(Sf):无量纲指标。
(5)
⑥ 脉冲指标(If):无量纲指标,表征信号冲击存在情况。
(6)
⑦ 裕度指标(CLf):无量纲指标,表征设备磨损程度。
(7)
⑧ 峰值指标(Cf):无量纲指标,表征峰值在波形中的极端性。
(8)
⑨ 峭度指标(Kv):无量纲指标,表征波形平缓程度。
(9)
⑩ 偏度指标(Sv):无量纲指标,表征信号分布的非对称性。
(10)
1.2 ReliefF算法
Relief算法始于1992年,被用来处理二分类下的特征选择问题。该算法通过特征与类别之间的关联性为特征赋予权重,关联性取决于特征对相近样本的区分能力,区分能力强,关联性大,权重也大,根据被赋予权重的大小来选择更敏感的特征。但是Relief只能解决二分类问题,为解决多分类的问题,ReliefF算法应运而出,其主要思想是一个具有良好分类效果的特征会具有凝聚同类样本、疏远异类样本的能力,该算法性能更强、更稳定[10]。
ReliefF的具体计算流程如下[11]。
设样本集为D,随机从D中抽取出的样本为R,抽取共m次。
① 将全部特征权重置0,即w(F)=0,其F=1,2,…,n,其中n为特征总数。
②Hj(j=1,2,…,k)为从R的同类别样本集中抽取的k个最近邻样本,另外从R的各个不同类别样本集中均抽取k个最近邻样本Mj(C)(j=1,2,…,k),其中C≠Class(R)。
③ 计算每个特征的权重。第F个特征的权重W(F)可由式(11)计算。
(11)
式中:p(C)和p(Class(R))都表示相应类别的概率;diff(F,R1,R2)为样本R1和R2在第F个特征上的距离,代表差异度,计算方法如下。
如果特征是离散型,则有:
(12)
如果特征是连续型,则有:
(13)
式(11)中的diff(F,R,Hj)和diff(F,R,Mj(C))可依据式(12)和式(13)计算。
④ 由于样本随机抽取m次,循环步骤②和步骤③共m次,完成n个特征权重的迭代更新,式(11)中的下标i是指第i次循环。
⑤ 循环完成后,选择大权重的部分特征组成优化特征子集,用于后续的应用。
1.3 随机森林(RF)
RF是一种集成式分类器,它是由很多随机生成的决策树集成而来。每棵决策树是独立弱分类器,当有未知类别样本输入时,每棵决策树都会独立进行判断,再按“少数服从多数”原则,投票得到该样本的类别[12]。
分类回归树(Classification and Regression Tree,CART)在目前的决策树构造算法中十分典型。CART算法是一种二分递归分裂算法,选择基尼(Gini)指数作为属性度量指标。Gini指数通过考虑属性所有可能的二元分裂,最终按照Gini指数最小时的模式进行分裂,当前样本集将分裂为两个子集[13]。CART算法在此规则下,由上至下不断分裂,直到出现叶节点停止,完成决策树的构造。
RF的具体实现流程如下[14]。
① 利用Bootstrap重采样算法,有放回地随机抽取样本,生成k个子样本集,即RF的规格为k。
③ 将测试样本输入到由前两步得到的RF模型,每个分类二叉树都会产生一个分类结果,按照“少数服从多数”的原则,根据全部k个结果投票确定最终分类结果。
2 多尺度特征构建
传统的各种时域特征指标,无论有无量纲,都是在单一尺度下进行分析。但由于直升机系统部件和传递路径复杂,因此采集到的信号中可能包含多个信号源。并且考虑到信号的非平稳性,单一尺度下的特征在特征空间内可能会有重叠,难以充分反映信号特性。综合上述考虑,这里参考多尺度概念[15],考虑信号在多个尺度下的特征,以保证信号的整体完整性信息和局部细节信息[16],提出多尺度特征指标,反映信号在多尺度空间中的特性。
首先对原始时域信号进行不同尺度的粗粒化处理,得到其在不同尺度下的分布。对于时域序列x={x1,x2,…,xn},进行长度为τ的信号分割,其中第j个信号段为
(14)
具体粗粒化处理过程如图1所示,得到相应粗粒度序列y(τ)如下:
图1 粗粒化过程
(15)
式中:τ为尺度因子。
对不同尺度的粗粒度序列y(τ)进行各项时域特征的提取,即可得到所需多尺度特征。由于当τ=1时的多尺度序列y(1)即为原始时域序列x,此时计算得到的即是传统时域特征。
3 基于多尺度空间的故障诊断算法
为了更好做到滚动轴承健康类别的区分,达到更高分类精度,需要提取能够表征轴承状态的有效特征。本研究在传统时域指标的基础上,结合多尺度空间对特征空间重叠和信号跨尺度复杂性问题的优势,构建多尺度指标。同时为了降低多尺度指标对计算成本的压力并剔除分类无用特征,采用ReliefF算法进行特征筛选,筛选后的特征将用于RF模型的训练和滚动轴承故障分类。该算法流程图如图2所示。
图2 算法流程图
该算法具体流程如下。
① 对采集到的7种健康状态的轴承数据进行各自的多尺度空降构建,其中尺度因子τ的选择范围在1~10之间,对得到的多尺度序列分别进行10种特征指标的提取,由此每个信号都会对应一个100维的原始高维多尺度特征集。该特征集能够表征不同尺度下的信号特征,反映相应健康状态信息。
② 为了对原始高维多尺度特征集进行冗余和负面特征的剔除,同时减轻计算成本,选择ReliefF算法,根据特征对相似样本的分类能力,对全体特征进行权重分配。对相似样本的区分效果越好的特征将会被赋予越大的权重。选择权重最大的一部分特征用于之后RF模型的构建和测试。
③ 随机抽取全体信号样本的60%作为训练集,利用训练集的敏感多尺度特征和标签进行RF模型的训练,剩余40%用于模型测试。RF综合所有子分类器的结果进行投票,占比最大的类别被确定为最终分类结果。
4 试验验证
为了对所提出的算法进行有效性验证,选用凯斯西储大学的公开滚动轴承数据进行分析[17]。图3为试验台结构,左侧为产生动力的驱动电机,中间为扭矩传感器,右侧为施加载荷的测力计,试验轴承用于支撑电机转轴,在电机的驱动端和风扇端均装有振动加速度传感器。
图3 凯斯西储大学试验台[17]
分析所用的轴承数据采样频率为48 kHz,轴承健康类型共7种包括:健康轴承,以及携带0.007 in和0.021 in内圈、外圈、滚动体故障的6种故障轴承。其中每种健康类型均安排电机负载为1马力、2马力(1马力=0.75 kW)下的各100个样本。为了增加分类的难度,在采集到的信号中均加入噪声,以达到在负载变化的条件下,有效识别不同类型、不同程度轴承故障的目的。每种健康类型中随机抽60%用作训练集,剩余40%用作测试集。表1为样本安排情况。
表1 样本安排情况
将所有样本数据均按照最大尺度τ=10进行粗粒化处理,构造多尺度序列空间。再对每个尺度下的粗粒度序列均进行10种特征的提取,即每个样本将对应一个100维的原始高维多尺度特征。
由于每个特征的分类能力不一致,并且100维的特征会给计算成本带来压力,通过ReliefF算法对每个特征的分类能力进行评估,并赋予相应权重,特征分类能力越强,权重将越大。图4为原始高维多尺度特征经过ReliefF算法得到的权重图,其中横坐标是全体特征的编号,第1~10个特征对应尺度因子τ=1,第11~20个特征对应尺度因子τ=2,后面同理。
图4 原始高维多尺度特征权重分布
为了与不考虑多尺度下的10个原始时域特征做对比,在原始高维多尺度特征中选择权重最大的前10个特征作为敏感特征,用作RF的输入。每种健康类型中随机抽60%用作训练集,剩余40%用作测试集。图5为该算法最终得到的分类结果。横轴表示测试样本编号,1~80、81~160、161~240、241~320、321~400、401~480、481~560依次指表1中的7种健康状况。纵轴为7种健康状况相应类型标签。可以看到所提出的算法达到了95.18%的分类精度。
为了证明所提出的算法的优势,将不考虑多尺度下的10个原始时域特征作为输入进行对比,分类结果如图6所示,分类精度为93.39%。可以看出输入特征数目相等的情况下,多尺度特征和ReliefF的结合能够为分类提供性能更好的特征。
图6 原始时域特征分类结果
另外,为了说明RF算法的优势,在输入同样是前10个敏感多尺度特征的前提下,选择K最邻近(K-Nearest Neighbor,KNN)算法和朴素贝叶斯(Naive Bayes,NB)算法进行对比,相应分类结果如图7所示。KNN算法对应精度为80.36%,NB算法对应精度为91.96%,均低于RF算法的精度,能够看出RF在该方法中的优势。
图7 KNN算法和NB算法分类结果对比
5 结束语
本文围绕提高直升机滚动轴承故障诊断精度问题,结合传统时域特征和多尺度空间的优势,提出多尺度特征的概念,结合ReliefF算法的特征选择功能和RF算法集成学习优势,提出一种基于多尺度空间的直升机滚动轴承故障诊断方法。利用公开数据集对所提出的方法进行验证和对比。可以看出,所提出的方法针对7种健康状况轴承可以达到95%以上的分类精度,相较于原始时域特征达到的93.39%分类精度,以及KNN算法80.36%的分类精度、NB算法91.96%的分类精度,都有明显提升,说明其具有良好的可行性。然而所提出的算法目前仅应用于定转速、定负载工况下的轴承数据,针对变转速、变负载等工况还有待进一步研究。