基于级联森林模型的液压泵信息融合状态诊断

2024-01-16原慧军王雨川

机床与液压 2023年24期

原慧军，王雨川

(1.山西机电职业技术学院电气工程系，山西长治 046011；2.山西大同大学煤炭工程学院，山西大同 037009)

0 前言

液压泵是一种可以实现高效响应、大幅调速以及高功率输出的动力设备，在工程机械设备液压驱动领域发挥了重要作用[1]。液压泵属于液压系统的一个最关键组件，它可以为系统提供所需的动力来源，该泵的实际运行状况对液压系统控制性能与动力传输效率都发挥着重要作用，并且设备的整体动力输出稳定性也受到液压系统的直接影响[2-3]。

现阶段针对液压泵开展的健康状况诊断基本是以单独振动或压力信号作为判断条件，对于实际工况来说，由于存在多种复杂振动源[4]，只根据单一压力或振动信号进行处理容易引起诊断结果的波动变化。综合运用不同类型的传感器进行信号分析时，可以实现液压泵运行状态的准确判断，显著提升系统的分辨精度与运行稳定性，使系统成本得到有效控制[5-6]。与单传感器相比，设置多传感器后可以获得更多的有用信息。信息融合是对各类信息的多级处理过程，可以将它看作对上级信息的重新加工和抽象计算[7]。目前，已有很多学者在健康诊断过程加入信息融合的方法进行研究[8]。任凤娟[9]通过BP网络诊断多路信号，以D-S理论对结果实施融合，促进了液压系统诊断精度的显著提升。刘思远等[10]分别对各种磨损程度的液压滑靴测试了振动、出口流量与压力烈度因子，再根据上述参数构建得到多信息决策融合算法，由此完成对磨损程度的准确判断。LU等[11]则分别以泵级、液压动力级与执行级信号建立相应的概率分配函数，之后通过相似距离D-S理论进行决策融合，从而达到泵故障诊断的效果。

深度森林模型属于一种根据决策树建立得到的深度模型，具备快速训练、模型参数少以及准确率高的多项优势[12]。本文作者综合运用传感器数据融合与级联森林模型来实现液压泵的健康评价，同时运用特征级与决策级融合技术实现对柱塞泵各传感器信息的快速融合，以随机森林模型评价初步特征的重要性，并从中选择具备高重要度的初始特征参数，通过级联森林模型对液压泵健康检测结果实施分类。

1 液压泵健康诊断流程

增加液压泵使用时间后，其磨损程度明显增大，从而造成液压泵健康状态持续恶化，产生更大程度的泄漏，并引起压力损失显著上升，因此温度、流量也受到相应的影响。文中根据实际试验环境对液压泵流量、出口压力、温度参数进行采集，完成参数样本的筛选后再以时域特征建立初期特征。根据分类器与特征筛选的方式处理初步特征，再通过拼接得到预测特征，由此达到特征融合的效果，最后构建级联森林模型评价系统健康状态。图1给出了诊断的具体流程。

图1 液压泵健康诊断流程Fig.1 Health diagnosis process of hydraulic pump

2 多传感器信息融合

将信息融合理解成是对各类信息进行多级处理的过程，各级处理都属于上级信息的抽象和再加工。同时确保信号来自同一个物理量，包含了大量融合信息，但该方法需要消耗大量时间并且缺乏良好的干扰性能。特征级融合是一种第二层次融合的方式，需从传感器初始信号中提取特征参数，接着融合上述特征参数，有效避免数据级融合单一物理量因素所产生的制约，完成压缩信号的过程，大幅简化了传输过程[12]。决策级融合属于层次最高的融合模式，需对各独立信号开展特征提取、辨别与决策，之后融合以上决策数据并获得最终结果，实现优异的抗干扰性能以及高精度的分类效果。

以上信息融合方法依次针对初始信号、数据特征以及决策结果实施融合。为了能够充分发挥信息融合过程的数据特征与决策性能，对各分类器类别概率向量和高重要度特征实施融合，把融合特征输入级联森林模型完成分类。图2给出了采用文中信息融合方法进行处理的具体原理。

图2 特征融合方法Fig.2 Feature fusion method

以随机森林模型原始输入特征实现特征数据的筛选，获得经过筛选与降维的特征Fimp；再对类别概率向量与经过处理的关键特征Fimp拼接获得融合特征。融合特征长度Fl受到类别数c、分类器数量j、特征数量Fc的共同影响。

因此上述融合特征中既包含多分类器决策数据，同时也含有原特征的关键信息。能够防止出现分类器不适用或引起特征提取结果不足的问题，更加针对性地增强特征可靠度并达到更高的准确率。

3 级联森林模型

采用宽度为k维的滑动窗口作为分析对象进行特征扫描转化。依次通过常规随机森林以及完全随机森林分类器训练各特征子样本，对各分类器进行训练后获得了一个c维概率向量，对各特征子样本处理获得类别概率向量。完成类别概率向量拼接后可获得2×m×c维转换特征向量。

级联森林模型选择与DNNs相近的层级结构，可以将之前的森林分类器输入到后一层森林分类器中进行计算，结果见图3。把上述特征向量输入级联森林结构内，再和各层算法计算得到的森林分类器结果进行概率向量拼接后组成后一层的输入，由此实现结果的准确预测。级联森林各层中都存在多个常规与完全随机森林分类器，因此模型集成表现出更丰富的多样性，森林分类器再根据特征差异确定特征指标。为防止过拟合，通过k折交叉方法对级联森林分类器进行训练验证。

图3 级联森林结构Fig.3 Cascade forest structure

4 试验方案与数据预处理

4.1 试验方案

图4给出了文中设计的液压泵测试系统，该装置包含了液压泵、电机、油箱、压力检测器、溢流阀等部件，此次选择川崎K3V系列斜盘轴向柱塞泵作为测试泵。根据表1的条件，以3种健康状态的柱塞泵开展测试：健康的1号泵、运行2 000 h后达到中度磨损的2号泵、运行时间超过3 000 h即将报废的3号泵。

表1 液压泵故障代号Tab.1 Fault code of hydraulic pump

图4 液压泵测试系统Fig.4 Hydraulic pump test system

测试期间，以PCI-E8025数据采集卡对信号采集，频率为12.5 kHz，共采样800 s。此实验使用的噪声计包含了2个通道输出，其中，通道AI10产生交流电信号，1 Vrms为噪声计范围档，通道AI11输出直流电信号，10 mV对应1 dB的噪声。

4.2 数据处理

对P1泵进行传感器信号测试，结果见图5。将噪声信号表示成电压信号的状态，以传感器测试形成的400万数据作为对象；再以随机方式从各健康状态中采集560个训练样本与240个测试样本。根据以上处理方式，完成各个模拟信号的数据分析。

图5 传感器信号Fig.5 Signals of sensor：(a)flow；(b)speed；(c) temperature

5 液压泵健康状态诊断

5.1 特征构建与模型训练

建立180维初步特征集后，容易产生数据冗余而无法获得理想的模型效果，文中综合运用决策级与特征级融合的方法实现信息融合过程并获得新的预测特征，从而大幅降低特征冗余，获得更高的模型预测精度。由图2可知，新特征包括了以下两部分内容：第一部分是通过多个分类器根据初步特征建立的类别概率向量；第二部分则是根据随机森林模型特征重要性确定的结果。

对于第一部分，可以通过初步时域特征训练各分类器得到P1、P2、P3分类概率，设置与后续深度森林模型同样比例的训练样本。对于第二部分，则利用随机森林模型评价初步特征的重要性，选择高重要度的前8个初步特征构成新特征。表2给出了前8个关键特征与含义。

表2 重要度分类Tab.2 Importance classification

分析表2时域特征可以发现：最关键的3个特征参数是泵泄油口温度、泵2与泵1出口温度，整流均值与均方根值都属于重要统计特征。由此表明可以根据柱塞泵泄油口与出口部位温度判断柱塞泵的运行情况，可以在泵健康状态诊断方面发挥重要作用。

5.2 液压泵健康状态诊断

多粒度扫描超参数包括森林分类器数量与种类、决策树个数、滑动窗口与节点分裂最小样本数量等；级联森林超参数包括森林分类器个数与种类、决策树个数与节点分裂最小样本数量。

文中在确定多粒度扫描与级联森林分类器种类时按照完全随机森林与常规随机森林相结合的形式，再根据经验设定滑动窗口依次为2、4、8，设定节点数量为5。表3所示为设定参数。

表3 级联森林模型的参数Tab.3 Parameters of the cascade forest model

文中对其中20%样本开展测试，再对其余样本进行训练。此次分类过程存在普遍性，以分类过程的2个主要参数作为评价指标，再根据以上测试集测定级联森林模型，通过计算获得了100%的分类精确率与召回率。

设定测试集比例介于30%～95%，对应训练集比例介于70%～5%，根据训练集模型获得的精确率对模型小训练样本健康状态进行评价，经分类得到表4所示参数。可知：对于小训练样本，以多传感器信息融合方法构建的级联森林模型进行预测时，可以实现对液压泵健康状态的准确诊断，只设置5%训练集时，液压泵健康诊断达到99.5%精确率。

表4 不同训练比例下诊断结果单位：%Tab.4 Diagnosis results under different training ratios Unit：%

只对第一与第二部分预测向量中的参数开展分析，再以级联森林方法完成分类，当训练集比例达到10%时，诊断结果如表5所示。分析表4-5可知：对级联森林结构部分预测向量，采用多传感器信息融合后分类效果显著降低。

表5 部分预测向量诊断结果Tab.5 Part of prediction vector diagnosis results

为深入探讨各类信息融合方法结果的差异性，根据采集端口条件设定压力、温度、流量参数，再利用以上流程对初始数据进行处理，实现时域特征参数的提取、建立特征参数并完成模型的训练过程。为了能够更加准确呈现各类预测结果，依次计算测试集占比为90%条件下P1、P2、P3精确率与召回率。表6给出了具体的组合形式与分类情况。