小样本下基于孪生神经网络的柱塞泵故障诊断
2023-02-09高浩寒潮群徐孜陶建峰刘明阳刘成良
高浩寒,潮群,徐孜,陶建峰,刘明阳,刘成良
(上海交通大学 机械系统与振动国家重点实验室,上海 200240)
液压传动具有能量密度高、响应速度快、抗负载刚度大等优点,广泛应用于各种机械设备中[1]。柱塞泵作为液压系统的关键能量转换元件,对保证液压系统的稳定性有着至关重要的作用[2]。由于长期在高温、高压、大负载等恶劣工况下服役,柱塞泵易出现各种故障,导致液压系统运行不稳定,给设备的正常运转造成严重不良影响[3]。因此,开发快速准确的柱塞泵故障诊断方法对提高液压系统的稳定性和可靠性具有重要意义。
故障诊断是根据信号在不同状态下的特征变化来判定设备的健康状态[4]。柱塞泵的故障会造成泵的振动信号和出口压力信号异常,可以反映故障位置及故障程度,因此,可以通过分析柱塞泵的振动信号和出口压力信号对柱塞泵进行故障诊断[5]。在柱塞泵故障诊断方面,许多研究者通过从原始信号中选择和提取特征,结合机器学习的方法对故障模式进行识别,取得了良好的诊断效果[6]。Lan 等[7]使用局部切空间排列算法、小波包变换等方法,从原始振动信号中提取故障特征,利用极限学习机作为故障分类器,实现了柱塞泵滑靴磨损的故障诊断。Lu 等[8]对泵出口压力信号进行集合经验模态分解(ensemble empirical mode decomposition, EEMD)得到本征模函数(intrinsic mode function, IMF),并从敏感IMF 中提取出时域、频域和时频域特征作为故障特征向量,最后构建支持向量回归模型实现对航空泵不同故障程度的识别。杜振东等[9]对提取的振动信号特征进行敏感度分析,找出敏感度较高的特征参数,然后将所提取特征以向量的形式输入概率神经网络进行训练和测试。王鹏飞等[10]通过希尔伯特变换(Hilbert transform, HT)对原始振动信号进行解调,根据包络谱上供油频率及其倍频处的峰值构造特征向量,最后采用支持向量机(support vector machine, SVM)对柱塞泵负荷状态进行识别。可见,这些方法主要集中在特征提取与故障分类器的构建2 个方面,虽然取得了较好的效果,但同时存在明显的不足:需对原始信号手动提取特征,特征的选择依赖丰富的经验知识;不同的特征提取方法在适用性上存在局限性,方法泛化能力较差;割裂了特征提取过程和故障诊断过程,难以得到最优解[11]。
自2006 年Hinton 等[12]提出深度学习理论框架以来,深度神经网络受到学者们越来越多的重视,并在计算机视觉[13]、自然语言处理[14]、图像处理[15]等领域取得了巨大的成功。深度神经网络可以利用层数优势,从原始输入信号中逐层进行非线性转化,自动进行特征提取[16]。卷积神经网络(convolutional neural networks, CNN)是深度神经网络的典型代表,其利用卷积核从数据中提取从浅层到抽象的特征。同时,卷积神经网络采用权值共享与局部连接的网络结构,有效地减少了模型复杂度与训练参数量。近年来,卷积神经网络在故障诊断中的应用越来越广泛[17]。魏晓良等[18]利用长短时记忆网络(long short-term memory, LSTM)和一维卷积神经网络(1D-CNN)搭建分类模型,将不同进口压力情况下的振动信号作为输入,进行柱塞泵空化等级识别。Sun 等[19]使用短时傅里叶变换和小波变换得到液压泵振动信号的时频图,构建二维卷积神经网络进行特征提取与故障分类。Xu 等[20]通过改变离心泵振动信号的排列方式,将一维振动信号转变为二维灰度图像,利用二维卷积神经网络提取灰度图中的特征,实现了离心泵故障部位的诊断。Wang 和Xiang[21]使用最小熵反褶积(minimum entropy deconvolution, MED)对原始信号进行预处理,基于卷积神经网络构建故障诊断模型,实现了对轴向柱塞泵的多故障分类。相对于传统机器学习算法,这些方法能够自动提取特征,具有更高的准确率,但是他们都要求足够多的样本来训练模型。而在实际工程中,复杂的环境往往导致无法获得各种故障状态的足够样本,在小样本条件下,这些模型难以奏效。
孪生神经网络(Siamese network, SN)是一种基于样本相似度的模式识别方法,该方法使用2 个权值共享的子网络同时接收2 个输入样本,输出结果为2 个样本的相似度[22]。当训练样本的数量为m时,每次训练向孪生神经网络输入2 个样本,可以对模型进行 C2m次有效训练。因此,在小样本的情况下,孪生神经网络可以扩大模型的训练次数,深度挖掘不同样本之间的关系,避免因样本数量不足导致的网络欠拟合等问题[23]。现阶段,孪生神经网络主要应用于人脸识别[24]、语音处理[25]、签名验证[26]等领域,但在机械设备故障诊断领域的研究应用较少。
针对当前基于深度神经网络的柱塞泵故障诊断方法在小样本条件下表现欠佳、准确率低的问题,利用孪生神经网络小样本分类的优势,提出了基于孪生神经网络的小样本柱塞泵故障诊断方法。建立孪生子网络从柱塞泵振动信号中提取低维特征,利用距离度量得到特征的相似度作为分类依据。结果表明,在小样本条件下,所提方法相较现有方法拥有更高的准确率。
1 实验方案与信号采集
为了获取柱塞泵不同健康状态的数据,验证孪生神经网络故障诊断方法的优越性,搭建了柱塞泵故障模拟实验台,如图1 所示。
图1 柱塞泵实验台原理Fig. 1 Schematic diagram of axial piston pump test bench
电机通过联轴器带动被测高速柱塞泵转动,转速扭矩仪用来测量柱塞泵的转速v与输入扭矩T。进口调压阀组和溢流阀可以调节被测柱塞泵的进口压力和出口压力,从而使被测泵能够在额定工况下运行。温度传感器用来监测油液温度,使油液温度 θ保持在90 ℃左右,避免温度波动对泵性能的影响。在出油管路安装有压力传感器和流量计,用于采集被测泵的出口压力P和流量Q。安装在回油管路的流量计用于采集泵的回油流量。被测泵的额定参数如表1 所示。
表1 被测泵的额定参数Table 1 Rated parameters of tested pump
为获得壳体振动信号作为故障诊断模型的输入,在泵壳体上安装有三通道振动加速度传感器,采集泵不同健康状态下3 个方向的振动信号。振动加速度传感器的安装方式和位置如图2 所示,其中,x方向与y方向如图2 所示,z方向为垂直纸面向外。
图2 振动传感器的安装Fig. 2 Installation of acceleration sensor
磨损故障是柱塞泵最常见的失效形式,因此,对柱塞泵进行磨损故障诊断有着重要的意义。柱塞泵的磨损主要发生在滑靴副与配流副[27],为了采集柱塞泵在磨损故障时的数据,需要对被测泵进行故障注入。测试泵装配时,分别将滑靴副间隙按0.05 mm,0.15 mm,0.2 mm 增大调整,模拟滑靴的轻度磨损、中度磨损和严重磨损;采用剪短1.0 mm,3.6 mm,5.6 mm的缸体转子弹簧进行装配,模拟配流副的轻度磨损、中度磨损和严重磨损。在柱塞泵故障实验过程中,控制被测泵在表1 所示的额定工况下运行,通过调整滑靴副装配间隙和转子弹簧长度,使被测泵出现不同的故障,共得到1 个正常状态与6 种故障状态。被测柱塞泵健康状态、故障注入方式与状态标签如表2 所示。
表2 被测泵的健康状态、故障注入方式与状态标签Table 2 Health states, fault injection modes and labels of tested pump
根据本节讨论,通过柱塞泵故障实验台采集7 种健康状态下的泵壳体振动信号,采样频率为10 240 Hz,每种健康状态分别采集X通道、Y通道与Z通道的61 440 个点。图3 为5 种代表健康状态下的x轴振动信号。可以看出,不同健康状态的振动信号有所差异,但是难以直接根据原始信号确定柱塞泵的故障种类与故障程度。实际工程应用中要求在小样本条件下,能够快速准确地识别出故障,因此,本文提出了基于孪生神经网络的小样本柱塞泵故障诊断方法。
图3 不同健康状态的振动信号Fig. 3 Vibration signals for different health states
2 基于孪生神经网络的故障诊断
2.1 卷积神经网络
卷积神经网络是深度神经网络的代表,典型的卷积神经网络由卷积层、池化层和全连接层等部分组成,其结构如图4 所示。通过堆叠多个卷积层和池化层,网络可以从原始输入信号中自动逐层提取特征,并且可以通过增加网络的层数提高特征的抽象性[28];最后将提取的特征送入全连接层进行分类输出结果。
图4 典型卷积神经网络结构Fig. 4 Typical structure of a convolutional neural network
2.1.1 卷 积 层
卷积层也被称为特征提取层,是卷积神经网络的核心。一个卷积层包含许多卷积核,卷积核的参数可以通过梯度下降法迭代更新。每个卷积核具有较小的感知区域,但可以通过遍历扫描的方式延伸到输入卷积层的所有数据。多个卷积核与输入数据进行卷积运算,就可以从输入数据中提取到一系列的特征。卷积层运算的数学表达式为
2.1.2 池 化 层
通过卷积层获得了输入的特征,但这个特征往往维度较大,训练时计算困难。为了减少网络的训练参数,防止网络出现过拟合,同时突出重要的特征,通常在2 个卷积层之间加入池化层,对特征矩阵进行降采样。通常卷积神经网络采用最大池化的方法,即取池化核范围内的最大值,其表达式为
2.1.3 全连接层
经过多个卷积层与池化层的交替处理,可以从输入数据中得到维度较低的特征矩阵。将提取的二维特征矩阵展成一维特征向量,作为全连接层的输入。
2.1.4 激活函数
激活函数的作用是对输出结果进行非线性变换,提高模型的表达能力。常用的激活函数有ReLU、sigmoid、tanh,表达式为
2.2 孪生神经网络
当样本类型较多,每类样本数量又较少时,传统神经网络没有充足的样本训练,容易造成网络的欠拟合,难以训练出好的分类器。这种情况下,可以通过对比样本间相似度的方法扩大训练次数。孪生神经网络就是基于样本相似度的方法,可以从输入样本中学习不同样本的相似性度量,在测试时,根据相似性程度判定未知分类的样本属于哪一类别。孪生网络的结构如图5 所示。
由图5 可知,孪生神经网络需要成对的样本(x1,x2,y)作 为 输 入,其 中y= 1 表 示 输 入 样 本x1和x2属 于同一种健康状态,y= 0 表示输入样本x1和x2不属于同一种健康状态。本文所提方法使用原始振动信号作为孪生神经网络的输入,从而实现端到端的故障诊断。通过权值共享的子网络从原始数据中提取低维特征,在低维空间使用距离进行相似度的对比。常用欧氏距离作为度量式:
图5 孪生神经网络结构Fig. 5 Structure of Siamese neural network
式中:sigm 为sigmoid 函数;P(x1,x2)为样本对的差异度。
使用交叉熵作为孪生神经网络的损失函数,单次训练的损失函数为
通过式(8)确定了损失函数之后,就可以使用梯度下降算法对孪生神经网络的子模型进行训练。孪生网络的训练目标是,当输入样本x1和x2属于同一种健康状态,输出差异度尽可能接近于0;当输入样本x1和x2不属于同一种健康状态,输出差异度尽可能接近于1。
2.3 故障诊断模型
在分析卷积神经网络和孪生神经网络的原理之后,提出基于孪生神经网络的小样本柱塞泵故障诊断模型。模型的输入信号是柱塞泵壳体的振动信号样本对,输出是样本对是否来自同一种健康状态。网络的结构如图6 所示,孪生神经网络的子网络采用2 个卷积神经网络,他们权值共享,同步更新。子网络堆叠了5 层卷积池化层,用来从原始振动信号中提取低维特征,随后求出2 个低维特征的欧氏距离,并计算2 个输入样本是否来自同一健康状态。网络各层的具体参数如表3 所示。
表3 孪生神经网络主要结构参数Table 3 Main structural parameters of Siamese neural network
图6 孪生神经网络故障诊断模型结构Fig. 6 Structure of fault diagnosis model based on Siamese neural network
如图7 所示为基于孪生神经网络的故障诊断模型的训练与测试步骤,具体如下:
图7 孪生神经网络故障诊断流程Fig. 7 Process of fault diagnosis based on Siamese neural network
步骤 1 数据集划分。对采集到的原始振动信号进行切片,划分出训练集与测试集。
步骤 2 训练模型。从训练集中随机抽取2 个训练样本组合成样本对作为孪生神经网络的输入,按照式(8)计算损失函数,利用梯度下降算法更新模型参数。当模型收敛或达到设定训练次数时,停止训练并保存模型。
步骤 3 未知样本故障诊断。对于一个健康状态未知的测试样本,从7 类健康状态的训练样本中分别随机选1 个样本,构成7 个样本对。将7 个样本对依此输入孪生神经网络,得到测试样本与7 个训练样本属于同一类的概率,选择概率最大值的健康状态作为测试样本的健康状态,这种测试方式被称为“one-shot”测试。
3 实验结果及分析
3.1 训练集与测试集划分
根据第1 节的描述,采集7 种不同健康状态下的柱塞泵壳体3 个通道的振动信号,每个通道振动信号的长度为61 440 个点。使用一半的采样点生成训练集,另一半生成测试集。训练样本由1 024 个采样点组成,每2 个训练样本之间滑动50 个采样点;测试样本的长度与训练样本相同,但测试样本取样时没有重叠部分。测试集与训练集划分过程如图8 所示。
图8 训练集与测试集划分Fig. 8 Division of training set and testing set
根据本节上述讨论,每种健康状态得到600 个训练样本与30 个测试样本,7 种健康状态共得到4 200 个训练样本与210 个测试样本,如表4 所示。
表4 数据集划分Table 4 Data set division
3.2 训练样本数量对诊断结果的影响
为了验证所提方法在小样本条件下的性能,利用X通道采集到的振动信号,依照3.1 节划分数据集,从训练集中依次随机选择35,70,140,210,280,350,490,700,1 400,2 100,2 800,3 500,4 200 个训练样本作为孪生神经网络的输入,依照第2 节的描述建立故障诊断模型并对模型进行训练。与此同时,建立一维卷积神经网络模型和支持向量机模型作为对比,使用同样数量的训练样本进行训练。其中1D-CNN 的参数与孪生神经网络子网络一致;SVM 选用径向基(radial basis function, RBF)核函数,惩罚系数C设为10。训练完成后,将全部210 个测试样本输入到3 个模型进行测试。每组实验均重复5 次取平均,最后诊断结果如图9 与表5 所示。可以看出,SVM、1D-CNN 和本文所提方法的识别准确率都随着训练样本数量的增加而提高,当训练样本的数量达到1 400 时,3 种方法的准确率都能达到95%以上,均能达到较高的分类精度。然而在训练样本数量为35 到350 的小样本条件下,本文所提方法的识别准确率明显优于1D-CNN 和SVM。特别是当训练样本数量为140 时,本文所提方法的识别准确率达到90%以上,识别准确率比1D-CNN高27.24%,比SVM 高39.72%。在训练样本数量仅有35 的极端小样本条件下,本文所提方法仍能有70.86%的准确率,远远高于同条件下的1D-CNN 模型和SVM。说明了所提方法在小样本条件下故障诊断的优越性。
表5 不同训练样本数量下对各模型的诊断结果Table 5 Diagnosis results of models under different number of training samples
图9 训练样本数量对诊断结果的影响Fig. 9 Influence of number of training samples on diagnosis results
3.3 通道数量对诊断结果的影响
柱塞泵发生故障时,对壳体产生的振动冲击在不同方向上是不一致的,不同方向的振动信号都能在一定程度上反映柱塞泵的故障信息,因此只使用X单通道的振动信号,不能充分利用采集的数据。为了验证通道数量对诊断结果的影响,基于多通道数据融合的思想,在3.2 节的基础上,分别使用单通道(X通道)、双通道(X与Y通道)和三通道(X、Y和Z通道)的振动数据,按照同样的方式划分数据与训练模型,得到了通道数量对诊断结果的影响,如图10 与表6 所示。可以看出,通道数量对识别准确率有明显的影响。总体而言,随着通道数量的增加,识别准确率也越高,尤其是当训练样本数量为70 到490 的小样本情况下,三通道的识别准确率明显高于双通道与单通道。例如,当训练样本数量设置为70 时,仅使用X通道的信号,故障识别准确率为78.38%;使用X通道与Y通道的信号,故障识别准确率提升为91.24%;同时使用X、Y和Z这3 个通道的信号,故障识别准确率达到了95%以上,能够满足极少样本下故障诊断的要求。这说明模型能够从不同通道的信号中学习到有关的故障信息,有助于提高模型的诊断精度,验证了多通道数据融合的优势。
图10 通道数量对诊断结果的影响Fig. 10 Influence of channel number on diagnosis results
表6 不同通道数量下的诊断结果Table 6 Diagnosis results under different number of channels
3.4 模型可视化
孪生神经网络在小样本故障诊断中的效果得到了初步验证,但学习过程难以表达。为了直观理解本文所提方法对原始信号的特征提取过程,在训练样本数量为140 的小样本情况下,使用T 分布随机近邻嵌入(T-stochastic neighbor embedding, T-SNE)降维的方法对本文模型提取的特征进行降维与可视化,如图11 所示,其中图11(a)为孪生神经网络的全连接层输出的降维可视化情况,图11(b)为1D-CNN 的全连接层输出的降维可视化情况。同时给出此时2 种方法在测试集上的故障诊断混淆矩阵,如图12 所示。可以看出,相较1D-CNN,本文所提方法能将同一健康状态的数据更好地聚集在一起,不同健康状态的数据具有较好的可分性,在测试集上的识别精度也更高,验证了孪生神经网络能从原始时域振动信号中自适应提取有效的特征,从而实现小样本情况下的故障诊断。
图11 提取特征的T-SNE 可视化Fig. 11 T-SNE visualization of extracted features
图12 模型诊断结果混淆矩阵Fig. 12 Confusion matrix of model diagnosis results
4 结 论
针对小样本条件下已有的基于深度神经网络的柱塞泵故障诊断方法准确率低、模型欠拟合问题,提出基于孪生神经网络的柱塞泵小样本故障诊断方法。
1) 过卷积层和池化层直接从原始振动信号中提取特征,从而避免了人工选取特征的局限性,提高了模型的泛化性能。
2) 出基于孪生神经网络的柱塞泵故障诊断方法。使用欧式距离判定样本对特征的相似度,使用相似度对比的方法扩大训练样本数量。相比于SVM、1D-CNN,本文所提方法在小样本情况下具有更高的准确率。在训练样本数量为140 的小样本条件下,所提方法的识别准确率达到90%以上,比1D-CNN 高27.24%,比SVM 高39.72%。
3) 用多通道数据融合的方法可以有效提高识别准确率。实验验证,随着输入信号通道数量的增加,识别准确率随之增加。当训练样本数量为70 时,使用三通道的振动数据,识别准确率达到95%以上,表明本文所提方法能从不同通道的信号中学习到有关的故障信息,验证了多通道数据融合的优势。