基于教师-学生网络的半监督故障诊断模型

2024-03-02高玉才付忠广谢玉存王诗云

振动与冲击 2024年4期

高玉才, 付忠广, 谢玉存, 王诗云

(1.华北电力大学电站能量传递转化与系统教育部重点实验室,北京102206;2.中国移动杭州研发中心北京业务支持中心,北京102206)

旋转机械如汽轮机、风力发电机、涡轮机、压缩机等在现代工业中扮演着十分重要的角色,广泛应用于航空航天、电力、石油化工等行业。然而,随着旋转机械工作负载的变化和运行时间的增长,机械故障日益频发。因此,快速、准确地进行旋转机械的故障诊断对于保障机械设备的安全和稳定运行意义重大。

深度学习是一种基于神经网络的机器学习方法,具有优秀的特征提取和分类能力,能够自动从大量数据中学习并提取有用的特征,实现端到端的学习,同时具有高准确率和适应性强的优点。例如,深度学习模型可以应用于传感器数据的分析和处理,使用加速度计、振动传感器和温度传感器等多种传感器来收集旋转机械或者轴承的振动信号、温度信号和电流信号等数据,进行故障诊断,基于纯监督学习的深度神经网络技术在旋转机械故障诊断领域已经得到广泛的应用[1-2]。文献[3]运用动态加权的多尺度残差网络用于旋转机械故障诊断,通过使用动态加权层给全局信息建模,以便捕获特征通道之间的动态非线性关系,同时对每个尺度的特征通道进行重新标定,提高网络对故障信息的敏感性。Mo等[4]提出一种基于一维变分卷积核的卷积神经网络 (convolutional neural network,CNN)网络模型用于机械故障诊断中的时间信号处理,试验结果表明模型在有限的训练数据集下具有更好的诊断效果。Yoo等[5]利用CNN进行旋转机械的剩余使用寿命预测,通过连续小波变换提取小波时频图像,然后将时频图像作为卷积神经网络的输入特征用来预测设备的剩余使用寿命。

深度学习模型需要大量标注数据进行训练,而标记数据的获取成本高昂、耗时且需要专业的知识。此外,当遇到新的故障类型时,需要重新标记数据并重新训练模型,极大限制了其实际的应用。在实际应用中,往往会面临有标签数据不足的问题,导致深度模型难以训练和优化。为解决这一问题研究者们提出了迁移学习[6]、半监督学习[7]等方法,以充分利用未标注的数据信息,提高神经网络的训练效率和抗干扰能力。Wen等[8]提出了一种深度迁移学习方法,通过最小化最大均值差异来缩小不同数据集之间的特征表示,提高了电机轴承故障诊断精度。Shao等[9]提出一种基于改进卷积神经网络和迁移学习方法的旋转机械故障诊断新框架,通过参数迁移的方法使模型适应目标域数据,试验结果表明所提方法在轴承系统故障诊断方面优于其他方法。刑晓松等[10]提出一种基于生成对抗网络的半监督学习方法用于轴承的故障诊断,通过引入特征匹配算法,结合半监督学习充分利用有标签数据和无标签数据进行模型训练,使得模型具有更高的分类准确率和更快的收敛速度。

在基于深度学习的故障诊断模型中,LeNet5网络属于卷积神经网络的典型代表,由于共享局部权值,相比于全连接神经网络,参数量大为减少,可以快速地运行在GPU上,降低了训练难度,提高了模型的计算速度和效率,可以快速验证算法的有效性。随着研究人员对神经网络研究的深入,在LeNet5网络模型的基础上提出了一系列改进方法,如加入批量归一化层(batch normalization,BN)和使用ReLU激活函数,使得模型的性能得到进一步大幅度的提高。神经网络模型一般通过反向传播算法优化模型参数,容易产生震荡现象,指数加移动平均(exponential weighted moving average,EWMA)算法是通过对历史参数的加权平均来平滑更新参数的过程,能够减少参数更新时的方差和偏差,从而有效地防止过拟合和训练过程不稳定现象的发生。

基于以上分析,本文提出一种基于连续小波变换和教师-学生网络的半监督旋转机械故障诊断模型,模型包含教师网络和学生网络,教师网络需要指导学生网络模型参数的学习,同时,教师网络模型的参数在学生网络模型训练的过程中通过指数加权移动平均算法得到更新;指数加权移动平均算法能够使得教师网络模型参数更加平缓地变化,在指导学生网络模型参数训练的过程中能够避免学生网络模型参数出现大幅度震荡,从而加快模型参数收敛。本文首先将旋转机械的一维振动信号通过连续小波变换转换为三维时频图像;然后以改进LeNet5卷积神经网络模型为基础建立学生网络模型和教师网络模型,通过教师网络模型的输出和有标签数据样本指导学生网络的训练,同时使用指数加权移动平均算法更新教师网络的参数,最后在转子试验台上对所提方法进行验证和分析。

1 方法

1.1 数学方法原理

1.1.1 连续小波变换原理

连续小波变换(continuous wavelet transform,CWT),是一种基于小波分析的信号处理技术,被广泛应用于信号压缩[11]、边缘检测[12]、图像处理和模式识别[13]等领域。相对于傅里叶变换和短时傅里叶变换等传统方法,小波变换具有更好的时域局部化性质和多分辨率分析能力。小波变换的原理是通过将信号分解成多个不同尺度的小波基函数实现信号的时频分析。小波基函数是一种紧凑且局部化的基函数,具有高度自相似性,通过与原始信号进行卷积运算可以提取小波系数。对于能量有限信号f(t)∈L2(R),小波变换的表达式为

(1)

式中:ψa,b(t)为小波基函数;a为尺度因子;b为平移因子;CWT为对原始信号进行小波变换后得到的小波系数,它能更好地表示信号的局部特征。

Morlet小波基是小波分析中常用的小波基函数,它是在频域和时域上为有限值的复值函数,其数学表达式和傅里叶变换后的表达式分别为

(2)

(3)

式中,ω0为小波基函数的中心频率。Morlet小波基具有高度的自相似性和良好的频谱局部化性质,能够较好地适应非平稳信号,在非稳态信号处理和特征提取方面具有优异的表现,因此在故障诊断方面具有广泛的应用。

1.1.2 LeNet5卷积神经网络原理

LeNet5神经网络是由Lecun等[14]在1998年提出,是卷积神经网络的开山之作,可以处理图像数据,适用于许多计算机视觉任务,通过引入卷积层和池化层,大大减少了神经网络的参数数量,降低了过拟合风险。LeNet5网络结构如图1所示:前五层由卷积操作和池化操作交替进行,然后输出到全连接层,最后通过Softmax分类器输出分类结果。虽然原始的LeNet5神经网络在当时表现出很好的性能,但随着图像识别任务越来越复杂,已经很难满足需要,在此基础上,研究人员提出许多改进方法,其中最主要的成就是批量归一化层的使用和激活函数的改进,本文所使用的LeNet5卷积神经网络加入了批量归一化层并使用ReLU激活函数。

图1 LeNet5卷积神经网络结构

1.1.3 批量归一化

批量归一化[15]是深度神经网络中常用的一种技术,用于加速网络训练,提高模型的泛化性能。BN层的数学表达式为

(4)

(5)

1.1.4 ReLU 激活函数

激活函数是神经网络模型的关键组成部分之一,它通过对输入数据进行非线性化转换提高模型的表达能力,因此激活函数的选择可以对神经网络的性能产生重大的影响。线性激活单元(rectified linear unit,ReLU)是一种非常简单的激活函数,其数学表达式为其中x为神经元的输入,f(x)为神经元的输出,激活函数的作用就是将神经元的输入映射到输出,以便在网络中传递信息。ReLU的计算只设计简单的比较运算和取最大值操作,不需要复杂的数学运算,非常适合用于大规模的神经网络,当输入为正数时,ReLU的导数恒为1,同时具有计算速度快和避免梯度消失的优点,可以提高神经网络的性能和效率,因此得到广泛的应用。

1.1.5 指数加权移动平均算法

指数加权移动平均算法是一种常用的时间序列平滑方法,可以用于对数据进行平滑处理,其原理是对历史数据进行加权平均,权重随着时间的推移而指数级别的减小,在保持数据趋势的同时减少异常值的影响。指数加权移动平均法的表达式为

EMA(t)=αP(t)+(1-α)EMA(t-1)

(6)

式中:EMA(t)为在t时刻的指数加权移动平均值;P(t)为在t时刻的实际观测值;EMA(t-1)为在t-1时刻的指数加权移动平均值;α为平滑系数,取值在0～1。

指数加权移动平均算法可用于优化神经网络的参数更新过程,在每次参数迭代更新过程中,将当前参数值与历史参数值进行加权平均,使参数的变化更加平稳,有助于减轻网络在训练集上过拟合,消除异常数据对网络的影响,可以提高模型的泛化能力和鲁棒性。

1.2 试验系统与算法流程

1.2.1 试验数据集

本文采用INV-1612柔性转子试验系统采集的数据验证算法的有效性,如图2所示。该设备是由北京东方振动和噪声技术研究所制造的一款高端试验设备,采用先进的电子控制技术和传感器技术,主要用于研究柔性转子系统的振动与稳定性,能够模拟真实的柔性转子系统工作状态,通过控制振动源的方式模拟不同的工作场景,同时对试验数据进行实时监测和分析,从而更加准确地分析柔性转子系统的动力学特性和振动响应。

图2 INV1612型多功能柔性转子试验台上的转子模型

小波时频图像反映了原始信号在不同时刻、不同频率下的能量分布,能够有效地反映了转子的运行状态信息。通过将原始信号的三维时频图像作为LeNet5卷积神经网络的输入可以对转子的运行状态进行模式识别。为转子系统的五种运行状态所对应的小波时频图像,如图3所示。

图3 小波时频图像

1.2.2 模型设计与算法流程

本文提出的半监督故障诊断模型包含学生网络和教师网络,两者具有相同的网络结构,均在LeNet5网络模型基础上改进而来,输出节点数为5,在卷积层后增加了批量归一化(BN)层,将sigmoid激活函数改为ReLU激活函数,同时在全连接层后加入Dropout层以减少网络过拟合的情况。学生网络可以同时通过两种方式进行参数更新:①利用有标签数据通过监督学习的方式更新网络参数;②利用教师网络输出软标签作为训练学生网络的监督信号。教师网络的性能由学生网络性能保障,其参数由学生网络参数通过指数加权移动平均算法获得,因此具有更高的参数稳定性和故障诊断准确率,可以生成准确可靠的伪标签指导学生网络的训练。学生网络利用真实标签和伪标签学习数据的特征表示和分布规律,通过增加的无标签数据获得更多的信息,有效缓解了有标签数据样本不足带来的过拟合问题。学生教师网络充分发挥了学生网络参数更新的高效率和教师网络的高准确率和稳定性,通过半监督学习的方式使两者结合在一起,两者相辅相成,性能共同得到提高。整体网络架构如图4所示。

图4 网络架构

损失函数由有监督损失和无监督损失两部分组成

(7)

步骤1准备数据集:数据集由训练数据集和测试数据集组成,训练数据集包括有标签数据和无标签数据,测试数据集用来评估模型的性能。

步骤2初始化模型:选择改进的LeNet5网络作为基础模型,分别建立具有相同结构的教师网络和学生网络,并对网络参数进行随机初始化。

步骤3计算学生模型的损失:在训练集中随机选取一批数据,计算学生网络预测结果与教师网络预测结果之间的均方差损失,构成无监督损失项;针对有标签数据,计算学生网络预测结果与真实标签之间的交叉熵损失,构成有监督损失项;总损失为有监督损失和无监督损失的加权和。

步骤4优化模型参数:采用自适应矩估计Adam算法(adaptive moment estimation)优化学生模型参数以降低损失函数值。

步骤6停止模型训练:重复步骤3～步骤5,直到模型的性能收敛或者达到预定的训练轮数。

步骤7模型测试:网络模型训练完成后选用准确率作为指标评估教师模型在测试集数据上的性能。

2 试验验证与分析

本文利用INV-1612柔性转子试验系统采集转子在不同运行状态下的振动数据,包括正常运行、质量不平衡故障、碰摩故障、支撑松动故障和油膜失稳故障等五种运行状态的数据。通过这些数据验证本文提出的算法的有效性,并将其与传统的基于纯监督学习的机器学习算法和半监督学习算法进行对比,比较各种算法模型在测试数据集上的分类准确率和收敛性,以进一步验证本文所提算法的有效性。

2.1 模型参数的选择与设置

本文所涉及的所有神经网络模型均采用相同的优化算法和超参数,优化算法为Adam[16]算法,该算法能够自适应地调整每个参数的学习率,从而更加高效地优化模型,同时在梯度更新时加入了动量项,能够更好地处理梯度的稀疏性和方向,加速训练过程,对参数的一阶矩和二阶矩进行自适应调整,对梯度的大小和方向估计得更为准确。Batch_Size=100,epoch=200,激活函数为ReLU激活函数,为缓解网络模型过拟合,在全连接层后加入dropout层,dropout的值为0.25,同时对权重L2正则化,正则化系数为1×10-4,平滑因子为α=0.99.改进的LeNet5神经网络的结构如表1所示。

表1 改进LeNet5网络模型的结构参数

2.2 学习率的选择

在模型训练初期,保持学习率缓慢上升,可以避免训练初期发生梯度消失或者梯度爆炸,提高模型的稳定性;网络模型训练的后期,学习率过大可能导致模型在最优点附近震荡,使得模型无法继续收敛,通过逐渐降低学习率,使得模型更快收敛,从而获得更好的训练效果。为了让模型更好更快地收敛到最优解,本文在模型训练过程中需要不断调整学习率,在前40个epoch的训练过程中,学习率以0.003×e-5(1-τ1)2的方式上升,然后保持不变,在最后的40个epoch中以0.003×e-5(τ2-1)2的方式下降,τ1,τ2∈[0,1],分别表示初期已训练epoch数和后期未训练epoch数与40的比值。

2.3 试验结果分析与讨论

为了验证本文所提方法的有效性,分别于与基于纯监督学习的LeNet-5网络、基于半监督学习算法π的模型[17]和不采用指数加权移动平均算法的教师学生网络进行对比。选取2 000个数据样本作为总数据集,其中每种运行状态的样本各400个,然后将数据集随机平均分成两份分别作为训练集和测试集,在1 000个训练集样本中,再随机分别选取10%,25%,50%,75%和100%的样本保留标签,其余训练集样本去掉标签,然后基于半监督方法训练网络模型,最后在测试数据集上验证模型效果。表2为各模型最终的识别准确率,其中LeNet5网络模型的训练过程只用到了带标签数据样本。表2中数值为十次试验结果的平均值。

表2 各模型故障识别准确率

当有50%的训练集样本保留标签时,各模型训练过程中在测试集上的准确率变化曲线图,如图5所示。

图5 四种模型在训练过程中的性能对比

其中LeNet5网络为纯监督学习模型,πmodel为半监督学习模型,教师学生网络模型中教师网络的参数与前一epoch训练后学生网络的参数相同;本文提出的方法在教师学生网络模型的基础上使用指数加权移动平均算法更新教师网络参数。从图5中可以看出,相比于其他三种方法,本文提出的基于教师-学生网络的半监督故障诊断模型具有较高的故障识别准确率,而且训练过程中收敛速度快、稳定性高,能够满足旋转机械故障诊断所需的高可靠性和高精度的需要。

2.4 分类结果的可视化

本节采用t-SNE(t-distributed stochastic neighbor embedding)算法[18]对模型在训练集上的输出结果进行降维展示,该算法通过观察数据点在高维空间中的分布情况,通过最小化高维空间中的数据点之间的相对距离与低维空间中的相对距离之间的差异,将其映射到低维空间中,在可视化高维数据方面有很好的效果。图6为本文方法在训练集数据保留25%、50%、75%和100%标签的情况下的分类效果。

从图6中可以看出,当训练集样本含有不同比例的带标签样本时,不同故障类型的数据点分布一直十分紧密,说明本文提出的半监督算法在数据的表示和特征提取上有着良好的表现,能够有效地识别和区分不同的故障类型,在旋转机械的故障诊断方面有着巨大的应用潜力。

3 结论

本文提出了一种基于教师-学生网络的半监督故障诊断模型用于旋转机械故障诊断,分别建立具有相同结构的学生网络模型和教师网络模型,在学生网络模型的训练过程中通过指数移动平均(exponential moving average, EMA)算法对教师网络模型的参数进行加权平均,教师网络的输出结果指导学生模型的训练,本文方法能够利用少量的有标签数据和大量无标签数据进行半监督学习,取得很好的故障诊断效果。

(1)相比于基于纯监督学习的leNet5神经网络模型,本文方法能够充分利用大量无标签数据提高旋转机械的故障诊断精度和模型训练过程中的稳定性,相对于较早提出的半监督学习算法π模型,本文提出的方法能够提高模型的故障诊断精度,同时模型在训练过程中的稳定性得到增强。

(2)通过t- SNE算法对转子在不同运行状态下的分类结果进行了可视化展示,进一步验证了本文方法的故障分类能力,相同故障类型的数据点紧密聚集在一起,形成了较为明显的高密度区和低密度区 ,说明本文方法能够高效识别旋转机械的故障类型。

(3)旋转机械工作环境较为复杂且恶劣,存在不同强度的噪声干扰,在训练集数据中,可能有一定比例的数据带有错误的标签。下一步研究的重点是验证模型的鲁棒性,提高模型在不同环境条件下的抗干扰能力。