基于改进LSTM神经网络的化工过程故障诊断

2024-01-06杜先君邱小彧

兰州理工大学学报 2023年6期

杜先君, 邱小彧

(兰州理工大学电气工程与信息工程学院, 甘肃兰州 730050)

随着现代化工工业的迅速发展,化工系统越来越复杂,导致重大安全事故发生的频率增大[1].由于化工材料大多为易燃易爆的材料,化工过程故障往往会带来严重的经济损失,更有可能会引起毒气泄漏甚至连环爆炸等严重问题,人身安全也存在着严重的威胁[2].因此,准确及时地诊断出故障类型并进行排除显得尤为重要.

传统的故障诊断方法主要分为统计学习方法和机器学习方法[3].基于统计学习的诊断方法主要包括主成分分析法(principal component analysis,PCA)、独立成分分析(independent component analysis,ICA)和偏最小二乘法(partial least squares,PLS)等[4-11].虽然基于统计学习的方法在故障检测方面取得了一定成果,但由于在降维过程中使得原始数据的部分有用信息丢失,导致其在故障分类方面效果并不理想.而基于机器学习的方法在故障检测和分类的表现都较为乐观,如支持向量机(support vector machines,SVM)、贝叶斯网络(Bayesian network,BN)和人工神经网络(artificial neural network,ANN)等[11-13].但由于现如今数据规模越来越庞大,浅层神经网络难以学习到数据间更深层的信息,从而导致分类精度不高.相较于浅层神经网络而言,深层神经网络在其基础上增加了网络层数,针对海量的信息,深层神经网络提取数据有用特征的能力更强大.近几年由于深度学习的迅速发展,深度置信网络(deep belief networks,DBN)、卷积神经网络(convolutional neural network,CNN)、循环神经网络(recurrent neural network,RNN)等深度学习方法[14-20]在故障诊断领域表现优异.Wu等[21]提出了基于卷积神经网络模型的化工过程故障诊断,Han等[22]利用LSTM网络对化工过程进行故障诊断,其结果都表明了深层神经网络的诊断效果优于浅层神经网络.

然而,化工过程的观测数据之间并非相互独立,化工过程中当前时刻的系统运行状态与前一时刻的运行状态有强关联性,传统的故障诊断方法并不适用于此过程.因此,满足化工过程安全可靠运行仍然存在巨大威胁.

化工过程的观测数据间的动态时间依赖性是影响故障诊断效果的主要因素.针对此问题,本文采用卷积神经网络对原始输入数据进行特征提取和降维,通过选用LSTM网络,有效地避免了RNN网络的梯度爆炸和梯度消失问题,并在此网络结构上进行改进,同时引入注意力机制对LSTM网络的输出进行关键特征“聚焦”,加强故障分类的关键特征的提取,提高网络特征提取能力,从而提升化工过程的故障分类精度.

1 故障诊断模型

本文提出基于改进LSTM网络的故障诊断网络结构如图1所示,主要有卷积层、池化层、改进的LSTM层、注意力机制层和分类层5部分.

图1 基于改进LSTM网络的故障诊断方法框图Fig.1 Fault diagnosis method structure diagram based on the improved LSTM network

1.1 CNN

本文采用一维卷积神经网络(CNN)对故障数据进行自动特征提取和数据降维,然后将CNN网络处理后的输出数据作为LSTM网络层的输入[23-24].CNN网络本质上是一个多层感知机,主要有卷积池化操作,如图2所示.其层内采用权值共享,不仅能降低网络模型的复杂度,还能减少权值的数量并且有效地防止网络出现过拟合现象[25-26].

图2 卷积、池化结构图Fig.2 Convolution and pooling structure

1) 卷积层使用卷积核对输入数据进行卷积操作,实现故障数据的自动特征提取,卷积计算如下式所示:

Hi=g(Wi⊗Xi-1+bi)

(1)

式中:Hi为经第i层卷积特征提取后的输出特征量;Xi-1为输入的一维数据;Wi和bi为第i层卷积层的权值矩阵和偏置向量;g为激活函数;⊗为卷积运算.

2) 池化层主要通过池化函数对卷积层输出的特征量进行数据降维,计算如下式所示:

Hi+1=P(Hi)

(2)

式中:P为池化函数;Hi、Hi+1分别为经池化前后的数据特征量.

本文中卷积核大小为1×4,激活函数g采用ReLU激活函数,池化函数采用最大池化,填充方式采用零填充.

1.2 改进的LSTM网络

1.2.1RNN

传统的神经网络结构从输入层到输出层都是全连接形式,层内之间的节点没有任何的关联,因此,用于解决实际问题时的效果并不理想.而RNN网络结构实现对t-1时刻的信息进行记忆并应用在t时刻的计算,这允许RNN建立当前时间序列的同时可以结合上一时间序列信息,能够提取更多时序特征相关的关键特征信息[27],从而在一定程度上有利于提高故障诊断的精度.理论上,RNN能够对任何长度的序列进行处理.RNN的结构如图3所示.

图3 RNN结构图Fig.3 RNN structure

由图3可知,输入向量X=[x(0),x(1),…,x(n)],依照时间顺序传递给RNN,输入时间序列信息经RNN结构后的输出建立数学模型为

式中:x(t)为t时间的输入变量;W、U为权重矩阵;b和c为权重矩阵偏差向量;V为激活函数;y(t)为t时间步长的预期输出.

RNN虽然能够处理连续的序列数据,但在训练网络时,数据反向传播容易出现梯度消失和梯度爆炸问题,导致建立的网络模型出现无效性,基于此,本文选用RNN的变体结构LSTM网络.

1.2.2LSTM内部结构的改进

LSTM[28-29]是RNN网络演变而来,可以有效解决RNN网络存在的梯度爆炸和梯度消失问题.LSTM记忆单元包括遗忘门(forget gate)、输入门(input gate)和输出门(output gate)三个门结构,这三个门结构由sigmoid函数和一个点乘单元构成,通过这三个门对输入信息进行筛选,同时更新细胞单元状态.

针对故障数据动态时序性等特点,本文对LSTM结构进行改进,如图4所示.LSTM网络结构的单元状态主要是将前一时刻的关键信息传入当前时刻,且其保留关键信息的周期较长.因此,本文选择分别在记忆单元和遗忘门、输入门和输出门之间增加“窥视孔”,记忆单元通过“窥视孔”将记忆信息传递给遗忘门、输入门和输出门,这种改进结构使得故障数据之间的长期关联性增强,能有效地提升故障数据信息的获取,从而提升故障诊断精度.

图4 改进的LSTM网络内部结构图Fig.4 Internal structure of the improved LSTM network

ft=σ(Wxf·xt+Whf·ht-1+Wcf·ct-1+bf)

(5)

it=σ(Wxi·xt+Whi·ht-1+Wci·ct-1+bi)

(6)

ot=σ(Wxo·xt+Who·ht-1+Wco·ct-1+bo)

(7)

gt=β(Wxc·xt+Whc·ht-1+bc)

(8)

ct=ft·ct-1+it·gt

(9)

ht=ot·tanh(ct)

(10)

式中:xt、ht分别为隐藏层的输入信息和输出信息;C为记忆单元;W为权重参数矩阵;b为偏置量;σ、β分别为激活函数sigmoid、tanh.理论上,LSTM结构进行上述改进可以提高特征提取效率,从而增加模型分类效率.

1.3 注意力机制

注意力机制源于对人类视觉的研究,现如今已经成为了神经网络领域的一个重要概念[30-31].注意力机制主要聚焦于众多信息中对当前目标更关键的信息.目前,注意力机制被广泛应用于自然语言处理、图像识别和语音识别等各种深度学习领域[32].

新疆屯垦旅游形象对旅游忠诚度的影响研究——以石河子地区为例…………………………………………………………………杨发鹏，白银霞（3）：50

注意力机制通过对输入数据的信息进行聚焦,对每个时刻的特征对应输出相应的权值α,权值的大小代表着该特征对目标的重要程度,即注意力的聚焦程度.注意力机制的数学模型如下所示:

式中:f为激活函数sigmoid;xi为输入信息i的特征向量;W、b分别为调整特征权重的权重参数矩阵和偏置量;α为输入信息i的特征对应权值;Z为注意力机制特征加权和.

注意力机制通过对LSTM网络输出的深度融合特征按照对应权值重新分配,增大对故障数据关键特征的权值,减小无用特征信息的干扰,有效提高故障诊断分类精度.

2 TE过程的故障诊断流程

2.1 TE化工过程

Tennessee-Eastman(TE)化工过程是为评价过程控制和监控方法创建的工业过程[33],其流程如图5所示.该过程是基于真实的工业过程仿真,主要包括5个操作单元:反应器、冷凝器、汽提塔、气液分离塔和压缩机.TE过程在故障检测和诊断方面得到了广泛的应用.

该仿真模型共有21种故障,具体故障情况如表1所列.

图5 TE过程工艺流程示意图

表1 TE过程故障类型

2.2 TE过程数据集

TE过程数据包含52个变量,其中41个为测量变量,11个为控制变量.由于故障3、9、15、21这四种故障在发生后,测得的观测数据变化幅度十分微小,不便分类,因此本文数据集中的训练集和测试集分别包含去除上述四类故障后的17种故障工况和1种正常工况数据,其中,将正常工况作为故障0进行诊断.数据采样周期为3 min,训练集样本中每种工况仿真时间为25 h,故障工况在1 h后引入故障,测试集样本中每种工况仿真时间为48 h,故障工况在8 h后引入故障.测试集和训练集中每种工况在500种不同随机数下进行仿真,最终训练集和测试集每种工况下采集到的数据中分别有250 000个样本和480 000个样本.

2.3 基于改进的LSTM网络的TE过程故障诊断方法

本文以TE过程为研究对象,验证基于改进的LSTM网络的故障诊断方法的性能,诊断框架如图6所示.

图6 故障诊断流程图Fig.6 Fault diagnosis flow chart

具体故障诊断步骤如下:

1) 首先对所采集的TE过程故障数据集进行归一化预处理:

(14)

2) 将归一化预处理后的数据划分为测试集和训练集.

3) 将训练集输入搭建好的诊断模型,训练并优化调整参数,使网络达到最优效果.

4) 输入测试集测试模型,通过评价指标(精确率、召回率、漏报率和F1分数)对模型性能进行评估.

3 实验结果分析

3.1 评价指标

本文采用精确率、召回率、漏报率和F1分数四种评价指标对提出的基于LSTM诊断模型进行评估.

精确率表示正确预测为正类的样本数与全部预测为正类的样本数占比:

(15)

召回率表示正确预测为正类的样本数占全部正类样本数比例:

(16)

漏报率用于评价本文故障诊断模型对故障样本的漏报率:

漏报率=1-召回率

(17)

F1分数是精准率和召回率的加权调和平均值,表示故障模型的综合识别能力和稳定性,F1值越高说明模型的预测能力越理想,如下式所示:

(18)

TP、FP、FN、TN的关系如表2所示.

表2 TP、FP、FN、TN的关系

3.2 不同方法降维的数据影响

降维的有效性决定了网络的诊断准确率与时效性.好的降维方法可以保证方法在更少的数据维度下有较好的诊断精度,同时可有效降低计算成本.本节采用传统的数据降维方法与CNN网络降维方法进行对比,验证各方法的降维效果以及CNN网络与LSTM网络结合的有效性.通过20次独立实验得出不同方法的平均结果如图7所示,CNN-LSTM网络在TE过程故障诊断中保证精确率相对较高的前提下,数据维度明显小于PCA、KPCA和LDA三种方法,体现出更好的降维效果,可有效节约计算成本.

图7 不同方法的降维效果对比

3.3 不同隐含层层数对诊断结果的影响

通过实验验证了不同隐含层层数对诊断结果的影响,并以诊断精度为标准确定了最佳隐含层层数,实验结果如图8所示.从图8可以看出,采用3层隐含层改进LSTM网络层的TE过程18种故障平均分类精度最高.

图8 不同改进LSTM层数诊断精度对比Fig.8 Comparison of diagnostic accuracy of different improved LSTM layers

3.4 改进LSTM网络故障诊断结果

采用3层改进LSTM网络层对TE过程故障数据进行分类,模型参数如下:全连接层节点数为18,输入softmax分类器进行分类.为增加网络稳定性,隐含层间增加dropout函数,比例为0.2,网络训练优化器采用adam方法,学习率为0.001.增加注意力机制对故障诊断的影响如图9所示,故障诊断的损失值有进一步的降低.每种故障分类情况的混淆矩阵如图10所示.可以看出,少数故障如0、13和18这三种故障的分类精度不能达到99%以上,但也能达到95%以上的精度.整体来看,本文基于改进的LSTM网络对TE过程故障诊断的平均精度为99.56%,可以很好地实现故障诊断与分类.

图9 注意力机制消融实验Fig.9 Experimental diagram of attentional mechanism ablation

3.5 对比验证分析

为了验证本文方法在TE过程故障诊断中的优越性,分别采用CNN、GRU、DAEN和LSTM四种在TE过程故障分类有较好效果的网络进行对比验证.通过10次独立实验分别取得不同诊断方法对TE过程故障诊断的精确率、漏报率以及F1分数的平均值,结果如表3所列.可以看出,改进的LSTM网络故障诊断的精确率和F1分数最高,且漏报率最低.DAEN网络和CNN网络的诊断各项指标都较低且漏报率较高,诊断效果总体较差.

表3 诊断模型性能对比

Tab.3 Performance comparison results of the diagnosticmodels

由图11可知,LSTM网络在TE过程故障诊断上除去故障10、12、16三种故障外,都有较好的诊断效果,DAEN网络和CNN网络对故障4和故障8的诊断效果较差,召回率低于65%.而改进的LSTM网络在TE过程的故障诊断上都有较好的表现,每种故障的召回率都能达到95%以上,对于故障4、8、11的分类召回率也有较大提升.

图11 不同模型故障诊断召回率对比Fig.11 Comparison of fault diagnosis recall rates of different models

不同模型故障诊断召回率对比图和诊断模型性能对比表都表明了比较CNN、GRU、DAEN方法对TE过程故障诊断的分类结果,LSTM方法的故障诊断效果表现较好,改进之后的LSTM方法相较于LSTM方法对故障10、12、16、18分类召回率有较明显的提高,且在其他故障分类召回率也在97%以上.而基于CNN和DAEN网络在各类不同故障上的表现各异,且召回率波动较大,并不稳定.基于改进LSTM网络的故障诊断方法对所有故障的故障诊断率都稳定在95%以上,较为稳定,具有较好的实践应用价值.