基于ELSTM的集合型故障诊断方法研究

2020-12-29王丹丹

沈阳理工大学学报 2020年4期

王丹丹，陈刚，杨青

(沈阳理工大学自动化与电气工程学院，沈阳 110159)

LSTM(long-short Term Memory)是循环神经网络(Recurrent Neural Net-work，RNN)的一个优秀的变种模型，继承了大部分RNN模型的特性，同时解决了梯度反传过程的梯度消失问题。LSTM网络因具有处理时序数据的能力而得到青睐，与传统的网络比较，模型中加入的一种块结构叫作门，来控制细胞状态的信息增减，判断信息是否有用，解决“记不住问题”，因此LSTM网络在挖掘序列数据长期依赖关系中极具优势。具体到语言处理任务中，LSTM非常适合用于处理与时间序列高度相关的问题。LSTM已经在科技领域有了多种应用，基于LSTM的模型可以学习语言翻译、文本生成、语音识别、疾病预测、股票预测、音乐合成、编码解码[1-6]等任务。

作为老师，最高兴的当然是看见自己教的学生成为有用之才。因此，在感恩节来临之际，给老师写一封信，告知自己的学习情况，当老师收到信时，心里肯定特别高兴。

“除王大明外，此案还有三名目击者。聂芊芊，王大明的秘书，当晚正在王大明处汇报公司业务，是该案的报案者，目前聂芊芊头部受伤惊吓过度，还不能接受警方的调查。还有一名目击者曾在当晚11：18给市消防队打电话报案，但没有引起消防部门的重视，报案人也没有留下姓名和联系方式，目前警方正在查寻此人，同时也希望这名目击者能迅速到市公安局为此案提供线索。第三个目击者是我市晚报的记者林超……”

LSTM能有效地提取到数据的时空信息，准确地提取到数据特征，Graves A等[7]在2008年再次改进网络后被大力推广。

基层电大学生自主学习和参加集中面授辅导存在诸多问题，这主要表现在：一是电大学生的学习没有目标。由于电大学生对择业、从业缺乏科学的规划，许多电大学生在报名选择专业时较为盲目，大多把是否能够通过学业考试获取毕业文凭作为他们报读电大的首要选择，所学专业能否和自己的工作或者今后的发展方向结合却很少考虑。这必然造成学生入学后对自己要求不高，学习缺乏动力，更谈不上学以致用。二是学生参加集中面授辅导学习到课率较低。重庆广播电视大学长寿分校的学生90%来自长寿区域内的企业，学校面授辅导时间为双休日，学生工学矛盾比较突出。

闫河等[8]提出一种结合的网络模型，将卷积神经网络(Convolutonal Neural Netiorks，CNN)和长短期记忆网络结合，进行训练及声纹特征学习，结果表明CNN-LSTM网络模型的识别准确率高达95.42%。窦珊等[9]提出基于LSTM时间序列重建的方法，引入两层LSTM网络对时间序列进行逆序重建，最终验证了所提方法的有效性。Yuan J等[10]提出了一种基于门递归单元(GRU)网络的三级故障诊断方法，并与CNN等网络作了比较，以证明其有效性。Shao B L等[11]将 LSTM与CNN相结合，提出了一种基于多通道LSTM-CNN的故障诊断方法，准确率达到92.06%。Pangun P等[12]提出将自动编码器捕获的预测故障数据放入LSTM中，利用LSTM识别故障类型。杨青等[13]提出了一种变分模态分解(VMD)、模糊C均值(FCM)及递推最小二乘支持向量机(RLSSVM)相结合的集合型故障诊断方法；后又提出将变分模态分解，独立主元分析和核主成分分析相结合的联合故障检测方法，应用于多模态故障检测[14]。

②落实最严格水资源管理责任制，明确市、县政府行政首长对最严格水资源管理制度实施负总责，按年度考核监管；定期公布流域水量调度责任人，确保水资源调度管理措施落到实处。

本文基于一种LSTM与1D卷积和CNN的集合型深度学习诊断模型，对化工过程中的故障进行诊断。与上述所提方法不同的是，本文采用集合型故障疹断方法ELSTM(Ensemble long short-term memory networks)模型应用于TE过程的分类，1D卷积将LSTM提取到的序列特征在时间上进一步强化，得到更加有效的时间特征，从而提取(Tennessee Eastman，TE)数据中隐藏的时间特征；同时，多个1D卷积核能够产生多个时间特征序列，增加特征通道数。本文采用批归一化(BN)的方法来提高网络的收敛性。由于化工过程中的数据具有高维度、复杂性、多变量等特点，因此将此模型用在该方面具有一定的挑战性。

1 相关理论

1.1 循环神经网络(RNN)

RNN是一个循环网络，可以被看做是同一神经网络的多个副本，每个神经网络模块会把消息传递给后续网络。将循环展开如图1所示。

图1 RNN展开图

图1所示，链式的特征揭示了RNN本质是与序列相关的，是处理时序数据的有效的网络模型。

1.2 LSTM网络

1D卷积的卷积核是一维的，参数更新和BP算法相同，该卷积层的输出为

图2 LSTM模型结构

图3 LSTM的基本结构

首先使用LSTM的当前输入xt和上一个状态传递下来的ht-1拼接训练得到四个状态，如式(1)～(6)所示。

ft=σ(wf·[ht-1，xt]+bf)

(1)

it=σ(wi·[ht-1，xt]+bi)

(2)

ot=σ(wo·[ht-1，xt]+bo)

(3)

ht=ot*tanh(ct)

(4)

(5)

(6)

例7：画面的色彩光线，还可以通过会声会影的各种滤镜来调节，比如利用“自动曝光”滤镜可以调节光线不足；综合调整“色彩平衡”、“色调和饱和度”、“亮度和对比度”等滤镜的自定义参数，改善画面存在的问题；运用“NewBlue色彩”滤镜，调节颜色、色彩、饱和、亮度、电影伽玛等参数，获得良好的视觉效果，增加作品的艺术魅力。比如校园的宣传视频中，春天的桃花，花朵更加色彩艳丽、娇艳欲滴；秋天的银杏，满树金黄的叶子在阳光的照耀下金光闪闪。

1.3 1D卷积理论

Hochreiter S等[15]早在1997年提出了LSTM，LSTM递归神经网络是针对梯度消失或梯度爆炸问题而提出的一种特殊的RNN。关于 RNN几乎所有重大的结果都是通过LSTM 实现的，图2和图3所示分别是LSTM的模型结构和基本结构图。由图2可以看出，LSTM网络主要由输入层、隐藏层和输出层组成。

oc=ReLU(Wc*ic-1+bc)

(7)

协方差偏移在深层网络中是一个常见的问题，网络中的特征随着网络层数的加深逐渐在分布上发生了变化，而一个层的参数变化在很大程度上影响所有层的分布，故使用批归一化来减少内部的协变量偏移，以最小化损失函数。批归一化是通过标准化每一层的激活函数，使均值和方差不受底层参数变化的影响，为加快训练速度，使网络更稳定的收敛，如式(8)所示。

本文使用软件框架结构为基于Pytorch的集合型网络模型(深度学习框架)，并在CPU上运行。实验设置如下：Python版本为3.52，numpy版本为1.13.2，PyTorch版本为0.20，scikit-learn版本为0.19.0，显卡为NVIDIA GeForce 920M，处理器为Intel CORE i5，内存为8GB，固态硬盘容量为256GB。

图4 卷积网络结构图

1.4 批归一化

2D卷积神经网络由输入层、卷积层、池化层、全连接层及输出层组成，如图4所示。

(8)

式中：ci是将被归一化的向量；γ和β是确定标准化激活函数的均值和标准差的模型参数；μB和σB分别是激活函数的均值和标准差；ε是正则化参数；*表示Hadamard乘积(元素方向乘法)。在训练时，使用小批量训练方法，将所有训练样本划分为小批次，在每个小批次中进行参数的更新。

2 ELSTM模型

原始数据X=(x1，x2，…，xT)，当时间步长设置为5，即T=5时，将原始数据划分为M个序列X(1)=(x1，x2，x3，x4，x5)，X(2)=(x6，x7，x8，x9，x10)，…，X(M)=(xn-4，xn-3，xn-2，xn-1，xn)，作为LSTM的输入序列。隐藏层神经元个数为32，批次大小也是32，经过1D卷积和2D卷积有效地提取特征，得到最终分类结果，如表2所示。

图5 ELSTM模型结构图

田纳西-伊斯曼过程(TE)是由Downs和Vogel创建的实际化工过程的仿真模型，被广泛用于过程控制、优化、监控和故障诊断等研究领域。TE过程主要包括5个操作单元：反应器、冷凝器、汽液分离器、压缩机和汽提塔[16]，如图6所示。

表1 网络参数

3 实验验证

综上所述，使用氨甲环酸可以显著减少脊柱转移肿瘤手术中的出血量。在氨甲环酸组中更少的患者术后需要输血及围手术期并未增加深静脉血栓形成的风险。

3.1 实验数据

为更好的获得原始动态过程序列数据之间的相关性，取T条原始数据作为一个时间输入序列，并将此时间序列作为LSTM网络的输入，每个输入x(i)对应的输出是式(1)～(6)。这时输出向量就是LSTM提取的动态特征。本文中，设置输入序列的长度T为5。reshape 层主要用来重组数据，以满足后续网络层输入数据的结构要求，其他各网络层的参数如表1所示。

TE过程一共有53个变量，其中有41个测量变量(XMEAS)，12个操作变量(XMV)，在操作变量中XMV5、XMV9、XMV12三个操作变量始终为常数。TE 过程在1993年的仿真模型中有21类预设的故障(IDV)，在1995年又新增了8类预设故障。通过TE过程仿真模型可以选择任意的预设故障类型及故障发生和结束的时间。21种预设的故障类型中包含了16种已知预设故障，5种未知故障，而新增的8种预设故障类型是随机变化扰动故障，实验中选择的数据都来自公共TE数据集。

3.2 实验方案

化工过程中的数据具有高维度、复杂性、时序性等特点。整个化工过程处于动态过程，在整个过程中，数据会明显发生变化，如何提取动态时序特征对故障的最终分类结果有很大影响，本文利用ELSTM集合型网络提取更有效的特征以提高诊断准确性。LSTM能够有效地处理时间序列的长期依赖关系，1D卷积提取每一个时间序列内部的局部特征。CNN具有很强的从多维数据中提取特征的能力。鉴于时变和高维特征，本文利用LSTM对TE过程数据进行处理，得到的隐层输出包含原始数据的时空信息，然后用1D卷积提取每一个时间序列内部的局部特征，再利用CNN处理多维数据的能力对时空信息做进一步的处理，得到最终的特征矩阵。再利用全连接层对特征矩阵做扁平化处理，将上述特征矩阵进行一系列非线性操作，完成特征融合；最后利用全连接层对故障进行分类，本网络的模型结构如图5所示。

2018年3月28日，由东南大学设计的我国首款无人驾驶巴士正式运行，这款无人驾驶巴士完全通过计算机、雷达和导航等电子系统工作，可实现双向自动行驶、靠站自动停靠和自动避让障碍等多种功能。

表2 几种网络模型的对比

从表2结果分析，ELSTM模型与其他模型比较，ELSTM模型的结果最令人满意，其准确率显著优于其他模型。

3.3 批归一化的有效性

在深度学习中，随着神经网络的加深，会出现协变量转移的问题，这将降低网络的学习效率。批归一化算法可以有效地解决这一问题。加入批归一化后，加速了神经网络的收敛，同时也防止了过拟合。从训练过程中损失函数和训练精度的结果可以得出批归一化的效果，较之前的训练精度和测试精度都有所提高。

3.4 结果对比

相比于传统BP、Autoencoder、CNN这些直接利用数据特征进行学习而忽略数据时序特性的网络，ELSTM的网络结构充分利用了化工过程中数据时序性特点，将数据随时间变化而变化的特性引入模型中进行训练学习。图7为ELSTM模型与LSTM-CNN模型的实验对比图。

从图7可以看出，LSTM-CNN模型与ELSTM模型在相同的实验条件下，ELSTM模型无论是测试精度还是训练精度都明显高于LSTM-CNN模型，且在一定程度上，ELSTM模型的收敛速度明显比LSTM-CNN模型快，ELSTM的网络结构充分利用了化工过程中数据高维度、复杂性的特点。

图8所示为21种故障在两种算法中的表现。由图8可以发现，分类的准确性在不同的故障模式下差别很大，横轴代表的是预测的故障类型，纵轴代表的是真实的故障类型。从图8a可以看出，ELSTM模型的预测效果非常好，除了故障3、故障9和故障15，该模型对其他故障的分类精度都非常高。出现了这种错分的情况，是由于故障3、故障9和故障15之间的混淆程度较高。故障3和故障9都是与材料D的温度变化有关，故障15是冷凝器冷却水阀，也和故障3和故障9的材料温度变化有关。而从图8b可以看出，LSTM-CNN模型除了故障3、故障9和故障15，在其他多个故障的分类效果中都出现了错分的情况，整体的分类效果没有ELSTM模型的分类效果好。可见本文提出的ELSTM模型对化工过程中的故障具有良好的分类效果。

图7 训练和测试精度

图8 两种算法混淆矩阵

4 结束语

提出了一种基于ELSTM模型的故障诊断方法，首先从田纳西伊士曼仿真实验中采集数据，并对实验中的数据进行处理，然后提出了一种根据数据特征而设计的特征提取方法来提取数据中的有效特征，先用LSTM网络模型对数据进行处理，提取数据的动态时序特征，并处理数据的复杂非线性关系，通过使用非线性门控函数，而不是传统的参数调整，再用1D卷积得到多个时间序列特征，然后利用CNN网络模型从多维数据中提取特征的能力来提取特征，最后对化工实验中的故障数据进行分类。分别将ELSTM模型与LSTM模型、CNN模型做了比较，结果显示ELSTM模型具有更高的精度和良好的有效性。