基于红外热成像与CNN的压裂装备故障精准识别及预警

2021-03-03刘慧舟胡瑾秋张来斌

中国石油大学学报（自然科学版） 2021年1期

刘慧舟, 胡瑾秋, 张来斌, 张彪

(中国石油大学(北京)安全与海洋工程学院,北京 102249)

中国页岩气资源丰富,页岩气的开采对于调整能源结构,缓解天然气短缺问题具有重要意义[1-2]。页岩气的开采依赖于有效的压裂作业[3]。压裂泵作为压裂施工过程中最为关键的设备之一,需要承受高压及循环载荷作用,因而故障风险高,使用寿命短,长期服役的压裂泵受到周期性变化的复杂载荷作用,易发生疲劳失效和断裂破坏[4-5]。压裂过程中一旦出现上述现象,相关单位不得不临时停产、检修和更换部件,甚至带来很多无法估量的经济损失[6-7]。使用振动分析进行压裂泵的故障识别时存在振动信号采集困难、信号易受波动、需接触的问题,而红外热成像技术作为一种非接触监测方法能够很好地弥补这些不足。当前红外热成像技术除军事应用外,主要应用在电路板及半导体检测、医疗、电气设备故障识别等领域[8]。Ring等[9-11]对红外热成像在医学领域的应用进行了综述。吕昂等[12-14]对红外热成像在电气设备、电路板的故障检测识别方法进行了研究。宓为建等[15-18]针对红外热成像技术在发动机、变速箱轴承、管道等机械设备和特种设备识别方向进行了研究。在红外热成像图像的增强和处理算法上,韦瑞峰等[19]基于直方图进行细节增强,于飞等[20]提出了一种利用Hough变换实现非制冷红外热成像系统的图像增强方法,而谢静等[21]利用红外热像技术结合形态学方法对工件表面缺陷进行检测。总体而言,识别的模式主要为将增强处理后的图像与标准图像进行比对,识别的对象发生故障时温度表征较为明显,通过调节对比度及明亮度等参数即可在红外热成像图上获得较为直观显示,而识别算法主要集中在图像的分割和细节增强上[22]。近年来深度学习方法得以快速发展,具有代表性的卷积神经网络(convolutional neural network,CNN)分支衍生了多类网络结构,在图像及视频目标检测、分割识别等领域得到广泛应用[23-26]。压裂泵发生故障的部位主要为输出端、泵头体、输入端,这3个区域由于液体流动带来的降温效果加上外部壳体厚重使得红外热像图上的温度变化不明显。为克服传统红外图像分析方法在温度表征较小情况时的局限性,解决以压裂泵为代表的页岩气压裂装备故障的识别难点,笔者开展压裂泵典型故障特征、红外热成像图像前期预处理以及后期智能识别算法研究,建立整体性的红外热像图预处理方法,引入卷积神经网络并进行模型选取及参数优化,提取压裂装备红外热像图中的故障特征并分类[26],从而实现页岩气压裂泵运行故障的识别及预警。

1 基础理论

1.1 红外热像图预处理

红外热成像仪在使用过程中易受环境温度、光照、发射率、风速以及配套软件的调色板设置这些的因素影响使得形成的红外热像图存在差异。为使红外热像图分析结果更为准确,建立了整体性红外热像图预处理方法(图1)。首先对所有图像进行灰度化处理,消除不同调色板造成的差异并进一步降噪、边缘锐化处理,最后根据需要进行图像尺寸的归一化。

图1 红外热像图预处理流程Fig.1 Infrared thermography pretreatment process

1.1.1 中值滤波降噪

目前在图像降噪上主要使用的方法有均值滤波、小波变换、中值滤波及相关改进。但均值滤波只是将某点的噪声强度平均分布在周围数据上,尽管降低了幅值,起到了降噪作用,但增加了噪声点的颗粒面积,且会使得图像边缘变得模糊,不利于下一步图像处理。小波变换对于图像的降噪需要牺牲分辨率为代价,这是压裂泵热成像图片分析和研究中需要竭力避免的。中值滤波是一类基于排序统计理论的降噪方法,能够较好地处理“椒盐”类部分点上随机分布的噪声,且能保持较好的清晰度,因此采用中值滤波进行图像降噪。

1.1.2 拉普拉斯边缘锐化算法

降噪后为保证图像对比度对边缘采取拉普拉斯算法进行锐化和增强。拉普拉斯算子为一类各向同性的微分算子,具有旋转不变性[27]。一个二维图像函数的拉普拉斯变换是各向同性的二阶导数,其定义为

(1)

为了更便于图像的处理,使用离散形式表示该方程,表示为

4f(x,y).

(2)

图像锐化处理的原理为通过增强灰度反差从而使模糊图像变得更加清晰。由于拉普拉斯微分算子的应用可减弱图像中灰度的缓慢变化区域,另一方面又可增强图像中灰度突变的区域。因此,可选择拉普拉斯算子对原图像进行锐化处理,产生描述灰度突变的图像,之后再将该图像与原始图像叠加而产生锐化图像。拉普拉斯锐化的基本方法可表示为

(3)

式中,g(x,y)为输出;f(x,y)为原始二维图像。

1.2 优化的CNN模型

CNN是一种包含卷积层的特殊深层神经网络模型,凭借其权值共享、局部感知、下采样等特点能够有效地降低权值数目及网络结构的复杂度,减少前期图像的处理步骤并具备较好的泛化性能,因此当前被广泛应用在语音及图像识别领域[28]。CNN模型结构上一般包含输入层、卷积层、子采样层、全连接层以及输出层5部分。常用的CNN模型有LetNet、AlexNet、VGG、GoogleNet等。

由于红外热成像图像尺寸相比各类网上图像数据集中照片更大,网络深度的增加无疑会增加训练时间,所以选定最为经典的一种卷积神经网络结构LetNet-5,其结构如图2所示。

图2 LetNet-5结构示意图Fig.2 LetNet-5 structure diagram

图3 CNN处理流程Fig.3 CNN processing flow

CNN处理流程见图3。其中卷积层与子采样层交替排列,由不同的卷积核提取得到不同的二维特征图,子采样层可保证特征的缩放不变性,同一特征图的权值共享,最后由全连接层通过点积运算将二维特征图转换为一维输出。

为进一步提高先前的LetNet-5网络的训练和运算速度,同时在压裂泵运行故障样本较小的情况下获得更好准确性,减少过拟合发生,引进Relu激活函数以及Dropout层进行网络优化。

1.2.1 激活函数Relu引进

在多层神经网络结构中输入经过加权及求和处理后还被作用一个非线性的激活函数,以逼近任意非线性函数,否则无论网络有多少层,输出都是输入的线性组合。常用的非线性激活函数有Sigmoid函数以及tanh函数。当使用Sigmoid函数时一旦输入远离了坐标原点则函数的梯度几乎为零。神经网络反向传播过程是以链式法则计算各权重W的微分,当反向传播经过多个Sigmoid函数时会导致权重W对损失函数影响几乎为零,发生梯度弥散现象,同时Sigmoid函数需要进行指数运算,图像处理时速度较慢。tanh是双曲正切函数,在输入很大或是很小的时候,输出都几乎平滑,梯度很小,不利于权重更新。因此在网络中引进Relu函数作为激活函数来解决上述问题。如图4所示,Relu为分段函数,具有分段线性性质,会使得一部分神经元输出为0,同时减少参数相互依存性,使得网络稀疏性增加并且显著降低过拟合,提高了训练过程中的收敛速度。

图4 三类激活函数图像Fig.4 Images of three types of activation functions

1.2.2 Dropout层设置

训练卷积神经网络模型时需要大量的数据作为训练样本,训练样本过少则会引起模型的过拟合,致使最后的分类结果准确率较低,无法保证较好的鲁棒性,针对这种情况使用dropout层(图5),在模型训练时按照一定概率让网络某些隐含层节点的权重不工作,不工作的节点可以暂时认为不是网络结构的一部分,但是保留其权重,对于随机梯度下降来说就是随机选择,使每一个mini-batch都在训练不同的网络,从而有效防止过拟合现象的发生。

图5 Dropout层原理示意图Fig.5 Schematic diagram of Dropout layer

2 压裂泵运行故障精准识别及早期预警步骤

2.1 压裂泵典型故障分析

通过对压裂施工现场以及压裂设备生产厂家实地调研资料进行研究得出压裂泵的故障类型及可能原因为:

(1)吸入端吸空。多由混砂车故障或是吸入端管道泄漏、堵塞、沉降造成。

(2)泵头体刺漏。由于长期承受高压以及循环载荷作用造成,与施工时的工艺参数以及材料性质决定,无明显征兆,发生此类故障则需更换泵头体。

(3)高压输出端刺漏。多由螺栓紧固力不均、径向振动幅度过大、密封失效等原因造成。

(4)油路失火。油路发生泄漏且散热装置未能及时散热造成。

(5)动力端异常。动力部分或传动装置发生故障或异常造成功率异常甚至停泵。

2.2 故障识别及预警具体步骤

2.2.1 训练阶段

步骤1:使用红外热像采集设备进行数据采集,如有智能对焦模式则自动调整焦距,若无则手动调整至监测区域设备轮廓清晰。

步骤2:根据实际需要选择红外热成像设备温宽,自动温宽选项上下限为画面的最高最低温度,且要求相差大于8 ℃;智能温宽可去除部分不明显温度点,提高显示对比度;固定温宽可自定义温宽上下限,且温差也要求相差大于8 ℃。

步骤3:设置采集频率f,一般取f的范围为3～0.5张/帧,可根据故障征兆至发生故障时的时间长短进行调整。

步骤4:红外热像设备采集的数据为视频格式,需要间隔一定时间将视频传输并转换为图片作为下一步的输入,根据硬件配置调整,传输间隔越短越好。

步骤5:进行图片预处理,将步骤4中得到的红外热成像图片依次经过灰度化、中值降噪及边缘锐化处理。预处理过后的红外热成像图像根据需要进行尺寸归一化,作为训练集和测试集数据样本。

步骤6:重复步骤4、5得到至少200张正常及故障红外热成像图像样本。

步骤7:网络训练,以步骤6中图像作为输入,进行下一步网络训练。CNN网络除输入输出外还有许多参数,如学习率、步长、卷积尺寸数目及大小等,在引入Relu函数以及Dropout层后还需设定丢弃率等,这些参数的调整直接影响网络的收敛程度及速度、泛化性能及准确率,因而需要在常见的范围内不断调整,选择适合压裂泵为代表的压裂装备故障识别的最佳参数组合。

2.2.2 测试及应用阶段

步骤1:得到不同类型故障的红外热成像图像样本及训练好的模型后使用随机抽取的测试集进行准确率测试。

步骤2:准确率达到要求后再以故障发生初始时刻及之后单张红外热成像图像数据进行单幅测试,得出初步预警时间。如取故障发生时至发生10 s后的单幅故障数据进行测试,若只能识别故障发生后4～10 s的图像数据,则预警时间为4 s,多次测试以确保结果准确。

步骤3:重复2.2.1中的步骤1～7,在页岩气压裂施工现场安装调试红外热成像采集设备并设置好参数,得到压裂装备红外热成像图像,经过预处理后作为已经训练好的CNN模型输入,判断压裂设备是否处于正常状态,若识别为故障则输出故障类别。

整体流程如图6所示。

图6 故障识别及预警步骤流程Fig.6 Fault identification and early warning steps

3 案例与分析

3.1 实验平台搭建

页岩气现场用压裂泵通常为三缸或五缸往复式柱塞泵,为更好研究压裂泵注系统尤其是压裂柱塞泵运行及故障机制,设计并搭建了三缸柱塞泵模拟实验平台一套,如图7所示。柱塞泵故障模拟实验平台包括3D2-SZ型柱塞泵(额定工作压力10 MPa,流量57 L/min)、3D2-SZ-QR型强制润滑系统、耐震压力表(量程10MPa)、3D2-SZ-DF型单项溢流阀、3D2-SZ-AF型安全阀、HNK-4-11型变频控制柜(数据显示和存储)、Y160M-4-11型变频电机(电压380 V,功率11 kW)、流量计2台、3D2-Y160M型底盘总成、250 L循环用水箱、备件箱等。

图7 三缸柱塞泵实验台Fig.7 Three-cylinder plunger pump test bench

故障模拟实验平台可模拟生产现场压裂柱塞泵多种常见故障:①可通过调节低压吸入端阀门开度模拟现场压裂泵低压吸入端吸入不足、不均、无吸入故障;②通过调节(松动)柱塞泵故障模拟实验平台高压输出端螺栓紧固程度,模拟现场压裂柱塞泵高压输出端刺漏故障;③通过拆卸泵头体部分封闭部件螺栓,模拟现场压裂柱塞泵泵头体故障;④通过调节变频电机运行频率,模拟现场压裂柱塞泵动力输出异常或故障。

3.2 数据采集及预处理

针对以压裂泵为代表的压裂装备故障识别及预警问题,设置相关参数。其中调焦模式设置为自动,温宽设定为智能模式,采集频率为3张/s,视频发送间隔为5 s,得到的红外热成像图尺寸为384×280像素。最终用于训练和验证的图像尺寸归一化为180×180像素。

以高压输出端刺漏故障为例,在电机运行频率50 Hz,泵高压为7.7 MPa工况下,通过拧松输出端螺栓模拟故障。选取了510～640 s红外热像数据进行分析,对应的输出端及地面测温参考点温度变化如图8所示,其中在第604 s时开始刺漏。刺漏发生前地面测温参考点Sp1的温度为26.5 ℃,输出端测温参考点Sp2的温度为27.3 ℃。刺漏发生后,由于漏出液体高于地面及环境温度,Sp1的温度逐渐升高至27.7 ℃;同时由于漏出液体的冲刷和热传导作用,使得输出端表面温度也升至27.7 ℃,最后两者趋于稳定。

图8 测温参考点温度变化曲线Fig.8 Temperature change curve of temperature reference point

对应的刺漏故障发生前后局部红外热像见图9。

图9 刺漏前后局部红外热像图Fig.9 Local infrared thermal image before and after occurrence of a leak

可知输出端及地面温度变化均很小,体现在热像图上表现为色差较小,且由于光照、发射率等变化使得红外热像图的颜色层次也发生了改变,单靠人眼进行判断容易疲劳和错判。

按照灰度化、去噪、锐化预处理流程对所得图像进行处理,结果如图10所示。

图10 红外热像图预处理结果示意图Fig.10 Infrared thermography image preprocessing result map

再进行尺寸归一化,得到尺寸为180×180像素的数据集,其中刺漏故障样本为110张,对应的正常类样本为120张(图11)。

图11 故障数据集Fig.11 Fault data set

3.3 CNN网络训练

改进的CNN网络模型采用五层网络结构,选取Relu为激活函数,添加dropout层,以max-pooling为手段,利用交叉熵来定义损失,在经过多次调参后,选定学习率为0.000 1,dropout率为0.25时效果较好。训练次数为2 000次时的loss值变化如图12所示,在经过约300次的训练loss值已经降低到很小。训练准确率变化如图13所示,经过约300次训练也获得了接近100%的准确率。

图12 损失函数变化曲线Fig.12 Loss function curve

使用Tensorboard工具对训练过程进行可视化可以得到卷积层1、卷积层2、全连接层、以及分类器的张量变化情况,而将高维向量输入,通过工具中的embedding projector投影到3D空间,初始状态如图14(a)所示,中间200次迭代的状态如图14(b)所示,可看出明显的位置分布。

图13 训练准确率变化曲线Fig.13 Training accuracy curve

图14 数据3D空间投影Fig.14 3D spatial projection of data

3.4 故障识别结果

选取110张刺漏故障样本及120张正常样本进行识别,并将本文方法与常见的图像识别分类方法如LBP+SVM、HOG+SVM、聚类K-means进行比较,取正常及刺漏故障图像的识别正确数目(张)占测试集图像总数的比例作为准确率,结果见表1及图15。

提出的方法准确率达到了94.8%,相比传统方法有了很大程度的提高。随机单张红外热成像图测试表明训练后的网络模型可以准确识别出第604 s,即刺漏故障初始时刻的红外热成像图像,按照现场监控范围、传输耗时及人员做出反应造成的延迟初步估计能够提前10 s进行早期预警,且随着监控人员的疲劳这个差距仍会增加,提前的时间可以允许操作人员进行关停故障设备或调整运行工况,从而降低事故后果严重度。