APP下载

基于Mask R-CNN的电力设备红外图像分割技术研究∗

2020-05-15吴克河王敏鉴李渊博

计算机与数字工程 2020年2期
关键词:电力设备红外卷积

吴克河 王敏鉴 李渊博

(华北电力大学控制与计算机工程学院 北京 102206)

1 引言

随着国民生产生活过程中对电能需求量的不断增加,电网的建设规模也日益壮大,其中电力设备作为电网的重要组成部分对于电网的安全运行起着至关重要的作用。据统计资料表明[1],电力系统中许多故障都与电力设备故障有着直接关系,而其中设备温度的异常变化一般出现在故障的早期阶段[2],因此,实现电力设备温度变化的自动监控和分析对电力设备的故障诊断有着极其重要的意义。

红外热成像诊断技术将电力设备的红外辐射能转变成可见的红外图像,通过观察红外图像,确定电力设备任意部位的温度,异常温度值可以反映出设备内部潜在的故障[3~4]。红外成像技术能简单快速地完成对设备健康状况的分析,满足对电力设备故障诊断的要求,从而在电力设备故障诊断领域得到了广泛应用。在设备红外图像分析的过程中,首先需要把设备的红外图像从其他背景图像中分割出来,分割的准确性直接影响着故障分析的结果。

传统的图像分割多采用基于阈值的分割、基于边缘的分割以及基于区域的分割等方法[5~6],这些图像分割方法能大体上完成分割任务,但是分割结果不够精确,而且分割结果图大多没有保留原始红外图像信息,不利于红外诊断分析工作。近年来,由于深度学习在计算机视觉领域取得诸多显著成果,其逐渐成为解决计算机视觉问题的最好解决办法。文献[7]提出了全卷积网络,将全连接网络替换成了卷积网络,使得网络可以接受任意大小的图片,并输出和原图一样大小的分割图,但训练麻烦且分割结果不够精细;文献[8]提出空洞卷积,在特征图缩小到同样倍数的情况下可以掌握更多图像的全局信息,但模型无法捕捉物体的精细边界;Li等将文献[9]中的分割候选系统与文献[10]中的目标检测系统进行了“全卷积目标分割”(FCIS)的融合,用全卷积得到一组位置敏感的输出通道候选,使得系统速度变得更快[11],但FCIS在重叠实例上出现系统错误,并产生虚假边缘。而Mask R-CNN提取更精细的物体空间布局,可用来解决目标检测、目标分类、像素级目标分割三大任务[12],且分割结果更加精细,故本文采用基于Mask R-CNN的实例分割模型对电力设备红外图像进行实例分割和目标检测,能够为电力设备的故障诊断提供信息支持。

2 基于Mask R-CNN的电力设备红外图像分割模型

2.1 Mask R-CNN介绍

Mask R-CNN是一个两阶段的框架:第一阶段扫描图像并生成建议区域(proposals,即可能包含目标物体的区域);第二阶段对建议区域进行分类,生成边界框(bounding boxes)和掩码(mask)。Mask R-CNN是在Faster R-CNN的基础上提出的,Faster R-CNN是一个流行的目标检测框架[13],Mask R-CNN将其扩展为实例分割框架。Mask R-CNN整体架构如图1所示。

图1 Mask R-CNN整体架构图

Mask R-CNN框架主要由四个部分组成:

1)主干架构

主干架构的主要作用是来进行特征提取,因此一般主干架构是一个标准的卷积神经网络,通常采用ResNet50和ResNet101的残差卷积神经网络。主干架构作为特征提取器,底层提取输入图像的低级特征,比如边角和边缘等,高层提取更高级的特征,比如猫、鸟、天空等。以输入图像1024px×1024px×3(RGB)为例,经过主干网络的前向传播之后,图像转换为32×32×2048的特征图,该特征图作为下一个阶段的输入。

对主干网络引入特征金字塔网络(FPN)可使主干网络的性能进一步提升,同时这也是Mask R-CNN相较于Faster R-CNN的一次进步。图2是引用自文献[14]的金字塔网络模型结构示意图。

图2 FPN模型结构示意图

由图2可看出,FPN通过增加另一个金字塔,将第一个金字塔上提取到的高级特征传递到底层,在这个过程中,每一级的特征都可以和高级、低级的特征相结合。通过自上而下和横向连接将高层的语义信息与低层的高分辨率进行融合,提高特征的表达能力,更好的实现物体检测[15]。

2)区域建议网络

RPN层是一个轻量级神经网络,其使用滑动窗口来扫描共享特征图寻找存在目标的区域。RPN扫描过的区域被称为anchor,对于每个anchor,RPN做两个操作,第一是判断该anchor是前景还是背景,第二是为属于前景的anchor进行坐标修正。RPN是一个树状结构,树干是一个3×3的卷积层,树枝是两个1×1的卷积层,其中第一个卷积层解决前背景的输出问题,第二个卷积层解决了边框修正的输出。

使用RPN的预测可以选出最好的包含了目标的anchor,并对其位置和尺寸进行精调。如果有多个anchor互相重叠,保留拥有最高前景分数的an⁃chor,并舍弃余下的(非极大值抑制)。然后就得到了最终的区域建议,并将其传递到下一个阶段。

3)ROI分类器和边界框回归器

这个阶段是在由RPN提出的ROI上运行的。与RPN类似,它为每个ROI生成了两个输出:

(1)ROI中的目标的类别。与RPN得到前景和背景的两个类别不同的是,这个网络更深并且可以判断区域的具体类别,比如猫、鸟、天空等。除此以外,还能生成一个背景类别。

(2)边框精调:进一步精调边框的大小和位置以封装目标。

Mask R-CNN对Faster R-CNN中的ROI Pool⁃ing做了改进并提出了ROI Align,应用双线性插值在特征图的不同点采样生成固定尺寸的特征图,在解决RPN中经过边框精调之后尺寸不一的问题的同时,很好地解决了ROI Pooling操作中两次量化造成的区域不匹配(mis-alignment)的问题。

4)分割掩码

这一部分是Mask R-CNN相较于Faster R-CNN所独有的部分,经过前三部分的网络,可以完成目标检测任务,而第四部分完成目标分割任务。

掩码分支同样也是一个卷积神经网络,该网络以ROI分类器选择的正区域为输入,生成它们的低分辨率的浮点数型的软掩码。

2.2 模型介绍

本文采用基于Mask R-CNN的实例分割模型对电力设备红外图像进行分割,整体流程如图3所示。

2.2.1 网络结构设计

1)特征提取网络结构

本实验采用使用ResNet101和FPN的主干网络来进行特征提取。ResNet101的结构组成如表1所示。

经 过 表 1 中 的 conv2_x、conv3_x、conv4_x、conv5_x四个残差网络输出分辨率分别为65×65×256(包含conv1、pool和conv2_x的输出分辨率)、33×33×512、17×17×1024、9×9×2048。由于 Mask R-CNN特征网络部分采用的是ResNet+FPN的形式,每个残差网络都对应一个FPN输出层,分别为65×65×256、33×33×256、17×17×256、9×9×256,融合残差网络输出和FPN输出后生成最终的5个特征矩阵,分别为65×65×256、33×33×256、17×17×256、9×9×256、5×5×256,其中第5个特征矩阵5×5×256直接由倒数第二层降维而来。

图3 电力设备红外图像分割流程图

表1 ResNet101结构组成

2)分割网络结构

根据前文介绍,Mask R-CNN的最后一部分网络结构负责候选框分类和分割处理。这一部分是对前一部分得到的候选窗口的进一步处理,在得到目标检测的结果之后进行目标分割,具体流程是在ROI Align后得到特征矩阵并对其进行反卷积操作。

2.2.2 损失函数设置

Mask R-CNN的损失函数具体公式如下所示:

其中为权重正则化损失,为区域推荐网络损失,Lcls为目标检测分类损失,Lbox为目标检测坐标回归损失,Lmask为目标。

分割结果的损失。下面是这五部分损失函数的具体计算公式:

1)权值正则化损失函数

权值正则化损失函数为所有权重系数的平方和与比例系数α的乘积,如式(2)所示。

2)目标检测分类损失函数

目标检测根据网络结构会得到200个区域推荐窗口,设pi为正确分类所对应的概率值,选择交叉熵作为衡量标准,计算公式如式(3)所示。

3)目标检测坐标回归损失函数

坐标回归损失函数与目标检测分类损失函数标准不同,具体计算公式如式(4)所示。

4)目标分割结果损失函数

目标分割的结果为200个28*28维度的矩阵,矩阵的每个元素为0至1的概率值。式(5)为对数损失函数在单个数据点的定义。

每个目标分割图像矩阵维度为28*28,具体计算公式如式(6)所示。

(其中200为200个区域推荐窗口,目标分割会输出200个28*28的矩阵,矩阵的每个元素为0至1的概率值)

5)区域推荐网络损失函数

值区分候选框是否为前景,二分类问题,参考Lcls、Lbox进行计算。

3 实验与分析

3.1 实验运行环境

本文实验硬件环境如表2所示,在此基础上搭建软件环境:Ubuntu16.04、Python等,框架使用Ten⁃sorflow1.11框架。

表2 实验硬件环境配置

3.2 数据集处理

实验数据集来自某市国家电网供电公司巡检人员现场拍摄的红外图像库,经过筛选之后留下设备分明、背景清晰和角度正确的2000张红外图像和500张红外图像分别作为训练数据集和测试数据集,同时为了保证训练模型的准确性,采用迁移学习的思想[16],取代从零开始训练一个新模型。本次实验先在COCO数据集(一个包含91类目标,328 000影像和2 500 000个标签的可以用来分割训练的图像数据集)训练得到权重文件,虽然COCO数据集中不包含电力设备类别,但它包含了目前自然界的大量其他图像(约12万张),所以训练所得的权重文件已经具有辨识大量常见特征的能力。

准备好实验数据集之后需要对图像进行预处理,主要分为统一尺寸和图像标注两部分。统一尺寸是将尺寸参差不齐的图像统一到固定的尺寸,Mask R-CNN对于输入图像的尺寸没有具体要求,但每次进行训练的所有图像需要统一尺寸,分析数据集中所有图像中尺寸最小的图像为256×256,因此最终将所有图像的尺寸统一调整为256×256。

3.3 模型训练

本实验的模型训练分为两种:使用迁移学习的模型训练和不使用迁移学习的模型训练。对于使用迁移学习的模型训练,首先在COCO数据集进行训练得到权重文件,然后在该权重文件的基础上训练电力设备红外图像集合。训练采用随机梯度下降算法(SGD),设置初始迭代数为5000次,随机梯度下降算法的原理是不停地寻找某个节点中下降幅度最大的趋势进行迭代计算,逐步计算出最优解的方法。对于整体步骤来说,首先是将输入的数据输入到模型之中,之后构建数据模型,然后根据梯度下降算法更新一次模型的权重值,之后进入下一次迭代,在下一次迭代的过程中,重复上述的步骤,但是使用一个不同的数据点去计算。重复这个过程,直到达到预定的迭代次数或者损失函数的差值在阈值之内,从而停止模型的训练。

经过5000次迭代,得到各loss值的变化情况如图 4所示,其中 loss对应式(1)中的Lfinal,mrcnn_bbox_loss、mrcnn_class_loss、mrcnn_mask_loss分别为分割网络层中的坐标回归损失、目标分类损失和目标分割损失,rpn_bbox_loss、rpn_class_loss分别为区域推荐网络中的坐标回归损失、目标分类损失。

图4 训练迭代5000次各loss值变化图

由上图可以看到,随着训练次数的增加,各loss的值也在逐渐下降,在5000次迭代训练结束时,loss值的变化仍有下降的趋势,所以再次增加迭代8000次和10000次的实验进行比较。经过比较,随着训练迭代次数的增加,最终的loss值也逐渐降低,但下降的幅度逐渐放缓,从8000次迭代以后,各loss值逐渐稳定。因此,针对电力设备红外图像集模型训练迭代次数应在8000次左右为宜。

对于不使用迁移学习的模型训练,也采用随机梯度下降算法进行训练,但模型收敛速度慢,经过12000次迭代后,各loss值才逐渐稳定。

表3 迭代次数对比表

3.4 结果分析

使用8000次迭代训练获得的使用迁移学习模型和12000次迭代训练获得的不使用迁移学习的模型分别对不包含在训练集中的图像进行目标分割测试,对比结果如图5所示。

图5 从左至右分别为原图和未使用迁移学习、使用迁移学习的模型分割图

由图5可看出,未使用迁移学习的Mask R-CNN实例分割模型对电力设备红外图像的分割结果并不是很好,对电力设备的边缘处理精度较差,还会出现不完整分割、错割等情况。而使用了迁移学习的Mask R-CNN实例分割模型在电力设备红外图像分割方面则取得了良好的效果,其分割结果更加准确,虽然对于电力设备的边缘处理仍未达到极高的精确度,但这是由于实验数据集较小造成的,若实验数据集更大,则精度会进一步得到提升。

4 结语

本文选用在目标分割领域先进的Mask R-CNN框架来进行电力设备红外图像的目标分割,首先准备了充分的实验环境,并对实验数据集完成分类、整理和标注工作,然后采用基于ResNet101和FPN的Mask R-CNN结构作为训练模型进行训练。在训练过程中,通过分析不同迭代次数的Loss值的变化情况,确定电力设备红外图像分割效果最好的迭代次数,生成最终的训练模型。实验结果展示了模型的分割效果,并且对比了迁移学习和非迁移学习对分割结果的影响,结果表明迁移学习可以大大地提高模型的分割效果。因此,本文验证了Mask R-CNN框架在电力设备红外图像分割领域具有良好的应用前景,可以极大地提高电力设备故障分析工作的效率和准确率。

猜你喜欢

电力设备红外卷积
基于全卷积神经网络的猪背膘厚快速准确测定
网红外卖
电力设备带电清洗作业的研究与应用
电力设备预防性试验的重要性与方法
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
闪亮的中国红外『芯』
电力设备预防性试验的重要性与方法微探
高压电力设备试验方法及安全措施的研究