基于语义分割和空间上下文信息的防震锤识别
2021-02-22贾立业余鸿飞
贾立业,韩 军,余鸿飞
(上海大学 通信与信息工程学院,上海 200444)
0 引言
在电网系统中,输电线路中防震锤的目的是为了减少导线因风力引起的振动,导线振动时,其悬挂处的工作条件很不利,此时防震锤起着关键作用,对其进行检测至关重要。国内外针对防震锤部件识别的算法大致可分为两类:基于传统图像处理的目标识别和基于深度学习的目标检测。传统的图像识别算法主要通过对目标的固定特征(如边缘、颜色、纹理、轮廓等)进行处理实现检测任务。宋伟等[1]结合直方图均衡化、形态学处理和RGB彩色模型对防震锤图像处理,实现锈蚀缺陷的检测。但该方法存在着识别速率和鲁棒性低的问题。金立军等[2]提出将类Haar特征与级联AdaBoost算法应用于防震锤识别。计算图像的Haar特征后利用AdaBoost算法选取具有较强分类特性的特征,然后通过级联的方式组成级联AdaBoost分类器进行防震锤的分类识别。张东等[3]提出一种结合多尺度聚合通道特征(ACF)和复频域特征的检测算法。通过引入多尺度聚合通道特征提取图像的空间域特征和复频域特征进行加权融合,然后利用AdaBoost分类器和NMS算法识别防震锤。这两种方法识别准确率尚可,但存在算法复杂度高,鲁棒性低的问题。在深度学习领域,汤踊等[4]提出利用Faster-RCNN网络对输电线部件进行识别,针对不同目标使用不同的卷积核优化识别率。薛冰等[5]提出基于Mask R-CNN的电力设备锈迹检测识别方法。先使用Faster R-CNN完成目标检测的功能,利用FCN完成语义分割的功能,实现像素级别的分类识别,解决了不规则锈迹的检测问题。这两种方法并未充分利用防震锤与周围部件的上下文信息,因此识别准确率不高。
目前,国内外对于防震锤的研究主要集中在其定位与识别上,对于缺陷诊断还未取得突破性进展,图1所示为各种缺陷类型,这些缺陷会对输电线路产生极大的影响。针对这些缺陷,考虑利用语义分割[6]将这些防震锤区域分割出来,然后针对不同的缺陷类型进行判别。针对掉把与歪斜缺陷,根据其与正常防震锤的边界形状特征判别;针对碰撞缺陷,计算其分割区域的像素宽度与正常防震锤区域对比判别;针对漂移缺陷,分割出来后计算其与上下防震锤的相对距离判别;针对锈蚀缺陷,分析其分割区域的HSV颜色特征判断锈蚀。其中,掉把缺陷对于输电线路的正常运行危害最大,且其出现的几率也更高,因此本文着重针对正常防震锤的识别和掉把缺陷的诊断进行研究,后文所指缺陷均为掉把缺陷。
图1 防震锤缺陷类型
综上,本文针对防震锤部件识别准确率不高,掉把缺陷无法诊断的问题,提出一种结合语义分割和空间上下文信息的防震锤识别和缺陷诊断方法。算法结构如图2所示,包括三部分。第一部分是数据集的制作和预处理,利用LabelMe对防震锤图片标注后进行图像分块制作成数据集Hammer_2,对Hammer_2进行预处理,增强图像质量以提高分割效果。第二部分将防震锤数据集通过DeepLabV3+网络训练,对正常防震锤与掉把缺陷区分,得到训练模型Hammer_model。第三部分通过防震锤模型与其他部件模型得到防震锤与其他部件分割区域,通过这两个区域建立空间上下文关系,缩小防震锤识别范围。最后得到识别结果图。
图2 算法流程图
1 DeepLabV3+网络
DeepLabV3+网络是目前语义分割网络中准确率最优的网络[7],计算速度和分割精度表现十分良好。因此,本文基于DeepLabV3+网络构建防震锤的识别与缺陷诊断,其网络结构如图3所示,主要由特征提取网络、编解码器结构、空洞空间金字塔池化模块(ASPP,atrous spatial pyramid pooling)等组成。对于输电线路防震锤部件的待识别图像,在编码器部分,首先利用Xception网络(图中的DCNN模块)提取防震锤目标特征[8],然后通过ASPP模块[9]从不同尺度上提取防震锤的语义信息,接着将ASPP模块输出的结构通过1×1的卷积层进行通道数变换。在解码器部分,对Xception网络中较为底层的防震锤图像的特征图用1×1卷积操作变换通道,与编码器输出的防震锤不同尺度的特征图在统一尺寸后进行堆叠。在合并特征后再经过3×3的卷积层后使得防震锤特征更优,再上采样得到与输入图同样大小的特征图。
DeepLabV3+网络最大的优点是采用了编解码器结构和ASPP结构。编解码器结构可以有效的将防震锤的高层特征和底层特征融合起来,ASPP结构可以通过调整扩张率组[10]来提取防震锤的不同尺度特征,这两者对防震锤边界恢复都有显著作用。分析正常防震锤与掉把缺陷的形状,发现两种防震锤的边界形状有显著差异,利用DeepLabV3+可以有效恢复这两类防震锤的边界,从而鉴别这两类防震锤,实现缺陷诊断。
2 数据集制作与预处理
2.1 防震锤数据集制作
目前,没有防震锤的公开数据集,故需要制作可用于本文研究的数据集。本文收集到的输电线路图片主要包含正常防震锤及其掉把缺陷,需制作正常与缺陷防震锤数据集Hammer_2。将无人机拍摄的防震锤边缘清晰且完整的图片筛选出来,然后使用标注软件LabelMe通过多边形对防震锤目标进行标注,根据正常和缺陷防震锤这两类目标将标签设为:hammer、bad_hammer,如图4所示。
图3 DeepLabV3+网络结构
图4 防震锤标注类别
收集到的输电线路图片基本都是4 288×2 848的高分辨率图像,防震锤只占总像素的5%到8%,在DeepLabV3+训练时需要设置图像的随机裁剪值(通常为513×513像素),从图像中随机裁剪513×513像素大小图片进行训练,导致训练内容大部分属于背景信息。为减少背景干扰,提出一种适用于防震锤的图像分块方式。图像分块的具体方式如下:由于防震锤在一张图像中所占像素通常大于513×513小于1 026×1 026,所以分块时统一将图像分为1 026×1 026大小的图像。在分块时,考虑到由于分块会造成一个防震锤被分成两半,所以同一张图像需要从不同的像素点开始切割,将整张图片循环切块,保证每一个防震锤都能存在一张完整的小图。之后将分块出来的图像进行整理,把带有防震锤且完整的图像挑选出来,如图5,完成数据集Hammer_2的制作。
图5 图像分块处理
2.2 Hammer_2数据集的预处理
由于无人机拍摄背景复杂,拍摄角度的不同,同时无人机拍摄过程中存在抖动,因此目标存在边缘模糊,与背景对比度不明显的问题。本文采用自动色阶算法[11]对防震锤图像进行增强,提高防震锤与背景的对比度。自动色阶算法能自动调整图像的明暗程度,去除图像中不正常的高亮区和黑暗区,可以有效提高防震锤与复杂背景的对比度。自动色阶的处理过程如图6所示。
图6 自动色阶流程图
采用对目标边缘保持更好的自适应双边滤波算法[12]对防震锤进行平滑处理。自适应双边滤波能够根据不同防震锤图像的噪声水平和边缘强度,自适应调整双边滤波的空间标准差参数和亮度标准差参数,实现双边滤波参数根据输入防震锤图像的本质特征自适应获取,避免了参数的人工设置,在滤除噪声的同时最大程度地防震锤的边缘信息。利用自动色阶算法和自适应双边滤波算法对图像分块后的防震锤数据集Hammer_2进行处理,效果如图7所示。
3 结合空间上下文关系的防震锤识别
3.1 防震锤空间上下文关系描述
图像中对象之间的空间位置关系通常有三种:方向关系、距离关系与拓扑关系。根据防震锤的安装位置分析其与周围部件的空间位置关系:防震锤依附于导线下方,最接近方向关系,防震锤安装在远离均压环和线夹的位置,最接近距离关系,如图8所示。本文利用方向关系描述防震锤与导线的空间上下文关系,距离关系描述防震锤与均压环和线夹的空间上下文关系。正常防震锤与掉把防震锤的位置关系通常一致,为方便表述,本节统一以防震锤表述。
图7 防震锤图片的预处理前后对比
图8 两种空间关系示意图
在未引入空间上下文的防震锤识别实验中,由于识别时会对图像裁剪分块进行逐一识别,导致识别感受野变小,存在将均压环或线夹的一部分误识别成防震锤的问题,虽然识别召回率很高,但精确率并不理想。据统计,其中将均压环的一部分误识别为防震锤占62%左右,线夹误识别为防震锤占33%左右,其余占5%。导线、均压环、线夹三类部件在图像中的像素占比相较于防震锤更高,DeepLabV3+网络对它们的识别效果也更好。据此,可以建立防震锤与它们的空间上下文关系[13],缩小识别范围,排除误识别,提升精确率。如图9所示为防震锤与周围部件的空间关系示意图。
图9 防震锤与周围部件之间的空间位置关系
3.2 基于空间上下文关系的防震锤识别
根据3.1节分析防震锤与周围部件的空间上下文关系分为方向关系与距离关系,其中方向关系包括上边(ABOVE)、下边(BELOW)、左边(LEFT)和右边(RIGHT),距离关系包括靠近(NEAR)和远离(FAR)。为确定防震锤.与周围部件空间关系的具体类别,以防震锤与均压环为例,根据第1节内容通过DeepLabV3+网络分割出防震锤区域A与均压环区域B,根据分割出的区域像素计算以下变量:
1)两个区域的共同边界长度与防震锤区域A的边界长度比ρab=lab/la,其中lab为两个区域的共同边界长度,la为防震锤区域A的边界长度;
2)防震锤区域A与均压环区域B的边界像素之间的最短距离dab;
3)连接防震锤区域A与均压环区域B的中心线和水平线之间的夹角θab,该角计算为:
(1)
其中:vax和vay是防震锤区域A的中心va的x和y坐标,vbx和vby是均压环区域B的中心vb的x和y坐标。
根据以上变量,通过模糊空间关系的隶属函数[14]计算防震锤与周围部件区域之间的隶属度,不同空间关系的隶属函数可由以下公式来计算:
对于方向关系,在约束条件φABOVE+φBELOW+φLEFT+φRIGHT=1下,使用角度θab来定义截断余弦型隶属函数:
(2)
(3)
φLEFT(A,B)=
(4)
(5)
对于距离关系,在约束条件φNEAR+φFAR=1下,使用边界长度比ρab和区域边界之间的距离dab来定义S型隶属函数:
(6)
(7)
其中,β是确定隔断远离和靠近关系的阈值参数,α是决定函数确定性的参数。
通过以上几个隶属函数计算防震锤与周围部件之间的隶属度,计算出各个空间关系的隶属函数值后,利用该隶属函数的最大值,决定两个区域的方向关系和距离关系的具体类别。统计100个正确识别的防震锤与周围部件的隶属度,得到一个标准的防震锤与导线、均压环和线夹空间关系的平均隶属度表,如表1所示。可以看出,正常识别出的防震锤与导线之间的方向关系是在导线下方,防震锤与均压环和线夹的距离关系是远离均压环和线夹。
表1 防震锤与周围部件之间空间关系的平均隶属度表
因拍摄角度和视距问题,图像中的导线不能保证处于传统视角上的水平方向,在分析时,以导线所在方向作为水平方向,防震锤所在区域作为垂直方向的下方,且不能保证图像中会同时出现防震锤与导线、均压环和线夹,需要确定上下文分析优先级:因防震锤依附安装导线上,故导线优先级最高,再根据3.1节统计误识别中均压环与线夹所占比例,确定均压环优先级次之,最后是线夹。通过防震锤模型识别出防震锤区域,通过导线、均压环和线夹模型识别出相应部件区域,将识别出的每个防震锤分别与导线、均压环和线夹进行空间上下文分析。具体过程如下:若防震锤与导线的方向关系不是在导线下方,则直接判定为误识别,否则再分析与均压环的距离关系,若距离关系是靠近,则判定为误识别,否则继续分析与线夹的距离关系,若与线夹的距离关系是靠近,则判定为误识别,否则是正确识别,则保留。通过此过程对每一个防震锤进行分析判断,直至最后一个防震锤得到识别结果图。算法流程如图10所示。
图10 基于空间位置关系的防震锤识别算法框图
4 实验结果与分析
实验在装有一块NVIDIA TITAN x GPU的计算机上训练和评估所有模型,操作系统为Ubuntu 16.04,显卡型号为GeForce GTX1080Ti,Python版本是2.7,CUDA版本为9.0,CUDNN版本为 7.0,训练框架为Tensorflow 1.6.0。
本文采用语义分割常用评价标准均交并比(MIoU)以及深度学习常用评价指标精确率(Precision)和召回率(Recall)评估算法的有效性,相关公式如下:
(8)
式中,i表示真实值,j表示预测值,pij表示将i预测为j。
(9)
(10)
式中,TP代表正样本被正确识别为正样本,FP代表负样本被错误识别为正样本,FN代表正样本被错误识别为负样本。
本文收集正常与掉把防震锤原始图像共计800张,随机选取500张用来制作训练集和验证集,300张用作测试集。利用500张原始图像根据2.1节制作出数据集共计3 000张,其中正常防震锤共计1 500张,掉把防震锤共计1 500张。模型训练参数统一为初始学习率设置为10-4,扩张率组采用[5,9,17]。采用三组实验来验证本文提出方法的可行性。
第一组实验目的是验证图像分块和数据集预处理能够提升识别效果。本组实验中,统一采用正常防震锤数据集1 500张,其中训练集共计1 000张,验证集共计500张,评价标准为MIoU,为了排除实验偶然性,采用几组不同迭代次数进行训练,结果如表2所示。
表2 对数据集不同处理下的分割结果
从表2可以看出,相较于原始DeepLabV3+算法,对数据集进行预处理后, MIoU提升了3%~5%,这是因为对图像预处理可以增加目标与背景对比度,增强防震锤边缘轮廓,有利于语义分割。对数据集进行图像分块处理后,MIoU提升了约15%,这表明图像分块可以有效降低防震锤复杂背景干扰,大幅提高分割精度。在对数据集进行预处理和图像分块后,MIoU能够达到90%以上,这证明对数据集的处理可以提高语义分割网络的分割精度。同时,迭代次数的增加对于训练效果也有略微提升,但迭代次数在达到20万次后提升就比较小了,因此后文训练次数统一采用20万次。
第二组实验目的是验证DeepLabV3+网络对正常和掉把防震锤的区分能力。实验分为三次,第一次实验采用1 500张正常防震锤数据集,第二次实验采用1 500张掉把防震锤数据集,第三次实验采用750张正常+750张掉把的混合防震锤数据集,训练集与验证集与第一组实验一致,数据集都进行过图像分块和预处理,评价指标为MIoU。结果如表3所示。
表3 防震锤区分实验结果
从表3可以看出,在对防震锤进行单分类训练时,无论是正常还是掉把防震锤,DeepLabV3+网络识别的MIoU能够达到94%,在将两类防震锤混合在一起训练时,MIoU会有降低,在85%左右,虽然混合训练的识别效果不如单独训练的效果好,但是本文认为85.3%的MIoU表示网络对于两种防震锤的区分效果可以满足掉把缺陷诊断的应用。
第三组实验将未加入空间上下文与加入空间上下文两组实验在设置相同参数的情况下进行训练。这组实验中,采用第二组实验所得最好分割效果的混合防震锤模型,测试集中包括未参与训练的两类防震锤图像共计300张,评价标准为精确率(P)与召回率(R),测试结果如表4所示。可以看出,在引入防震锤与导线、均压环和线夹部件的空间上下文关系后,无论是正常防震锤还是缺陷防震锤,其精确率有大幅提升(约16%~17%),召回率有略微提升(约2%~3%)。原因是通过建立防震锤与周围部件的空间上下文信息,能够缩小防震锤的识别范围,排除大量错误识别,提高精确率与召回率。
表4 引入空间上下文关系的防震锤识别结果对比
5 结束语
本文针对目前输电线路中防震锤识别率不高,缺陷无法诊断的问题,提出利用图像分块解决网络输入带来的图像信息损失,结合防震锤与周围部件的空间上下文关系缩小识别范围,通过DeepLabV3+网络将正常与缺陷防震锤分割出来进行缺陷诊断。实验结果表明,图像分块可以有效提升分割精度,结合上下文能大幅提升识别精确率和召回率,语义分割网络能有效诊断防震锤的掉把缺陷。下一步研究方向是针对防震锤的其他缺陷问题,利用DeepLabV3+网络将其分割出来进行分类诊断。