电力巡检图像中防振锤的区域全卷积网络识别方法
2020-12-25罗玉鹤庞红旗高飞翎白文博
罗玉鹤, 庞红旗, 高飞翎, 白文博, 陈 静
(1. 宁波市电力设计院, 浙江 宁波 315000; 2. 福州大学电气工程与自动化学院, 福建 福州 350108)
0 引言
在输电线路中, 防振锤是一种广泛使用的设备, 具有减少导线因风力扯起振动的作用. 由于常年暴露在自然环境中, 受雷击、 污秽等众多因素影响极易发生损坏, 对输电线路的安全稳定运行造成不利影响. 因此, 定期对防振锤进行状态检测和故障诊断显得尤为重要. 近年来, 无人机巡检凭借着高效安全的优点逐渐取代传统的人工巡检[1]. 与此同时, 利用图像处理技术和机器视觉发现航拍图像中的防振锤故障成为热点问题[2].
从航拍图像中识别防振锤是实现防振锤故障检测的基础. 金立军等[3]提出一种基于类Haar特征和级联AdaBoost分类器的输电线路防振锤的识别方法, 能在复杂背景中有效识别防振锤. 其中的级联AdaBoost分类器是一组串行的分类器, 只有每一级都判定为正样本最终才能作为正样本输出, 由于每一级分类器都采用AdaBoost算法进行训练, 极大地增加了计算成本. Wu等[4]提出改进的气球力Snake方法用于噪声模糊图像中防振锤的边缘检测, 相比传统的气球力Snake模型取得了更好的检测效果, 但Snake方法对初始轮廓位置敏感, 限制了使用范围. 朱铭武等[5]提出一种基于检测局部轮廓特征的防振锤与间隔棒识别方法, 首先对提取图像的边缘进行拆分处理, 检测边缘关键点或角点, 得到直线段边缘. 再利用 Gestalt感知定律中的连续性、 近似性、 共线性对断续的线段进行合并. 该方法在背景干扰、 遮挡及拍摄角度影响下具有很好的鲁棒性, 但过程复杂, 识别速度较慢. 以上方法在一定程度上能达到最终的识别目的, 但仍存在成本高、 计算复杂、 效率低等问题, 不足以满足实际工程应用当中的高效与实时等需求.
近年来, 随着计算机硬件性能和相关算法的提高, 以卷积神经网络(convolutional neural network, CNN)为代表的深度学习技术逐渐取代了传统的机器学习方法[6], 在图像目标识别与检测、 语音识别等领域取得了显著的效果[7-8]. 在图像目标识别中通过CNN能够很好地识别出目标, 但无法定位目标区域. 而基于区域的卷积神经网络(region-based convolutional neural network, R-CNN), 在卷积层后接入了感兴趣区域(region of interest, RoI)池化层, 从而使网络能够定位目标, 如Fast R-CNN、 Faster R-CNN等. 基于区域的卷积神经网络由于在全连接层上的计算不共享, 在训练过程中会造成大量的参数冗余. 而Dai等[9]提出的R-FCN能够在整个图像上共享计算, 减少了参数冗余, 提高了检测速度. 此外, 通过引入位置敏感分数图解决了分类平移不变性和目标检测平移变换之间的矛盾, 是一种适用于识别复杂背景中小目标的神经网络.
本研究提出一种基于R-FCN的输电线路防振锤智能识别方法. 作为一种端到端的处理架构, R-FCN可以直接使用电力巡检图像作为输入, 降低了对图像数据预处理的要求, 避免了复杂的特征工程, 且与传统的防振锤识别方法相比具有检测速度快、 识别准确率高等优点, 为实现输电线路的智能化巡检奠定基础.
1 基于R-FCN的防振锤智能识别原理
图1 防振锤识别原理图Fig.1 Identification schematic of dampers
针对电力巡检图像中背景复杂、 防振锤形态各异、 识别准确率不高等问题, 提出一种基于R-FCN的防振锤智能识别方法, 分为离线训练、 在线识别两个部分, 具体流程如图1所示. 在离线训练阶段, 以无人机巡检系统获得的巡检图像为原始数据集, 经过数据预处理后将数据集随机划分为训练集、 测试集, 并用于训练构建好的R-FCN模型. 再对训练完毕的R-FCN模型实施固化操作, 以获得防振锤识别模型. 一旦R-FCN模型训练固化完毕, 即可将其加载到不同的无人机智能检测终端使用, 无需重复训练, 只需将无人机巡检所得的图像数据直接输入识别模型, 即可迅速获得防振锤智能识别结果.
1.1 图像预处理
图2 图像预处理流程图 Fig.2 Flow chart of the images pre-processing
原始巡检图像的预处理流程如图2所示, 首先通过数据增强手段扩充原始数据集, 其次通过LabelImg软件标注巡检图像中的防振锤目标并生成对应的XML标签文件. 接着, 将处理后的图像数据随机分成两部分, 组成训练图像库以及测试图像库, 每个库中包含对应的图像数据以及XML标签文件. 最后, 将其转换为TFRecord格式文件, 构成训练数据集以及测试数据集, 用以后续的R-FCN模型训练.
为解决原始巡检图像数据短缺造成的训练数据不足, R-FCN模型识别准确率不高的问题, 可通过数据增强手段扩充原始巡检图像数据, 主要包括旋转、 裁剪. 其中旋转为将原始巡检图像数据旋转180°, 并保存旋转后的图像. 而裁剪则是将原始图像数据进行适当剪裁, 与旋转相比, 裁剪后的图像可使防振锤目标处于图像的中心位置, 凸显防振锤目标特征, 更有利于后续的模型训练.
防振锤目标标注旨在在巡检图像中标出防振锤的位置. 通过LabelImg软件可用矩形框定位防振锤目标的位置, 其中位置信息由包含防振锤目标的矩形框左上角顶点坐标(xmin,ymin)和右下角顶点坐标(xmax,ymax)表示. 当一张图片包含多个防振锤目标时, 需一一标出该图片中所有防振锤的位置信息, 并保存在同一份XML标签文件中, 用于R-FCN训练过程反向传播中的损失值计算和验证检测精度. 此后, 将图像数据及其对应的XML标签文件随机分成训练图像库用于模型训练, 测试图像库用于验证模型准确率.
1.2 R-FCN识别网络
R-FCN是以Faster R-CNN为基础改进的一种适用于小物体检测的深度神经网络. 与Faster R-CNN[10]相比, R-FCN去除了感兴趣区域RoI池化层后的全连接层, 使所有RoI在整个网络上可以共享参数, 减少参数冗余,提升识别速度. 此外, 在目标分类过程中要求网络具有良好的平移不变性, 而在目标检测时则需要平移变换, R-FCN通过专门的卷积层构建位置敏感分数图, 解决这一矛盾. R-FCN的网络结构如图3所示, 主要由特征提取网络、 区域建议网络以及RoI子网三部分组成.
图3 R-FCN网络结构图Fig.3 The structure diagram R-FCN network
1.2.1特征提取
电力巡检图像中, 由于背景复杂以及不同的拍摄角度尺度, 导致防振锤形态多样, 特征信息繁多, 手动提取特征费时费力, 影响防振锤识别效率. 而由全卷积网络构成的特征提取网络能够自主地提取防振锤图像特征, 并生成高质量的特征图, 提高防振锤识别准确率. 目前已有如AlexNet、 ZF以及VGG等深层神经网络模型可供选择, 其中每一种网络都可通过增加自身的网络层数建立更深的网络, 从而达到更高精度的目的. 但随着神经网络层数的增加会导致网络训练及检测的速度降低, 无法满足实时识别航拍图像中的防振锤的需求. 而残差网络(residual neural network, ResNet)由残差块组成, 残差块的引入有效缓解了随着网络层数加深所带来的梯度消失和训练退化问题, 从而提升网络收敛性能. 因此, 本研究采用残差网络中的ResNet101作为R-FCN的特征提取网络, 在预训练的Resnet101模型基础上, 移除了ResNet101中的平均池化层和全连接层, 同时增加了1×1×1 024的卷积层用来降维, 并使用防振锤数据集对模型进行微调, 实现特征提取网络优化训练, 进一步加强网络提取防振锤特征能力.
1.2.2区域建议网络
图4 RPN网络示意图Fig.4 RPN network diagram
区域建议网络(region proposal network, RPN)的原理如图4所示, 其输入为基础卷积网络生成的特征图, 通过一个3 × 3的滑动窗口扫描整个特征图, 得到一个维数为256的向量. 将该向量作为两个1 × 1卷积的输入, 从而将特征图的信息映射成为防振锤候选区域的位置信息以及其为前后景的概率信息, 同时将每一特征点映射回原图, 并生成若干个尺寸不一可能包括防振锤的RoI. 由于巡检图像背景复杂, 航拍图像角度多, 导致同一图片上防振锤大小不一, 在产生RoI时, 设计了128 × 128, 256 × 256, 512 × 512三种面积尺寸, 以提高区域建议准确率. 经统计, 防振锤目标的标注矩形框长宽比约在0.3~2.0之间, 部分侧拍角度的防振锤标注矩形框长宽比为1∶1, 因此设计0.5、 1.0、 2.0三种长宽比, 并结合三种面积尺寸对包含防振锤目标的窗口位置进行预测, 以进一步提高防振锤的识别准确率.
1.2.3RoI子网
RPN生成的RoI并不能十分准确地定位巡检图像中防振锤的位置, 此时通过RoI子网对防振锤的位置信息进行回归修正, 能够进一步提高防振锤识别的准确率. 利用卷积操作为每种类别在ResNet 101生成的特征图上生成k2个(C+1)维的位置敏感分数图. 其中C为防振锤的种类数, 设为1,C+1 为防振锤种类数加背景. 而k2表示 RoI 池化层将每个RoI 划分成k2个空间位置. 令k=3, 则RoI可被分割成3 × 3共9个矩形块, 对应的位置敏感分数图也就分割成9块, 分别为{上左, 上中, 上右, …, 下右}. 由于这些位置敏感分数图对位置敏感, 所以RoI池化层会有选择地池化, 只有编码相应位置的位置敏感分数图才会做出池化反应.
(1)
其中:zi, j, C是k2(C+1)个位置敏感分数图当中的一个; (x0,y0)是RoI左上角的坐标; (x,y)表示以(x0,y0)为原点时每个元素的坐标值;n是bin(i,j)中的像素大小; Θ是网络学习得到的参数. 最后计算k2个子区域的池化响应输出rC(i,j|Θ)的均值, 再通过Softmax响应确定其属于防振锤和背景的概率.
1.2.4误差函数
防振锤识别的目标是最小化预测的防振锤区域与真实防振锤标记区域之间的误差, R-FCN网络采用误差函数来衡量防振锤识别的误差, 误差函数由分类误差Lcls和定位误差Lreg组成:
L(s,tx, y, w, h)=Lcls(sc*)+λsign(c*)Lreg(t,t*)
(2)
(3)
定位误差Lreg中的平滑公式:
(4)
通过随机梯度下降法来更新网络参数, 使所得的误差函数最小.
2 实验结果与分析
2.1 实验环境与实验数据
实验计算平台的软硬件配置如下: Ubuntu 18.04 LTS, Intel Core i7-6850K @ 3.60GHz12CPUs, NVIDIA GeForce GTX 1080 Ti GPUs , CUDA版本9.0, cuDNN版本6.0, 内存共32 GB. 深度学习框架采用tensorflow. 实验数据由1 442张不同背景条件下包含防振锤的无人机巡检原图构成, 通过人工标注用于训练防振锤目标识别模型R-FCN. 并随机将这1 442张图像分成训练集与测试集. 其中, 训练集由1 200张图像组成, 而测试集由242张图像组成.
2.2 评价指标
(5)
其中: TP表示防振锤被正确识别为防振锤的个数; FP表示将背景误识别为防振锤的个数; FN表示未识别到的防振锤个数;p(R)表示以R为参数的函数.
2.3 防振锤目标识别训练与测试
防振锤智能识别模型初始预加载经过ImageNet数据集训练的权重, 然后使用本研究所述的防振锤数据集对网络进行微调训练. 训练过程中初始学习率设为0.000 3, 动量设置为0.9, batch_size为64, 非极大值抑制值设为0.5, 训练步数为40 000步, 且每迭代4 000步保存一次模型权重. 模型训练平均损失曲线随训练迭代次数变化情况如图5所示. 由图5可得, 随着迭代次数的不断增加, 损失不断减小, 到20 000步后, 损失逐渐收敛, 最终维持在0.1上下, 说明所选用的方法具有较好的鲁棒性.
在目标检测中, 常通过P-R曲线衡量模型的检测性能, 该曲线以召回率为横轴, 准确率为纵轴. 所提的防振锤识别方法的P-R曲线如图6所示. 通过图6可以发现, 准确率与召回率二者相互影响, 此消彼长. 当召回率从0增加到90%时, 准确率呈现下降的趋势, 尤其当召回率为0.9时下降幅度增大. 但准确率都维持在85%以上, 仍处在较高水平. 最终计算出的综合评价指标AP高达88%, 说明本方法在准确率和召回率上有一个很好的平衡, 防振锤检测精度性能出色.
图5 损失函数变化图Fig.5 Loss function variation diagram
图6 P-R曲线变化图 Fig.6 P-R curve diagram
利用训练固化后的模型识别巡检图像中的防振锤, 识别结果如图7所示. 其中, 黄色矩形框为模型检测后自动在原图上标注得到的识别框, 每一个识别框代表模型识别得到的一个防振锤. 受拍照距离、 角度和光照等外界因素的影响, 同一图片上存在不同形态和大小的防振锤. 大尺寸防振锤特征明显易于识别检测, 而小尺寸防振锤特征易与其他电力部件混淆造成漏检误检. 由图可见, 本方法不仅能很好地识别出大尺寸防振锤, 而且不受小尺寸防振锤特征易被混淆的影响, 同样能够准确地识别出小尺寸防振锤. 此外, 背景的复杂程度也会对防振锤的识别造成重大影响. 简单背景下, 防振锤与背景差异大, 大小防振锤都易于检测. 而在线路、 森林、 道路等交杂在一起的复杂背景下, 防振锤不易与背景区分开, 同样易造成漏检误检. 而实验结果表明, 处于复杂背景中的防振锤仍然能被R-FCN网络准确识别.
图7 防振锤识别结果Fig.7 Identification result of dampers
2.4 与其他方法的对比
为进一步验证所选用方法的有效性, 将该算法的防振锤识别结果与基于类Haar特征和级联Adaboost[11]、 基于局部轮廓特征[5]以及基于Faster R-CNN的防振锤识别[12]结果进行对比. 其中, 其它算法所涉及到的防振锤识别结果为直接引用相应文献本身的防振锤识别结果, 对比结果如表1所示. 由表1可得, 与基于局部轮廓特征的防振锤识别方法对比, 本方法的防振锤识别精度有了较大提高, 共提高了5.3个百分点. 而与基于类Haar特征与Adaboost的防振锤识别方法对比, 识别精度提高不明显, 仅1个百分点. 事实上, 在参考文[11]中仅轮廓明显、 尺寸较大等较好的防振锤目标的识别精度才高达90%, 而存在遮挡、 重叠、 尺寸较小等问题的较差防振锤目标识别精度较低, 整体识别精度仅45.6%. 而本方法不论是较好的防振锤目标亦或是较差的防振锤目标均能准确识别. 文[12]中利用包含1 500张防振锤航拍图像的训练集训练Faster R-CNN, 最终识别结果仅为79.3%, 比本方法少了近11个百分点. 可见, 本方法在识别防振锤目标上可以取得更优越的效果.
表1 不同识别方法精度对比
3 结语
针对电力巡检图像中背景复杂, 防振锤形态各异, 识别准确率不高等问题, 提出一种基于R-FCN的防振锤智能识别方法. 首先通过ImageNet数据集初始化网络模型, 再通过包含不同背景形态的防振锤数据集对网络进行微调. 实验结果表明, 本文所提方法具有较好的鲁棒性, 能够准确识别不同形态的防振锤, 平均准确率高达88%. 同时, 与现有文献的防振锤识别方法相比, 具有更优越的识别能力. 本方法为后续防振锤故障检测奠定了基础, 具有较强的推广意义.