基于改进Cascade R-CNN网络模型的防振锤缺陷识别

2022-09-06程汪刘任仰勋倪修峰曹成功

安徽大学学报（自然科学版） 2022年5期

程汪刘，任仰勋，倪修峰，曹成功，张可

(1.国网安徽省电力有限公司铜陵供电公司，安徽铜陵 244099；2.安徽大学电子信息工程学院，安徽合肥 230601；3.安徽南瑞继远电网技术有限公司研发中心，安徽合肥 230088)

金属防振锤能吸收或转移振动能量，消除周期性谐振.螺栓松动及生锈导致防振锤的位移及缺损，使防振锤不能有效地发挥防振作用[1].因此，精准定位及识别高压输电线路中的防振锤缺陷，对电力系统的安全稳定运行有深远意义.

随着数字智能化的发展和图像处理技术的成熟，基于计算机视觉技术的输电线路智能巡检逐渐成为研究热点.智能巡检方法主要有传统机器学习和深度学习.传统机器学习利用人工设计的算法，提取特征训练分类器，得到具有检测特定目标能力的模型.文献[2]提出了基于类Haar特征及级联AdaBoost算法的防振锤识别方法，能在复杂背景中有效地识别防振锤.文献[3]基于少量图像数据,引入具有层次的与或图,构建层次识别模型,对目标进行分解表达,成功鉴定了防振锤的位移故障.文献[4]提出了基于图像处理的防振锤锈蚀缺陷检查方法，该方法能高效检测锈蚀缺陷.文献[5]提出了防振锤锈蚀程度分类方法，根据RAR (rusty area ratio)和色度指数CSI (color shade index)对锈蚀进行分类，复杂背景下的分类准确率可达93%.

传统机器学习的检测种类单一，受外界环境影响大，难以实际应用.与之相比，随着人工智能的发展，深度学习具有更强的学习能力，可获得更全面的图像特征.深度学习方法主要有两类：Two-stage和One-stage.Two-stage中具有代表性的是Faster R-CNN(faster region convolutional neural networks)[6]，其具有较高的检测精度，但不能实时检测.文献[7]提出了巡检图像的多目标识别方法，该方法通过正则化约束权重，使Faster R-CNN能适应巡检图像的多形态特征，在不同场景下均有较高的识别精度和速度.文献[8]提出了一种组合的防振锤分类器，该分类器对Faster R-CNN、DPM (deformable part model)和AdaBoost进行融合，有较高的分类精度.One-stage实现了端到端的检测，既有高的准确率又有快的检测速度.One-stage中具有代表性的有：SSD(single shot multibox detector)[9]和YOLO(you only look once)系列[10-13].文献[14]提出了输电线路中的金具目标检测方法，解决了小目标金具漏检和密集遮挡问题.文献[15]提出了一种高压输电线路关键部件缺陷的识别方法，该方法在YOLOv3[12]基础上引入Res2Net[16]残差模块，能快速识别关键部件缺陷，平均识别准确率可达90.9%.

针对上述传统机器学习、深度学习存在的问题，同时考虑到多数防振锤图像背景复杂、目标小及类别数量不均衡，该文提出基于改进的Cascade R-CNN(cascade region convolutional neural networks)[17]网络模型，对防振锤缺陷进行识别.以Cascade R-CNN网络模型为基础，将SE(squeeze and excitation)模块[18]嵌入ResNet-101(residual network-101)[19]，以增强网络学习能力.引入FPN(feature pyramid networks)[20]模块提取多尺度的缺陷特征.利用Focal Loss[21]函数降低Cascade R-CNN候选区域提取模块的分类损失，解决类别数量不均衡的问题.通过级联结构，逐步提升IoU(intersection over union)值，实现防振锤缺陷的识别.

1 Cascade R-CNN的网络模型

Cascade R-CNN网络模型隶属于Two-stage，是在Faster R-CNN网络模型的基础上进行改进得到的.IoU值较低时，预测框与Ground Truth Box差别较大，网络模型预测目标中包含的背景区域较多，识别精度就会降低.IoU值较高时，尽管能降低样本匹配的错误率，但是会造成有效样本占比太小，出现过拟合问题.Cascade R-CNN采用级联检测结构，逐步提升IoU值，解决了预测框准确度低、噪声干扰大的问题，具有较高的识别准确率.Cascade R-CNN网络模型的特征提取模块为RexNet-101.经骨干网络提取的特征经RPN(region proposal network)处理后，再用于分类和回归，这样能为后续精确的分类和回归提供一定数量的候选框.ROI Align(region of interest align)的作用是将RPN生成的候选框转变为某一特定大小的框，以实现更细致的分类和回归.

2 改进的Cascade R-CNN网络模型

该文在Cascade R-CNN网络模型基础上，提出了改进的Cascade R-CNN网络模型.改进的Cascade R-CNN网络模型主要包括3部分：特征提取模块、特征融合模块、级联检测模块.图1为改进的Cascade R-CNN网络模型结构.

图1 改进的Cascade R-CNN网络模型结构

2.1 特征提取模块的改进

由于输电塔分布范围较广，无人机拍摄的防振锤图像背景复杂、目标与背景难以区分，因此该文将SE模块嵌入ResNet-101，以降低背景特征权重、增强缺陷特征.

图2为SE模块结构.该模块的输入为大小为C×H×W的特征图，经全局池化得到C×1×1大小的特征图，将该特征图依次输入2个维数不同的全连接层1,2(全连接层1将特征图的通道数量压缩为C/16，全连接层2则将特征图的通道数量还原为C).全连接层2的输出经Sigmoid函数处理后，得到特征图中每个通道的权值，将每个通道的权值与特征图相乘得到SE模块的输出.SE模块具有复杂度低、计算量小的优点.图3为残差模块结构.该文将SE嵌入残差模块，图4为嵌入SE后的残差模块结构.改进后的特征提取模块在计算量不增加的情况下能提高残差模块的学习能力.

图2 SE模块结构

图3 残差模块结构

图4 嵌入SE后的残差模块结构

2.2 特征融合模块的改进

该文在特征融合模块中使用了FPN(feature pyramid networks)，以解决防振锤缺陷尺度多样化、小目标多的问题.在特征提取模块的后面、RPN的前面，加入FPN.FPN将高分辨率特征图的细节信息和低分辨率特征图的语义信息结合在一起，可增强对小尺度防振锤的识别性能，图5为FPN模块结构.FPN包括：自上而下通路、自下而上通路、侧向连接通路.自上而下通路实现了特征图的下采样，输出了C2，C3，C4，C5特征图，其尺寸分别为输入图像的1/4，1/8，1/16，1/32.自下而上通路通过上采样使上述特征图的尺寸与上一层特征图的尺寸相同.侧向连接通路实现了尺寸相同特征图的融合，首先对自上而下通路输出的特征图进行1×1卷积，然后通过逐元素相加的方式对该卷积结果与自下而上通路输出的特征图进行融合，最后对融合后的特征图进行3×3卷积.卷积后的特征图既有空间信息又有语义信息.

图5 FPN模块结构

2.3 RPN模块的改进

损失函数为深度神经网络评判样本是否误检的依据.文献[19]在标准交叉熵的基础上进行改进，提出了Focal Loss损失函数，通过减少易识别样本的权重，使模型在训练时更加专注于难识别样本.该文采用 Focal Loss 函数改进Cascade R-CNN中RPN模块.Focal Loss函数的表达式为

其中：y为标签值；p为激活函数Sigmoid的输出值；聚焦参数γ≥0,文中取γ=2；(1-p)γ为调节因子；无论是前景类还是背景类，p越大，权重(1-p)γ就越小，lgp就越大，对难识别样本的识别效果就越好；类别权重因子0≤α≤1，文中取α=0.25；γ和α为固定值，不参与训练.

3 实验及结果分析

3.1 实验数据集

目前尚无公开的防振锤数据集，为了验证该文模型的有效性，对国家电网公司无人机巡检过程中所拍摄的现场巡检照片进行整理，得到了960幅防振锤图像.选取3种状态(正常、锈蚀和缺损)的防振锤图像作为训练样本.针对光照不均匀的问题，采用Gamma Correction[22]对防振锤进行处理，补偿照射信息的缺失.针对天气原因而引起的对比度低的问题，采用MSR(multi scale retinex)[23]对Gamma Correction的结果进行处理，提升图像质量.对原始巡检数据进行resize，resize后的巡检图像大小均为800×600.对经上述操作处理的部分图像进行15°或水平翻转，以获得角度真实的图像.数据增广后的防振锤缺陷数据集由原来的960幅增至1 810幅.图6为原图像、Gamma Correction处理后的图像和MSR处理后的图像.

图6 原图像(a)、Gamma Correction处理后的图像(b)和MSR处理后的图像(c)

使用LabelImg标注软件对预处理后的防振锤进行标注：若防振锤表面锈蚀，则将其标注为“锈蚀”；若锤头脱落或钢绞线弯曲，则将其标注为“缺损”；若防振锤无以上2种情况，则将其标注为“正常”.将标注数据严格按照公开数据集中的Pascal VOC格式[24]进行制作，按照8∶2的比例将数据分为训练集和测试集.表1为标注后的实验数据集.

表1 标注后的实验数据集

3.2 实验环境及参数设置

基于Ubuntu18.04 LTS 64位操作系统，使用深度学习框架PyTorch搭建网络模型.表2为实验的硬软件环境配置.

表2 实验的硬软件环境配置

相关参数设置如下：Cascade结构的级联数为3；第1,2,3阶段的IoU值分别为0.5，0.6，0.7；Batch size为2；训练次数为14；初始学习率为0.002 5；动量为0.9；权重衰减系数为0.000 1.

3.3 性能评估指标

常用的模型性能评价指标有：P (precision)，R (recall)，AP (average precision)，mAP (mean average precision).mAP为N个类别的AP值的平均值，mAP的值越大，识别准确率越高.mAP@k为预测框及Ground Truth Box的IoU值均大于k，且预测框为正类样本时的mAP.该文使用的指标为AP和mAP@k.

3.4 实验结果分析

3.4.1 改进模块的性能

为了验证改进的Cascade R-CNN网络模型中各模块的性能，使用预处理后的防振锤缺陷数据集，对改进后的模块进行消融实验，表3为消融实验结果.由表3可知：原始Cascade R-CNN网络模型的mAP最低；只使用了3个改进模块中的1个时，mAP均有所提升；3个改进模块均使用时的mAP最大，高达91.2%.因此，改进模块能显著提升识别的准确率.

表3 消融实验结果 %

3.4.2 不同模型性能的对比

为了验证该文模型的有效性，将该文模型与Faster R-CNN[6]，SSD[9]，RetinaNet[21]，YOLOv4[13]模型的性能进行对比.表4为不同模型的AP及mAP.由表4可知：相对于上述模型，该文模型的mAP@0.5最高，达91.2%；该文模型的mAP@0.75最高，达86.3%.因此，该文模型有相对高的识别准确率.

表4 不同模型的AP及mAP %

选择数据集中一些具有代表性的图像进行识别，图7为数据集中3幅图像的识别结果.由图7可以看出，改进后的Cascade R-CNN网络模型在复杂背景下的识别效果良好，能准确定位防振锤，且能识别缺陷类型.

图7 数据集中3幅图像(a,b,c)的识别结果

4 结束语

针对Cascade R-CNN网络模型应用于防振锤缺陷识别性能不高的问题，在Cascade R-CNN网络模型的基础上，该文提出了改进的Cascade R-CNN网络模型.将SE模块嵌入ResNet-101，引入FPN模块提取多尺度的缺陷特征，使用Focal Loss降低Cascade R-CNN候选区域提取模块的分类损失，解决数据集类别数量不均衡问题.实验结果表明：相对于其他4种模型，该文模型的mAP@0.5最高，达91.2%；该文模型的mAP@0.75最高，达86.3%；识别防振锤缺陷的效果良好.