一种采用级联RPN的多尺度特征融合电表箱锈斑检测算法

2020-02-07周晨轶徐亦白周梦兰

计算机与现代化 2020年1期

王文，周晨轶，徐亦白，卢杉，周梦兰

(国网浙江省电力有限公司信息通信分公司，浙江杭州 310012)

0 引言

目标检测是计算机视觉的一项基础工作，任务是找出图像中所有感兴趣的目标(物体)，确定它们的位置和大小，是机器视觉领域的核心问题之一。由于各类物体有不同的外观、形状、姿态，加上成像时光照、遮挡等因素的干扰，目标检测一直是机器视觉领域最具有挑战性的问题。

锈斑检测是目标检测的实际应用之一，目前的斑点检测算法研究主要有使用RGB颜色空间中收集的锈色谱来定义锈色范围做锈斑识别，基于SIFT[1]、SVM[2]和Canny[3]边缘检测算法等传统方法来检测研究对象，以及基于深度神经网络的方法。在真实场景中深度学习模型相对传统方法可以达到更好的效果。

本文提出一种基于神经网络的多尺度电表锈斑检测方法。首先，基于大量的锈斑数据，训练识别锈斑的卷积神经网络(CNN)模型；而后，利用所训练出的CNN模型，实现对电表表面锈斑的实时识别，同时对电表表箱的位置进行检测。通过融合获得的多尺度特征，提高捕获目标物体的精度；设计一种级联的RPN网络(Region Proposal Network)[4]进行微调，获得更精确的目标。

1 研究现状

当前在锈斑检测的问题中没有公开的数据集，大多是根据自己想要解决的问题，如铁锈缺陷识别，采集相关数据并制作数据集。解决该问题可采用传统方法或采用深度神经网络方法。

Shen等人[5]提出了一种基于颜色和纹理特征的铁锈缺陷识别方法(RUDERM)，该方法将傅里叶变换与彩色图像处理相结合。RUDERM使用RGB颜色空间中收集的锈色谱来定义锈色范围，用于区分生锈与其他缺陷。

2018年姚明海等人[6]针对磁片表面对比度低、磨合纹理干扰和缺陷块小且亮度变化大等难点，提出了一种基于深度主动学习的缺陷检测方法。该方法的缺陷检测识别率达到了96.7%。

2018年Li等人[7]提出了一种自适应多阈值斑点面积自适应标定算法检测船舶上的大量较小锈斑，该方法的检测率和范围均优于传统方法。Liao等人[8]为了提高钢筋生锈区域的检测精度，提出了由3种不同的检测技术组成的图像识别算法，达到86%的识别率。安宗权等人[9]提出了一种金属产品的表面缺陷检测方法，实现对金属表面缺陷的准确检测，检测结果正确率达到93.33%。

由此可见，现有方法主要有传统的方法和基于深度神经网络的方法，其中传统的方法在鲁棒性和精准度方面表现较差，而基于深度神经网络的方法没有充分考虑到锈斑的细微特征。为此，本文提出采用多尺度提取和合并特征，添加级联RPN，受细粒度模型[10-13]的启发，裁剪出电表，对锈斑特征再次分类，增强精确度的研究设想。

2 面向变压箱的多尺度锈斑检测算法

由于锈斑部分相对于整体表面来说面积较小，为了更好地对电能表区域的锈斑进行识别与检测，本文设计一种多尺度的识别与检测网络结构。如图1所示，该网络框架主要分为卷积网络编码器的特征抽取阶段、多尺度特征提取模块以及级联RPN模块3个部分。其中，基于卷积神经网络的编码器用来处理图像并提取更为抽象的图像特征，该特征包含了执行准确目标检测和图像分类所必要的语义信息。编码器由ResNet-50[14]网络组成，经过多层卷积操作，得到为原图1/16大小的特征图。利用该特征图，可以通过目标检测模块得到目标可能存在的区域并利用级联RPN进一步强化电表是否存在锈斑的分类效果。

图1 提取特征图

检测解码器被设计为基于回归的检测系统。参照Faster R-CNN[4]，选择一种基于候选区域的解码器，使得可以进行端对端的回归，提升训练和推理过程的效率与质量。受FPN[15]启发，对多层特征进行提取并融合，提高检测精度。受CRAFT[16]和Part-based R-CNN[10]算法的启发,对目标区域执行再分类，本文设计的级联RPN如图2所示，级联RPN将第1阶段的proposal作为新的anchor来处理，并将它们发送到第2阶段的RPN中。最后，根据检测模块对这些新方案进行分类和调整。这使得网络可以利用不同层次、蕴含更多几何本质信息的特征。

图2 级联RPN

2.1 多尺度特征提取和合并

对于conv2_x、 conv3_x、 conv4_x与conv5_x，这些剩余块的输出为{F2，F3，F4，F5}，它们的步长分别为{4，8，16，32}。高级特征映射包含强大的语义信息，但是边界信息不清楚；较低级的特征映射具有弱的语义信息，但是由于有限次采样时间，更有利于定位。自上而下路径将F5的空间分辨率分解为具有多尺度的强大语义特征图，如图1所示。将反卷[17]特征映射与主干网中相应的特征映射合并(本文为ResNet)。合并前，下层特征映射进行1×1卷积层，以减小信道尺寸。这个过程被迭代，直到生成最好的分辨率映射。由于F5是最高级别的特征映射，因此没有更高级的特征映射来与它合并。为了开始迭代，只需在F5之后附加一个1×1卷积层，以生成最粗的分辨率图。对于这些操作，为了减少上采样的混叠效应，在每个合并映射上连接一个3×3卷积以生成最终的特征映射。因此，这些最终合并的特征映射为{R2，R3，R4，R5}，对应于{F2，F3，F4，F5}，它们都具有相同的空间大小。

Region Proposal Network是Faster R-CNN[4]对于生成提案的一个巨大改进。它是一个滑动窗口不可知的对象检测器，将RPN应用于多尺度特征映射{R2，R3，R4，R5}，而不是单尺度特征映射。与Faster R-CNN一样，本文将3×3卷积层和2个同级1×1卷积附加到每个新的特征映射。对于新生成的特征图，每个新合并的特征分别代表特殊的比例，没有必要在这些合并的特征图上设置多尺度锚。因此，只需要为每个新特征映射选择单个比例[18]。正式地，它们将锚设置为分别在{R2,R3,R4,R5,R6}上具有{32,64,128,256,512}个像素的比例。M6只是M5的2个子采样的步幅,它仅用于覆盖512的锚标度，并且在各级使用仍然不同的纵横比{1:2,1:1,2:1}。因此，在这些特征上总共有15个锚。

2.2 微调

本文在每个新的合并特征映射之后，应用一个级联RPN，将在第1阶段生成的方案作为新的锚，然后将这些新锚输入第2阶段生成最终提案。这项工作使对象建议更加紧凑和更局部化。

如图2所示，第1级RPN以滑动窗口的方式定期训练，以便在图像中以特定的尺度和不同的纵横比产生一系列和Faster R-CNN具有相同参数的锚。对于每个生成的锚，后面跟着一个感兴趣区域(ROI)池化层，从特征映射中提取一个固定长度的特征向量，其中ROI池化层仅仅是SPPNET[19]中使用的空间金字塔其中的一个金字塔级层的特殊情况。并且每个特征映射都被输入到2个完全连接的同级层中，一个用于估计这个锚是否包含一个对象，另一个用于估计对象的4个参数值。在详细的应用中，针对每个新的合并特征使用3个不同的纵横比，因此BBox回归输出具有4×3个通道，对3个锚的4个坐标进行编码，并且softmax层输出具有2×3个信道，该2×3个信道估计每个提案的对象或非对象的概率。当人们从第1阶段RPN中得到建议区域时，再次将这些建议区域输入到第2阶段RPN中，而不需要任何操作，将这些建议区域视为微调的新锚位置并产生最终建议区域。

3 实验

3.1 数据集

为了训练并评估本文提出的网络结构与算法的有效性，实地采集5000幅正常工作的电表图像。鉴于正常工作的电表上出现腐蚀痕迹的比例过小，为了防止训练过程中负样本的比重过大，对其进行数据增强处理，将报废电表加入数据样本当中，同时对部分正常电表的表面进行仿锈蚀处理。最终，含有锈迹的电表图像20000幅与正常电表5000幅，比例为8:2。

3.2 训练

实验建立在TensorFlow[20]框架上，采用Nvidia 1080Ti显卡，Backbone选用的是在ImageNet[21]下进行预训练过的ResNet50与ResNet101，优化器选择的是Adam，初试学习率为0.0002。训练数据、验证数据与测试数据比例为6:2:2，迭代次数为200次。

3.3 电表检测结果

图3展示了本文的电表检测方法在数据集上的直观效果。利用多尺度的特征以及级联的RPN网络，降低了误检与漏检的概率，极大地提升了电表检测的精确度，同时在时间上的额外开销很小。

图3 电表检测量化结果

3.4 评估

对于目标检测模块，使用交并比(Intersection over Union, IOU)为0.5时的平均精度作为结果的评价指标。对于电表检测部分，使用均值平均精度(Mean Average Precision, mAP)作为评测标准；对于锈蚀检测二分类部分，使用正确率(Accuracy, AC)作为评价标准。

3.4.1 多尺度特征提取

为了验证本文的多尺度特征提取和合并特征策略是有效的，计算不同IOU比率下方案的召回率Recall，如图4所示，其中FM代表本文采用的多尺度特征融合方案，selective search代表选择性搜索。当建议区域从2000降到300时，selective search方法在不同的IOU对应的召回率均出现了不同程度的下降，比如IOU=0.5时，召回率从0.96下降到0.82，而VGG16和VGG16+FM由于采用了RPN网络，变化不大。VGG16方案和VGG16+FM方案之间差异很小，这充分说明特征融合方法(FM)能够很好地利用特征图，即使只有300个建议区域。

(a) 建议区域为2000

(b) 建议区域为300

如表1所示，Faster R-CNN基于ResNet50的mAP为91.3%，基于ResNet101的mAP为91.7%，而采用多尺度特征提取和合并特征策略，基于ResNet50的mAP为93.4%，基于ResNet101的mAP为93.8%，相对于Faster R-CNN提高2.1个百分点。同时对于电表锈斑分类的正确率也提升了1.8和2.0个百分点。获得更好的效果主要是因为采用多尺度特征使对象定位更好，尤其是对于小对象，从而能够使目标检测精度得到提高。这些结果表明，本文的策略能提供更高质量的建议区域，从而获得更好的精度。

表1 多尺度特征提取合并方法FM与Faster R-CNN方法在IOU=0.5时的实验结果

方法电表检测(mAP)/%锈斑分类(AC)/%Faster R-CNN+ResNet50Faster R-CNN+ResNet10191.391.790.790.9FM+RPN+ResNet50FM+RPN+ResNet10193.493.892.592.9

3.4.2 级联RPN

同样地，为了验证级联RPN的有效性，如表2所示，本文做了单个RPN和2个RPN的对比实验。Faster R-CNN基于ResNet50的mAP为91.3%，基于ResNet101的mAP为91.7%，本文的方法，即采用级联RPN(DRPN)，基于ResNet50的mAP为93.6%，基于ResNet101的mAP为94.2%，相对于Faster R-CNN分别提高2.3和2.5个百分点。级联RPN相对于单个RPN精度更高，主要是因为第2个RPN以第1个RPN的输出为输入，学习更细致的特征，专注于查找类内的差异，减少了误分类的可能性。

表2 级联RPN方法DRPN与Faster R-CNN方法在IOU=0.5时的实验结果

方法电表检测(mAP)/%锈斑分类(AC)/%Faster R-CNN+ResNet50Faster R-CNN+ResNet10191.391.790.790.9DRPN+ResNet50DRPN+ResNet10193.694.292.993.1

3.4.3 与其他模型对比

同时，如表3所示，本文的方法结合多尺度特征提取和合并、级联RPN 2种方法，基于ResNet50，在电表检测上相对于只使用多尺度特征融合方法提高1.1个百分点，相对于只使用级联RPN方法提高了0.9个百分点。同时不论是在电表检测还是在锈斑分类上，都高于目前主流的目标检测框架，其中在电表检测上高于YOLOv2[22]方法3.8个百分点，锈斑分类上高4个百分点，实验结果充分说明结合多尺度特征融合和级联RPN 2种方法能够进行有效的电表检测和锈斑分类的任务。

表3 不同方法在IOU=0.5时的实验结果

方法电表检测(mAP)/%锈斑分类(AC)/%YOLOv2[22]91.190.5SSD+ResNet50[23]89.387.7DRPN+ResNet5093.692.9DRPN+ResNet10194.093.1FM+RPN+ResNet5093.492.5FM+RPN+ResNet10193.892.9DRPN+FM+ResNet5094.594.3DRPN+FM+ResNet10194.994.5