融合注意力的多尺度Faster RCNN的裂纹检测

2021-02-26陈海永闫皓炜

光电工程 2021年1期

陈海永，赵鹏，闫皓炜

陈海永1*，赵鹏1，闫皓炜2

1河北工业大学人工智能与数据科学学院，天津 300000；2天津航天中为数据系统科技有限公司，天津 300000

电致发光(Electroluminescence, EL)下的光伏电池EL图像背景表现为复杂的非均匀纹理特征，且存在与裂纹相似的晶粒伪缺陷，同时裂纹表现为形状多样的多尺度特征，以上难点为检测任务带来了极大的挑战。因此，本文提出融合注意力的多尺度Faster-RCNN模型，一方面，采用改进的特征金字塔网络获取多尺度的高级语义特征图，以此来提高网络对多尺度裂纹缺陷的特征表达能力。另一方面，采用改进的注意力区域推荐网络A-RPN，提高模型对裂纹缺陷的关注并抑制复杂背景及晶粒伪缺陷的特征。同时，在RPN网络训练过程中，采用损失函数Focal loss，以此来降低训练过程中简单样本所占比重，使其更加关注难以区分的样本。实验结果表明，改进的算法使得EL图像裂纹缺陷检测的准确率提高，达到接近95%。

多尺度特征提取；注意力模块；Focal loss函数

1 引言

由于太阳能清洁、安全、无害、充足的特点，光伏发电已成为最受欢迎的可再生能源发电方式之一。光伏电池作为光伏发电的载体，在其生产、部件组装以及运输过程中，因晶体结构的脆弱性或者操作不当等不稳定因素的影响，不可避免地会产生裂纹缺陷。裂纹缺陷的存在将降低电池片的发电效率、缩短使用寿命、导致光伏组件运行故障，甚至影响光伏发电系统的安全性。因此，实现光伏电池的裂纹缺陷检测具有十分重要的现实意义。

Anwar等人[1]利用图像分割和形状分析技术提取裂纹的形状特征作为支持向量机(support vector machine，SVM)分类器的输入，实现了电致发光(electroluminescence，EL)图像的微裂纹缺陷检测。Chen等人[2]为了获得表达能力更强的缺陷特征，对局部二值模式(local binary patterns，LBP)[3]进行改进，提出了一种新颖的特征描述符，称为中心像素信息中心对称局部二值模式(CPICS-LBP)，并结合SVM分类器完成了低分辨率128´128像素的EL图像块的裂纹缺陷识别。Tsai等人[4]提出一种各向异性扩散方案，在生成的扩散图像中进行二进制阈值处理后，通过形态学运算以检测具有低灰度和高梯度特性的微小裂纹缺陷。上述人工定义缺陷特征的表达能力有限，对于EL图像中形状多样的多尺度裂纹缺陷而言，算法的鲁棒性和泛化能力不够好。

随着计算机软硬件的发展，深度学习算法被逐渐应用于工业缺陷检测领域，并获取了较为出色的性能。Young-Jin等人[5]采用卷积神经网络(convolutional neural networks，CNN)与滑动窗口技术相结合，实现了混凝土裂纹的检测，但模型无法获得输入图像的全局特征信息且难以找到最佳的滑动窗口尺寸。Lin等人[6]利用传统的卷积神经网络生成热图的方式实现了背景均匀的LED芯片图像的缺陷识别以及定位。如今多种深度学习目标检测算法被提出，如一阶段网络Yolo，CenterNet[7]，RetinaNet[8]；二阶段网络Fast RCNN[9]、Faster RCNN[10]等。相比于一阶段目标检测网络，二阶段将特征提取与区域推荐网络相结合，使得网络实现了端到端检测，检测精度也相对更高。Cha等人[11]基于Faster RCNN算法开发了实时损伤检测的框架，有效地检测五种类型的表面缺陷。为适应目标尺度变化，高琳等人[12]结合特征金字塔网络提出了一种融合多尺度上下文卷积的车辆目标检测算法。为了增强低层特征与最顶层特征之间的特征联系，Liu等人[13]在特征金字塔结构的基础上添加自下而上的路径，提出了实例分割网络PANet。为了使模型对感兴趣区域更加关注，注意力机制被广泛研究。人类视觉系统在分析场景时，并不会立即针对整个图像进行处理，而是会选择性地关注于突出的部分，即注意力在人类感知中起到了重要作用[14]。在CNN中，注意力模块起着与人类的注意力感知类似的作用，其通过赋予特征图中的缺陷区域更高的权重，以实现强调目标对象特征的目的，抑制图像背景的噪声干扰。

光伏电池EL图像是电池片采用电致发光[15]技术，由近红外CCD相机在EL成像采集系统(图1)中捕获的，图像像素大小为1024´1024。

图1 EL成像采集系统

对于光伏电池EL图像，其检测难点主要有：

1) 任意样本之间的非均匀纹理复杂背景均不相同，具有较高转换效率的无缺陷区域表现为较亮的特点，裂纹缺陷和晶粒表现为更暗。现有的目标检测算法不能很好地抑制复杂背景对裂纹检测的干扰。2) EL图像背景包含主栅线、副栅线、晶粒等结构，由于其特殊的生产工艺，晶粒具有大小不同、方向不一且随机分布的特点。更重要的是，部分晶粒伪缺陷的结构与裂纹缺陷具有极高的相似性，这使得检测中极易出现误检。3) 第三，裂纹缺陷的尺寸、形状的多样性。尺寸多样性表现为裂纹大小多样、纵横比多样；形状多样性具体表现为横向、纵向和拓扑结构的复杂树状裂纹，见图2。

针对以上难点，本文的主要贡献有：1) 采用改进的特征金字塔网络获取高分辨率、多尺度的高级语义特征图，以此来提高网络在复杂背景下对多尺度裂纹缺陷的特征表达能力；2) 采用改进的注意力区域推荐网络(attention region proposal network, A-RPN)，关注裂纹特征并抑制复杂背景及其中的晶粒伪缺陷的特征；3) 在RPN训练过程中采用分类损失函数Focal loss，以此来降低训练过程中简单样本所占比重，使模型更加关注难以区分的样本，进一步提升检测效果。总的来说，提出的融合注意力的多尺度Faster-RCNN模型，在解决非均匀纹理复杂背景的EL图像的裂纹缺陷检测任务中，表现出更优的检测性能。

2 EL图像裂纹检测算法

Faster-RCNN包括特征提取网络、区域推荐网络RPN、感兴趣区域池化ROI pooling，以及分类回归模块四个部分。基于此，本文提出的融合注意力的多尺度Faster RCNN模型，首先通过残差网络ResNet50与改进的路径聚合特征金字塔网络(path aggregation feature pyramid network, PA-FPN)相结合，将提取的多尺度特征图输入融合卷积注意力模块的A-RPN网络与ROI pooling中，进一步完成裂纹的检测，模型结构见图3。

图2 非均匀纹理随机背景的EL图像。矩形框标记为晶粒，三角框标记为与裂纹高度相似的晶粒伪缺陷，椭圆标记为裂纹

图3 融合注意力的多尺度Faster-RCNN模型

2.1 多尺度特征提取网络

本文工作是检测光伏电池EL图像中的裂纹缺陷，裂纹表现为尺度变化较大、形状各异的特点。现有的Faster RCNN直接将特征提取网络最后一层输出的特征用作后续分类回归，由于浅层网络包含的特征信息易被丢失，会导致小目标裂纹特征无法充分提取，出现漏检问题。本文在特征金字塔网络FPN的基础上提出采用改进的路径聚合特征金字塔网络(path aggregation feature pyramid network, PA-FPN)与残差网络ResNet50相结合，提升模型对多尺度裂纹缺陷的特征表达能力。

2.2 融合注意力的RPN网络

2.2.1 Anchor设置

区域推荐网络RPN是Faster RCNN的重大改进，RPN通过滑动窗口为其输入特征图的每一个点配置个锚框anchor，进一步通过分类器及bounding box regression回归原理完成对目标区域的推荐。设置anchor时，在给定基础锚框尺寸的基础上，不仅需要给定不同尺度的scale参数，还需要考虑目标的纵横比ratio参数。

为了生成更加接近数据集中实际目标缺陷尺寸的锚框，提高算法在缺陷检测过程中对位置回归的速度及准确性，采用k-means聚类对anchor大小的设置进行指导。针对特定数据集中的目标缺陷尺寸进行聚类，即计算手动标记的ground-truth与聚类中心的交并比(IOU)，以1-IOU距离度量进行聚类，指导RPN生成与实际缺陷的形状更加匹配的anchor，进一步完成缺陷的定位与检测。其实现过程如下：

3) 计算数据集中的标注框与个聚类中心点的距离，其中：

4) 直到所有标注框分配完毕，对每一个簇计算最终的聚类中心点：

针对光伏电池EL数据集裂纹缺陷，通过k-means聚类找到了anchor较合适的纵横比ratio，分别为{0.25，0.5，1，1.66，2.1，3.3}，提高了RPN生成的先验框的稳定性。实验证明，增加anchor的数量，训练增加的时间并不明显。

图4 路径聚合特征金字塔PA-FPN

2.2.2 注意力模块

卷积注意力模块CBAM由通道注意力与空间注意力两个互补的模块相连接组成，可以抑制复杂背景的特征同时突出缺陷的特征，并集中于复杂背景下光伏电池EL图像中裂纹的空间位置。其中，通道注意力着重于目标“是什么”，通过将包含更多缺陷信息的通道赋予更大的权重，将包含更多背景信息的通道赋予较小的权重，从而来选择包含有用缺陷特征信息的通道。空间注意力会告诉网络缺陷“在哪里”，帮助网络定位缺陷在特征图中的位置。提出注意力区域推荐网络A-RPN可以在复杂背景的干扰下生成更加准确的缺陷推荐区域，进一步提升模型的目标检测效果。

图5 融合注意力CBAM的检测模型

2.2.3 损失函数Focal loss

在RPN网络中，训练过程通过采用交叉熵损失函数来优化参数。对于二分类交叉熵损失函数：

3 实验与分析

光伏电池EL图像的裂纹缺陷检测算法是在Pycharm上基于TensorFlow的深度学习框架进行编程，实验环境是在Ubuntu 18.04平台系统上完成，用于训练的计算机是具有64 GB内存的Inter Xeon W 2123和具有12 GB显存的Titan XP图形卡。

3.1 数据集标注

数据集中的所有图像都采用LabelImg标注软件进行标注。通过使用不同大小的矩形框进行手动标记缺陷位置的同时给定类别标签，制作了VOC2007格式的光伏电站EL图像数据集，随机分配构成模型的训练集和测试集。表1显示了数据集配置。

表1 光伏电池EL图像数据集

3.2 实验结果与分析

本文采取平均精度(average precision, AP)来评估检测模型的性能。AP值的计算与准确率(precision，简写为pre)、召回率(recall，简写为recall)有关，表示的是以召回率作为横坐标，准确率作为纵坐标，绘制的精确/召回率(PR)曲线下的面积[17]。对于给定的类别，准确率和召回率分别定义为

其中：P为分类正确的缺陷目标的个数，P为背景分类为缺陷目标的个数，N是缺陷正样本被错误地分为负样本的个数。

为了更好地评估网络模型的性能，首先对模型参数进行了选取，设置训练迭代次数为20000，学习率为0.0001。在RPN网络中，生成的proposal足够多会在一定程度避免出现缺陷的漏检，但是全部用于后续训练会降低网络的训练速度，加重训练计算负担。因此，需要采用非极大值抑制算法NMS完成proposal的选择，这里设置RPN网络训练时的非极大值抑制阈值参数为0.7，NMS之后的proposal数量设置为2000。其他详细参数见表2。

表2 模型的参数配置

图6 特征图可视化对比

图7 RPN结合注意力CBAM前后的特征图

为了证明所提方法的有效性，在EL数据集上进行了如表3所示的实验。由表可知，采用原始的Faster RCNN对EL图像的多尺度裂纹检测时，最终的AP值为87.68%。在此基础上，RPN网络结合损失函数Focal loss，AP值提升了1.25%。然后模型融合注意力CBAM模块，同时特征提取采用ResNet与改进的路径聚合PA-FPN，模型的AP值分别提高了3.33%和2.49%，达到94.75%。这说明，利用注意力CBAM关注裂纹特征并抑制复杂背景及其中的晶粒伪缺陷的特征，以及利用PA-FPN提取多尺度特征，可以更好地提升对多尺度裂纹尤其是小目标裂纹的检测结果。值得注意的是，在RPN与Focal loss结合的基础上，将通道注意力与空间注意力融合到RPN中的AP值分别为88.94%和87.92%。这说明，只融合通道注意力对模型的检测效果影响不大，且只融合空间注意力会使模型的检测结果下降1.01%。再一次验证了文献[18]中提到的：注意力模块CBAM优于仅使用其中一种注意力对模型检测结果的影响。

3.3 实验对比

将本文改进的模型与Faster RCNN、CenterNet、RetinaNet等模型在光伏电池EL图像下的检测效果进行对比，通过平均准确率AP评估其性能，如表4所示。

根据实验结果可以看出，改进的Faster RCNN检测网络的AP值高于原始的二阶段检测网络Faster RCNN、一阶段检测网络CenterNet和RetinaNet。对于CenterNet，基于DLA特征提取的模型优于基于残差网络ResNet18的模型，整体性能与原始的Faster RCNN模型性能相近，但由于CenterNet模型对于检测小目标以及尺度变化大的目标适应性不是很好，使得模型整体的性能远低于改进的多尺度Faster RCNN。另外，经典的一阶段检测网络RetinaNet比多尺度Faster RCNN模型的精度低10.22%，究其原因，由于EL图像具有非均匀复杂纹理特征，背景中包含栅线以及大量的不规则晶粒，而RetinaNet无法抑制复杂背景对裂纹检测的干扰，因此对于条状目标的泛化能力差。

图8显示了不同检测模型对EL图像的对比检测结果。可以看出，对于同一张非均匀纹理复杂背景的光伏电池EL图像，CenterNet的检测结果与原始的Faster RCNN接近，但仍然存在小目标的漏检，而且模型对目标框的回归也不够精确。而RetinaNet由于无法更好地抑制复杂背景的干扰，且模型对较窄的条状目标适应性不是很好，使其对裂纹缺陷的漏检率较高，模型的检测性能较差。对于融合注意力的多尺度Faster RCNN模型，尽管EL图像具有非均匀纹理复杂背景，明暗度也不同，裂纹缺陷既包含树状、条状且它们的尺度都不同，改进的模型依旧可以准确地识别出裂纹缺陷，且对它们回归的目标框也较为精准。这是因为，融合注意力的多尺度Faster R-CNN在深度残差网络ResNet50的基础上，采用了PA-FPN结构对多层特征进行融合，获取多尺度的特征图来表达更为复杂的语义信息，对于多尺度裂纹尤其是尺度较小的裂纹检测效果较好。另一方面，RPN融合了注意力模块CBAM与损失函数Focal loss，提高了网络对裂纹缺陷以及难以区分的样本的比重，提高了模型对缺陷与背景的区分度，很好地提升了检测精度。

表3 基于Faster-RCNN 算法的EL图像检测性能

表4 不同算法在光伏电池EL图像上的检测性能

图8 不同算法在光伏电池EL图像上的检测结果对比图

总的来说，融合注意力的多尺度Faster RCNN一方面抑制了EL图像复杂背景对裂纹检测的干扰，另一方面模型对于EL图像中尺度变化较大、形状多样且较窄的裂纹缺陷的适应性很好，降低了小目标裂纹漏检的几率，提升了整个模型的检测性能。

4 结论

基于光伏电池EL图像的裂纹缺陷检测，本文提出了融合注意力的多尺度Faster-RCNN模型，将ResNet50与路径聚合特征金字塔PA-FPN相结合，同时采用改进的注意力区域推荐网络A-RPN与损失函数Focal loss，提高了网络在非均匀纹理复杂背景下对多尺度裂纹缺陷的检测能力。相比于几种经典的目标检测算法，改进的模型具有更优的检测性能。本文的研究为光伏电池EL图像的多尺度裂纹检测提供了一种较为有效的方法。下一步将继续研究更高精度的目标检测算法，进一步探讨如何增强缺陷特征抑制背景的干扰以提升网络的性能。

[1] Anwar S A, Abdullah M Z. Micro-crack detection of multicrystalline solar cells featuring shape analysis and support vector machines[C]//,, 2012: 143‒148.

[2] Su B Y, Chen H Y, Zhu Y F,. Classification of manufacturing defects in multicrystalline solar cells with novel feature descriptor[J]., 2019, 68(12): 4675‒4688.

[3] Luo Q W, Sun Y C, Li P C,. Generalized completed local binary patterns for time-efficient steel surface defect classification[J]., 2019, 68(3): 667‒679.

[4] Tsai D M, Chang C C, Chao S M. Micro-crack inspection in heterogeneously textured solar wafers using anisotropic diffusion[J]., 2010, 28(3): 491‒501.

[5] Cha Y J, Choi W, Büyüköztürk O. Deep learning‐based crack damage detection using convolutional neural networks[J]., 2017, 32(5): 361‒378.

[6] Lin H, Li B, Wang X G,. Automated defect inspection of LED chip using deep convolutional neural network[J]., 2019, 30(6): 2525‒2534.

[7] Duan K W, Bai S, Xie L X,. Centernet: keypoint triplets for object detection[C]//, 2019: 6568‒6577.

[8] Lin T Y, Goyal P, Girshick R,. Focal loss for dense object detection[C]//, 2017: 2999‒3007.

[9] Girshick R. Fast R-CNN[C]//, 2015: 1440‒1448.

[10] Ren S Q, He K M, Girshick R,. Faster R-CNN: towards real-time object detection with region proposal networks[C]//, 2015: 91‒99.

[11] Cha Y J, Choi W, Suh G,. Autonomous structural visual inspection using region‐based deep learning for detecting multiple damage types[J]., 2018, 33(9): 731‒747.

[12] Gao L, Chen N N, Fan Y. Vehicle detection based on fusing multi-scale context convolution features[J]., 2019, 46(4): 180331.

高琳, 陈念年, 范勇. 融合多尺度上下文卷积特征的车辆目标检测[J]. 光电工程, 2019, 46(4): 180331.

[13] Liu S, Qi L, Qin H F,. Path aggregation network for instance segmentation[C]//, 2018: 8759‒8768.

[14] Corbetta M, Shulman G L. Control of goal-directed and stimulus-driven attention in the brain[J]., 2002, 3(3): 201‒215.

[15] Frazão M, Silva J A, Lobato K,. Electroluminescence of silicon solar cells using a consumer grade digital camera[J]., 2017, 99: 7‒12.

[16] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//, 2018: 7132‒7141.

[17] Everingham M, Van Gool L, Williams C K I,. The PASCAL visual object classes (VOC) challenge[J]., 2010, 88(2): 303‒338.

[18] Woo S, Park J, Lee J Y,. CBAM: convolutional block attention module[C]//, 2018: 3‒19.

Crack detection based on multi-scale Faster RCNN with attention

Chen Haiyong1*, Zhao Peng1, Yan Haowei2

1School of Artificial Intelligence, Hebei University of Technology, Tianjin 300000, China;2Tianjin Aerospace Zhongwei Data System Technology Co., Ltd, Tianjin 300000, China

Multiscale crack detection network structure

Overview:Electroluminescence (EL) images of photovoltaic cells have a non-uniformly textured complex background, and the background contains grain pseudo-defects that are highly similar to the crack structure. At the same time, the cracks are characterized by various sizes and shapes. Existing target detection algorithms based on convolutional neural networks cannot adapt to the above problems. From the perspective of suppressing interference from complex background and improving the adaptability of the model to multi-scale crack defect detection, this paper proposes a multi-scale Faster RCNN model that integrates attention. In photovoltaic cell EL images, the scale of the cracks varies greatly, including a large number of small target cracks. In order to improve the network's ability to express multi-scale crack defects, a path aggregation feature pyramid network (PA-FPN) is proposed. Based on the combination of the residual network ResNet50 and the feature pyramid network FPN, PA-FPN adds a bottom-up path to fuse features. PA-FPN effectively retains shallow feature information, which improves the model's adaptability to multi-scale cracks in EL images and especially the detection results of small-scale cracks. In order to improve the model's attention to crack defects and suppress the characteristics of complex background and grain pseudo-defects, this paper proposes a regional recommendation network A-RPN that incorporates convolutional block attention module (CBAM). CBAM is composed of a channel attention module and a spatial attention module. In this paper, it is experimentally verified that the detection result of the RPN network fused with CBAM is better than that of using an attention modules alone. K-means clustering is used to cluster the crack sizes in the data set to guide the RPN to set the anchor box closer to the actual crack size, which improves the speed and accuracy of the target box regression in the defect detection process. In addition, in the RPN network training process, the loss function Focal loss is used to replace the original cross-entropy loss function, so as to reduce the proportion of simple samples in the training process and make the model pay more attention to the samples that are difficult to distinguish. The entire network can achieve end-to-end training. In order to verify the effectiveness of the improved algorithm, the performance of the original Faster RCNN model, RetinaNet, and CenterNet on multi-scale crack detection of EL images is compared. Through training and testing of 1024 pixels´1024 pixels of photovoltaic cell EL images, experimental results show that the improved Faster RCNN is better than the above mentioned target detection algorithms in accuracy, and has good robustness to the strip-shaped multi-scale cracks, which can be adapted to the EL image with changing complex background.

Chen H Y, Zhao P, Yan H WCrack detection based on multi-scale Faster RCNN with attention[J].2021, 48(1): 200112; DOI: 10.12086/oee.2021.200112

Crack detection based on multi-scale Faster RCNN with attention

Chen Haiyong1*, Zhao Peng1, Yan Haowei2

1School of Artificial Intelligence, Hebei University of Technology, Tianjin 300000, China;2Tianjin Aerospace Zhongwei Data System Technology Co., Ltd, Tianjin 300000, China

The background of the EL image of a photovoltaic cell under electroluminescence (EL) presents complex non-uniform texture features, and there are grain pseudo-defects similar to cracks. At the same time, the cracks appear as multi-scale features with various shapes. The above mentioned difficulties have presented great challenges for the detection task. Therefore, this paper proposes a multi-scale Faster-RCNN model that integrates attention. On the one hand, an improved feature pyramid network is used to obtain multi-scale advanced semantic feature maps to improve the network's feature expression ability of multi-scale crack defects. On the other hand, an improved attention region proposal network A-RPN is adopted to increase the model's attention to crack defects and suppress the characteristics of complex background and grain pseudo-defects. At the same time, in the RPN network training process, a loss function Focal loss is used to reduce the proportion of simple samples in the training process, so that the model pays more attention to the samples that are difficult to distinguish. Experimental results show that this algorithm improves the accuracy of crack defect detection in EL images, reaching nearly 95%.

multi-scale feature extraction; attention module; focal loss function

TP391.41

10.12086/oee.2021.200112

National Natural Science Foundation of China (61873315)

* E-mail: haiyong.chen@hebut.edu.cn

陈海永，赵鹏，闫皓炜. 融合注意力的多尺度Faster RCNN的裂纹检测[J]. 光电工程，2021，48(1): 200112

Chen H Y, Zhao P, Yan H WCrack detection based on multi-scale Faster RCNN with attention[J]., 2021, 48(1): 200112

2020-04-02；

2020-06-15

国家自然科学基金资助项目(61873315)

陈海永(1980-)，男，博士，教授，主要从事计算机视觉的研究。E-mail：haiyong.chen@hebut.edu.cn