基于改进YOLOv5的金属工件表面缺陷检测

2022-08-23王一龚肖杰程佳苏皓

包装工程 2022年15期

王一，龚肖杰，程佳，苏皓,3

王一1,2，龚肖杰1，程佳1，苏皓1,3

（1.华北理工大学电气工程学院，河北唐山 063210；2.唐山市金属构件产线智能化技术创新中心，河北唐山 063210；3.唐山市半导体集成电路重点实验室，河北唐山 063210）

针对金属工件表面小尺寸缺陷检测精度低的问题，提出以YOLOv5网络为基础，结合注意力机制与Ghost卷积的表面缺陷检测算法。首先，在原网络中增加SE通道注意力模块，增加缺陷有关信息的权重，减少无用特征的干扰，从而提高目标的检测精度。然后，将网络中空间金字塔池化模块的池化方式由最大池化替换为软池化，使得在下采样激活映射中保留更多的特征信息，获得更好的检测精度。最后，采用Ghost卷积块替换主干网络中的常规卷积模块，提取丰富特征及冗余特征，以此提高模型效率。改进后网络平均精度均值达到0.997 8，相比原网络提高了7.07个百分点。该网络显著提高了金属工件表面缺陷检测的精度。

表面缺陷检测；YOLOv5模型；通道注意力；软池化；Ghost卷积

金属材料工件是一些产品的重要组成部分，金属工件的质量不仅影响产品的寿命及企业的发展，更可能危机使用者的安全，因此对金属工件表面缺陷进行检测至关重要。

传统方法对金属工件表面缺陷检测具有过程烦琐，难以实现自动检测；检测速度较慢，检测效率较低；检测容易产生误检、漏检等缺点[1]。采用深度学习及其他方法解决传统方法在金属表面检测存在的一些问题。代小红等[2]针对传统方法对工件表面缺陷检测过程烦琐、精度不高、准确率较低等问题，通过数据增强扩充数据集，并在Faster RCNN网络中引入非极大值及多级ROI池化层结构，实现对零件表面缺陷的准确检测。陈宗仁等[3]针对传统方法对图像处理准确性差的问题，提出用中值滤波和深度学习结合，用多个级联分类器和决策权重实现零件缺陷的检测，相较于传统方法，此方法准确率更高。Qiu等[4]设计由双加权主成分分析算法的图像配准模块与有先验约束的图像差分算法的缺陷检测模块组成的框架实现金属零件自动检测，该框架提高了金属表面缺陷检测的准确性。Liu等[5]采用提高信号分辨率的SPWVD方法和CNN算法实现金属表面的有效检测。通过激光器获取缺陷信息，并采用数据增强对数据扩增，提高缺陷检测特性，此方法对处理激光超声信号和缺陷分类具有一定效果。Lee等[6]利用光学获取铸造产品的3个信道融合数据，结合深度学习实现铸造产品表面缺陷的检测。该模型的平均精度达到88%远高于单通道数据缺陷检测的平均精度。

以上方法解决了传统方法在金属表面检测中存在的一些问题，但对于一些金属表面缺陷的检测效果不理想。以下方法可以进一步完善金属表面缺陷检测的准确性。Yang等[7]针对钢板上辊印具有周期性不均匀、对比度低、并且不同批次钢板缺陷特征差异比较大，缺陷分类准确度较低的问题，提出注意力与机制长短期记忆相结合周期性检测的方法，此方法有效地提高了辊印缺陷的检测准确度。但是对于其他类型的缺陷没有进行检测，也没有实现多分类的检测。He等[8]针对钢类表面缺陷检测分类率低的问题，提出了多组卷积神经网络和分类优先网络检测钢表面缺陷。图像分类采用MG-CNN，通过训练不同的卷积核组，从而提取不同类型缺陷的特征图组。通过大量的试验，其分类率和平均检出率均达到90%以上，该方法具有较好的检测效果。He等[9]对于钢板缺陷分类又提出了一种新的分级学习框架，即基于卷积神经网络Inception−V4和自编码器学习框架，此方法采用自编码器对特征进行降维，并引入多尺度感受野进行提取多尺度特征。经过实验，分类率远远高于传统方法，达到97%以上。程婧怡等[10]针对金属表面特征不清晰及小尺寸目标导致漏检的问题，在YOLOv3中引入DIOU边框回归损失及K−Means++聚类并将浅层特征与深度特征融合，此方法提升了检测速度及精度。Wang等[11]针对金属表面不同缺陷检测效率低的问题，提出改进的YOLOv5检测网络，提出自适应锚帧的方法，并在主要部件中添加一个特征层，增强有用的特征信息。在预测部分采用有效的损失函数解决由于小尺寸目标所引起的数据不均衡的问题。

在基于深度学习的目标检测中，大目标的检测准确性正在逐渐完善，对于小目标的检测，需要进一步深入。为解决金属工件表面小尺寸缺陷检测精度低，容易产生漏检的问题，提出一种改进YOLOv5的金属工件表面缺陷检测方法。通过对YOLOv5网络结构进行改进，进而改善金属工件表面缺陷检测的精度。

1 YOLOv5网络

YOLO模型能直接预测目标类别和位置，并且一直在不断改进。YOLOv5模型是YOLO系列算法中检测速度及精度表现较好的检测算法[12]。根据网络宽度和宽度的不同YOLOv5模型又分为s、m、l、x这4个版本。对于金属工件表面缺陷的检测，考虑精度与速度的需要，选择YOLOv5s作为检测网络模型。YOLOv5网络模型结构见图1。

YOLOv5网络由Input、Backbone、Neck和Head等4部分组成[13]。输入端（Input）包括为扩充数据样本将输入图像随机裁剪、缩放、拼接操作的Mosaic数据增强，自适应锚框计算及自适应图片缩放。

主干网络（Backbone）主要由Focus、CBL、CSP、SPP模块组成，作为特征提取模块，提取三种尺度的特征图。避免原始信息丢失的Focus模块，处于输入与特征提取器之间，主要原理是切片操作，根据区域对输入图片进行裁剪，再在通道方向上拼接，可以保留更完整的特征。CBL模块将Focus切片处理的图像先后进行卷积、归一化、激活操作操作。YOLOv5的作者设计了2种CSP（Cross Stage Partial）模块，CSP1–x与CSP2–x分别用于主干部分和颈部。CSP主要对特征图进行特征提取。还可以在卷积神经网络优化过程中，减少梯度信息重复。YOLOv5 4种不同参数的型号是通过调整CSP模块的尺寸得到的。空间金字塔池化（Spatial Pyramid Pooling，SPP），先后进行卷积及最大池化操作，再将输出结果进行融合，扩大特征图的感受野，提取出重要的特征。

特征融合模块颈部（Neck）采用特征金字塔网络（Feature Pyramid Networks，FPN）+感知对抗网络（Perceptual Adversarial Networks，PAN）结构，FPN层采用上采样方式，融合网络自上而下的特征信息，实现语义特征的传递，PAN层则通过下采样方式，拼接低层与高层的特征，实现定位特征传递。两者强强联手，增强网络特征融合的能力，解决了多尺度的问题。

输出端（Head）作为预测部分，主要完成分类与回归。输出端包括GIOU损失函数和非极大值抑制（Non-Maximum Supression，NMS）。通过NMS可以通过消除多余的框，筛选目标框。通过输出端生成边界框并预测缺陷类别。

2 改进的YOLOv5网络

改进的YOLOv5模型结构见图2。在网络的主干部分将常规卷积用Ghost卷积替换，并用GhostBackbone替换主干网络的CSP模块，使网络轻量化。在主干网络3个GhostBackbone模块后分别加入1个SE模块，并在网络Neck与Head之间加入SE模块，实现对输入的校正，并增强模型对重要通道信息的选择，提高网络目标检测的精确率，特别是对于小尺寸缺陷。将主干网络中SPP中池化方式用Softpool代替，保留更多相关信息的特征，进一步提高金属工件表面缺陷目标检测的精度。

2.1 SE模块

网络中引入通道注意力模块，可以强化相关的通道信息，抑制无关紧要的通道信息，提高模型对目标特征的提取能力及检测精度。SE模块通过给每个通道一个权重，让不同通道对结果有着不同的作用力，并且SE模块很容易嵌入神经网络中[14]。SE模块见图3。

图1 YOLOv5网络结构

图2 改进YOLOv5网络结构

图3 SE通道注意力模块

输入经过卷积后得到维度为[,,]的特征图（），再对特征图进行Squeeze压缩，即对其进行平均池化或最大池化，维度降为[,1,1]，通道数不变，[,1,1]即为从每个通道中提取出来对特征提取有影响力的权重。压缩公式为：

池化操作后，进行Excitation激励操作，向量经过包括全连接层FC、激活函数ReLU与Sigmiod的MLP，得到每个通道的权重[,1,1]。激励公式为：

式中：为维度；c为经过激励ex操作后生成的注意力权重。

最后进行Reweight重定权重操作，将权重[,1,1]作用于维度为[,,]的特征图，即每个通道乘以各自的权重，完成权重的重新分配。加权公式为：

2.2 Softpool软池化

池化操作的本质是通过减小特征图尺寸。在目标识别任务中大都采用最大池化和平均池化，但是这两种池化容易丢失重要的缺陷信息。Softpool是一种高效、快速的池化方式，可以保留更多的金属工件缺陷特征信息，提高目标检测的精度[15]。Softpool可以使反向传播时，梯度值不断更新，并且是以指数加权方式累加激活。具体来说，Softpool利用内核区域内的最大近似，每个指数为的激活a应用一个权重w，该权重与相应的激活值做非线性变化，公式为：

2.3 Ghost卷积

Ghost卷积易于实现，可以很方便地代替常规卷积插入网络中，可以降低网络的计算量使其轻量化，并能保证网络检测的精度[16]。它的结构参照了mobilenetv3，并把基本单元替换掉。Ghost模块见图4。

图4 Ghost过程示意图

Ghost模块包含少量常规卷积及线性操作两部分。首先第1步将输入进行常规卷积，减少通道数。然后第2步在第1步的基础上进行深度可分离卷积，第2步还有卷积并行的一个连接分支。最后将第1步与第2步得到的结果进行融合。Ghost模块的输出通道数为第1步卷积后的通道数与第2步卷积后的通道数*之和，即最终通道数为(+1)*。

GhostBackbone模块包含2部分，首先第1部分输入依次经过常规卷积和具有残差结构的Ghost操作，第2部分输入经过常规卷积操作，然后将2部分的输出进行融合后经过一个常规卷积。

3 结果与分析

以凸轮轴为实验对象，搭建图像采集视觉平台采集图像，运用改进的算法实现凸轮轴表面缺陷的精确检测和识别。

3.1 实验设置与数据集

图像采集系统见图5，选用堡盟的VCXG–25.1工业相机和computar M1614–MP2工业镜头，以及2个条形LED光源。将光源放置在待检凸轮轴两侧，并形成约45°的照明角度，减少金属表面的强反光，从而增加缺陷与背景的对比度。

用于深度学习的硬件采用Intel(R) Core(TM) i5–1035G1中央处理器和MX350显卡，软件框架采用Pytorch。训练epoch设为150，学习率设置为0.000 1，动量参数设置为0.92，权重衰减系数设置为0.000 5，并选用Adam优化器训练网络，GIOU–loss作为损失函数，公式为：

其中：为交并比；Ac为真实目标边界框与预测目标边界框最小外接矩形框面积；U为真实与预测目标边界框的并集面积。

通过图像视觉平台采集了凸轮轴污渍、划痕、及凹坑3种缺陷图像，并分别用bl、sc、sca字母代表，其中污渍130张，划痕与凹坑分别100张。对采集图像通过裁剪、翻转进行扩增，得到1 782张缺陷图像，并对1 782图像使用labelme软件进行标记用于模型训练。采集污渍图像70张，划痕图像54张，凹坑图像57张，经过数据增强后得到505张图像，用于验证。为了保证图像长宽比例，使用letterbox方式填充，图像填充前后对比图图见6。

3.2 评价指标

选用平均精度均值（Mean Average Precision，mAP）作为评价指标，mAP是所有类别平均精度AP的均值。AP是精确率和召回率曲线下的面积[17]。精确率、召回率及平均精度均值mAP公式为：

3.3 实验结果与分析

在相同硬件和数据集条件下，分别将原YOLOv5网络、在原网络中加入Ghost卷积的YOLOv5–G网络、在原网络中改变SPP池化方式的YOLOv5–SP网络、在原网络中加入SE通道注意力的YOLOv5–SE网络、在原网络中同时有Ghost卷积、SE通道注意力并运用Softpool的YOLOv5–G–SP–SE网络进行训练和测试。5个模型的损失值变化曲线图见图7，损失图横坐标表示权重更新的次数，纵坐标表示损失值。从图7中可以看出各个模型迭代几次后，损失值降到较低的数值，并保持下降，当Epoch值为120时，损失值保持相对稳定水平，改进后模型整体收敛性比较好，训练效果较理想。

各模型的mAP值见图8。从图8中可以看出，120次之后，5种模型基本趋于平稳。原YOLOv5网络mAP值达到0.9271，YOLOv5–G网络mAP值达到0.939 4，YOLOv5–SP网络mAP值达到0.961 6，YOLOv5–SE网络mAP值达到0.972 1，YOLOv5–G– SP–SE网络mAP值达到0.997 8。改进后的YOLOv5– G–SP–SE网络mAP值高于原始网络，改进的网络能够提取到更多关键信息，在目标检测和定位性能上优于未改进的网络，能更好地检测识别出凸轮轴表面的缺陷。

几种模型检测的效果对比见图9，目标框的左上角字母表示凸轮轴表面缺陷类别，右上角的数值表示置信度。从图9中可以看出，改进后的YOLOv5–G– SP–SE网络对于凸轮轴表面缺陷置信度高于98%。与原网络相比，改进后的网络可以提取出更多丰富的缺陷特征，正确预测的置信度更高，能更准确地鉴别凸轮轴表面缺陷类别，并且预测框可以准确地定位缺陷的位置。

图7 损失值变化曲线

图8 平均精度均值

图9 检测效果对比

4 结语

为解决金属工件表面小尺寸缺陷，容易导致漏检，检测精度低的问题，文中提出了改进的YOLOv5网络检测金属工件表面的缺陷。在网络中引入注重重要信息目标区域的SE通道注意力模块、Softpool池化及插即用的Ghost模块，增强了模型的特征提取能力，保留更多有用的特征信息，降低漏检小缺陷概率。改进后的YOLOv5–G–SP–SE网络在目标检测任务中比原网络具有更高的检测精度，能更准确的检测出金属工件表面的缺陷。

[1] 徐镪, 朱洪锦, 范洪辉, 等. 改进的YOLOv3网络在钢板表面缺陷检测研究[J]. 计算机工程与应用, 2020, 56(16): 265-272.

XU Qiang, ZHU Hong-jin, FAN Hong-hui, et al. Study on Detection of Steel Plate Surface Defects by Improved YOLOv3 Network[J]. Computer Engineering and Applications, 2020, 56(16): 265-272.

[2] 代小红, 陈华江, 朱超平. 一种基于改进Faster RCNN的金属材料工件表面缺陷检测与实现研究[J]. 表面技术, 2020, 49(10): 362-371.

DAI Xiao-hong, CHEN Hua-jiang, ZHU Chao-ping. Surface Defect Detection and Realization of Metal Workpiece Based on Improved Faster RCNN[J]. Surface Technology, 2020, 49(10): 362-371.

[3] 陈宗仁, 谢文达, 余君, 等. 基于深度学习的金属机械零件表面缺陷检测方法[J]. 制造业自动化, 2021, 43(12): 170-173.

CHEN Zong-ren, XIE Wen-da, YU Jun, et al. Surface Defect Detection Method of Metal Mechanical Parts Based on Deep Learning[J]. Manufacturing Automation, 2021, 43(12): 170-173.

[4] QIU Ke-peng, TIAN Luo, WANG Peng. An Effective Framework of Automated Visual Surface Defect Detection for Metal Parts[J]. IEEE Sensors Journal, 2021, 21(8): 20412-20420.

[5] LIU Zi-xi, HU Zheng-liang, WANG Long-xiang, et al. Effective Detection of Metal Surface Defects Based on Double-Line Laser Ultrasonic with Convolutional Neural Networks[J]. Modern Physics Letters B, 2021, 35(15): 2150263.

[6] HYUK L J, HAK K B, YOUNG K M. Machine Learning-Based Automatic Optical Inspection System with Multimodal Optical Image Fusion Network[J]. International Journal of Control, Automation and Systems, 2021, 19(10): 3503-3510.

[7] LIU Yang, XU Ke, XU Jin-wu. Periodic Surface Defect Detection in Steel Plates Based on Deep Learning[J]. Applied Sciences, 2019, 9(15): 1-14.

[8] HE Di, XU Ke, ZHOU Peng. Defect Detection of Hot Rolled Steels with a New Object Detection Framework Called Classification Priority Network[J]. Computers & Industrial Engineering, 2019, 128: 290-297.

[9] HE Di, XU Ke, WANG Da-dong. Design of Multi-Scale Receptive Field Convolutional Neural Network for Surface Inspection of Hot Rolled Steels[J]. Image and Vision Computing, 2019, 89: 12-20.

[10] 程婧怡, 段先华, 朱伟. 改进YOLOv3的金属表面缺陷检测研究[J]. 计算机工程与应用, 2021, 57(19): 252-258.

CHENG Jing-yi, DUAN Xian-hua, ZHU Wei. Research on Metal Surface Defect Detection by Improved YOLOv3[J]. Computer Engineering and Applications, 2021, 57(19): 252-258.

[11] WANG Kun, TENG Zi-xuan, ZOU Teng-yue. Metal Defect Detection Based on Yolov5[J]. Journal of Physics: Conference Series, 2022, 2218(1): 012050.

[12] YAN Peng-cheng, SUN Quan-sheng, YIN Ni-ni, et al. Detection of Coal and Gangue Based on Improved YOLOv5.1 Which Embedded ScSE Module[J]. Measurement, 2022, 188: 110530.

[13] YING Zhi-ping, LIN Zhong-tao, WU Zhen-yu, et al. A Modified-YOLOv5s Model for Detection of Wire Braided Hose Defects[J]. Measurement, 2022, 190: 110683.

[14] 谢书翰, 张文柱, 程鹏, 等. 嵌入通道注意力的YOLOv4火灾烟雾检测模型[J]. 液晶与显示, 2021, 36(10): 1445-1453.

XIE Shu-han, ZHANG Wen-zhu, CHENG Peng, et al. Firesmoke Detection Model Based on YOLOv4 with Channel Attention[J]. Chinese Journal of Liquid Crystals and Displays, 2021, 36(10): 1445-1453.

[15] HU Yao-wen, ZHAN Jia-lei, ZHOU Guo-xiong, et al. Fast Forest Fire Smoke Detection Using MVMNet[J]. Knowledge-Based Systems, 2022, 241: 108219.

[16] 李北明, 金荣璐, 徐召飞, 等. 基于特征蒸馏的改进Ghost-YOLOv5红外目标检测算法[J]. 郑州大学学报(工学版), 2022, 43(1): 20-26.

LI Bei-ming, JIN Rong-lu, XU Zhao-fei, et al. An Improved Ghost-YOLOv5 Infrared Target Detection Algorithm Based on Feature Distillation[J]. Journal of Zhengzhou University (Engineering Science), 2022, 43(1): 20-26.

[17] WAN Guang, FANG Hong-bo, WANG Deng-zhun, et al. Ceramic Tile Surface Defect Detection Based on Deep Learning[J]. Ceramics International, 2022, 48(8): 11085-11093.

Surface Defect Detection of Metal Workpiece Based on Improved YOLOv5

WANG Yi1,2, GONG Xiao-jie1, CHENG Jia1, SU Hao1,3

(1. College of Electrical Engineering, North China University of Science and Technology, Hebei Tangshan 063210, China; 2. Tangshan Technology Innovation Center of Intellectualization of Metal Component Production Line, Hebei Tangshan 063210, China; 3. Tangshan Key Laboratory of Semiconductor Integrated Circuits, Hebei Tangshan 063210, China)

The work aims to propose a surface defect detection method based on YOLOv5 network by combining attention mechanism and Ghost convolution to solve problem of low detection accuracy of small size defects on metal workpiece surface. First, the SE channel attention module was added to the original network. The weight of the defect-related information was increased and the interference of useless features was reduced to improve the detection accuracy of the target. Then, the maxpool module of the spatial pyramid pooling module in the network was replaced with Softpool so as to retain more feature information in the down sampling activation map and obtain a better classification accuracy. Finally, Ghost convolutional blocks were used to replace the conventional convolutional modules in the backbone network to extract rich and redundant features and improve the efficiency of the model. The mean average accuracy of the improved network reached 0.997 8, increased by 7.07% over the original network. The proposed network significantly improves the accuracy of surface defect detection in metal workpieces.

surface defect detection; YOLOv5 model; channel attention; Softpool; Ghost convolution

TP391

1001-3563(2022)15-0054-07

10.19554/j.cnki.1001-3563.2022.15.006

2022–05–11

河北省高等学校科学技术研究项目（ZD2022114）；唐山市科技计划项目（21130212C）

王一（1981—），男，博士，华北理工大学副教授，主要研究方向为视觉检测与感知技术。

责任编辑：曾钰婵