轻量化卷积神经网络下的钢梁表面缺陷实时检测

2022-05-14宋小红王森

机械科学与技术 2022年4期

宋小红，王森

（1.河南省工业学校机电工程系，郑州 450011；2.昆明理工大学机电工程学院，昆明 650500）

钢梁表面受外部环境和交变载荷的影响而产生的缺陷极易引发性质严重的安全事故[1]。这些缺陷多以粗裂纹、细微裂纹或划痕的形式存在。常用的钢梁缺陷无损检测方法通常需要借助设备仪器并结合超声波、磁粉或渗透等技术完成检测，这些方法在特定场合具有一定的适用性，但实现前提却需要检测人员具备较高的技术水平，而且检测耗时[2]。

利用视觉或图像处理的方式可智能化获取钢梁表面的缺陷信息。如融合小波边缘检测与多尺度结构化森林，可实现复杂环境下裂纹目标的精确分割[3]；自适应滤波和图像增强适用于桥梁裂纹实时检测[4]。利用改进的全卷积神经网络可有效获取结构体表面的裂纹特征，但裂纹分割速度难以满足工程应用的要求[5-6]。因此，利用网络轻量化技术在降低高算力设备依赖性的同时可以有效解决焊缝检测的精度不足问题[7]；将深度运动显著性与轻量化网络相结合也可快速提取视频对象的关键帧以实现精细目标检测[8]；将输入图像缩小以降低计算成本，再结合密集连接和膨胀卷积的多尺度特征网络可完成车牌的快速识别[9]。此外，网络轻量化技术在实时语义分割[10]、图像深度估计[11]和单副图像的超分辨率[12]等方面不仅具有效果强化的能力，而且能够有效缓解设备的运算载荷。其中，利用跨阶段分层结构改进YOLOv3 的骨干网络，在口罩佩戴检测中已取得较为优异的成果[13]。

利用深度学习算法生成的目标检测模型可分为单阶段检测模型和双阶段检测模型。其中，双阶段检测模型首先对目标可能存在的候选区域进行粗糙位置回归，再利用交并比算法进行候选区域的筛选以及精细化特征提取，从而实现目标预测。其有代表性的模型主要有R-CNN[14]、Faster-RCNN[15]等。而单阶段检测模型可直接完成目标位置的回归和类别预测，如SSD[16]、YOLO 系列[17-18]等。两种不同阶段的目标检测模型如图1 所示。相比之下，双阶段检测模型由于具有阶段性的特征提取与预测，其检测精度相对较高，但筛选大量的候选区域需要大量耗时。由于工业相机获取的钢梁表面缺陷尤其是裂纹多表现为无规则的非线性扩展，裂纹宽度、长短大小不一，且颜色多为深黑色。受钢梁自身污渍或光照等因素影响，非缺陷区域背景的杂质特征与缺陷特征极为相似。钢梁表面缺陷的有效特征主要包括表面轮廓、颜色、位置等浅层特征，利用浅层神经网络模型进行钢梁缺陷检测可以获得更多有效的精细化特征信息，防止检测的缺陷产生局部断裂。虽然深层神经网络有着较好的特征拟合能力，但多层特征传递会导致局部精细化能力逐渐丧失，处理每帧图像的耗时也相对增多。

图1 单阶段与双阶段目标检测模型比较

因此，选用运行速度较快的单阶段、轻量化的网络检测模型，在钢梁缺陷特征有效学习的同时有效降低检测的运算耗时。首先通过改进跨阶段局部网络[19]（Cross stage partial network，CSPnet）得到轻量化的卷积神经网络模型，其次利用该模型实现钢梁表面缺陷的快速实时检测。结果表明：网络模型的最高mAP可达到93.59%，帧率为每秒30.3 帧。在精度损失不大的前提下，其检测速度与YOLOv3相比提高4 倍，与YOLOv4 相比提高4.5 倍。

1 本文方法

1.1 跨阶段局部网络

计算机视觉领域中目标检测模型主要分为骨干网络（Backbone）、颈部（Neck）和头部（Head）这3 个部分。其中，骨干网络主要用于提取输入图像的多种特征，位于Backbone 与Head 之间的Neck 可以更好的融合Backbone 所提取的特征映射，并将处理后的融合特征传输至Head 实现目标预测。目前较为通用的ResNet[20]和DenseNet[21]等骨干网络虽然拥有良好的特征提取和缓解过拟合的能力，但较为复杂的推理计算过程会降低模型的检测速度。

为满足钢梁表面实时缺陷检测，首先选用一种具有跨阶段提取特征的骨干网络。该跨阶段局部网络（CSPnet）由多个跨阶段分层模块和过渡层组成。其中，分层模块可以将输入特征分解为两部分独立特征以实现跨阶段分层结构构造，一部分特征用于前向通道的特征提取，另一部分输入特征用于前向通道的维度方向特征级联。输出的特征映射可作为下一个跨阶段分层模块的输入特征，因此这种特征分流方式可以有效分割梯度流，赋予模型在更少时间内获取更为丰富的梯度更新路径，实现轻量化卷积神经网络模型的快速构建。两种不同的跨阶段局部分层结构如图2 所示。跨阶段局部分层密集连接卷积结构如图3 所示。

图2 跨阶段局部分层结构

图3 跨阶段局部分层密集连接卷积结构

该结构将密集连接卷积块作为特征提取模块，输入特征X0被分为两部分：一部分将输入特征进行模块提取得到Y1；另一部分与Y1级联得到第一个跨阶段分层模块的输出特征W1。W1作为新的输入特征进行新一轮的特征提取与级联得到W2。多次重复相同的分流后最终将输出结果输入过渡层。其中，过渡层（Transition）用于进一步融合特征并防止各层之间学习重复的梯度信息，表示为与输入特征有着相同维度的1×1 卷积层。CSP-DenseNet 前向推理计算流程为

1.2 轻量化卷积神经网络模型

跨阶段局部网络通过跨阶段分层结构来减少网络模型的计算量，并利用特征提取模块获取裂纹图像的有效特征信息，但密集连接卷积模块（Dense block）、残差模块（Residual block）等特征提取模块具有较为复杂的前向推理计算过程。为最大化降低模型的前向推理计算耗时，并使该模型能够获取较好的钢梁表面缺陷特征，本文将独立的跨阶段分层结构作为特征提取模块，将其嵌入到另一个跨阶段分层结构中得到轻量化跨阶段分层卷积模块（CSPTiny）。轻量化跨阶段分层卷积模块的结构如图4所示。其中，被嵌套的跨阶段分层结构由两个卷积层和一个过渡层组成。1×1 卷积核所提取的特征映射被送入过渡层并与输入特征进行融合。在跨阶段分层的分支上再次跨阶段分层能够进一步丰富更多梯度更新的路径，且利用单层卷积提取与融合可减少缺陷浅层特征的丢失。

图4 轻量化跨阶段分层卷积模块

跨阶段分层的轻量化卷积神经网络（CSP-Tiny）可以通过两层步长为2 的3×3 卷积核完成连续降采样，然后利用3 个CSP-Tiny Module 搭建骨干网络，依次提取输入特征在3 个不同尺度下的裂纹特征。最后对13×13 的特征映射进行两个不同尺度的上采样特征融合，并同时输出两个不同尺度的预测结果。轻量化卷积神经网络的整体结构如表1 所示。

表1 轻量化卷积神经网络结构

2 实验结果与分析

2.1 实验平台及数据准备

实验前需要首先利用自制的钢梁表面缺陷采集装置获取钢梁表面的实时视频，将截取的图像与相应的人工标注结果组成钢梁表面缺陷数据集。最后在GPU 工作站（Intel（R）Core（TM）i7-9700 CPU @3.00 GHz,GPU NVIDIA GeForce RTX 2080S,16 GB内存，Windows10-64bit，Darknet 深度学习框架，搭载CUDA10.1 并配置cudnn7.6.4 神经网络加速库）上运行YOLOv3、YOLOv3-Tiny、CSP-DenseNet、CSP-DenseNet 和CSP-Tiny。利用钢梁表面缺陷采集装置可以分别获取明亮、昏暗环境以及干净、油污背景下的多段实时视频。从这些实时视频中随机选取2 500 幅尺寸均为416×416 的RGB 彩色图像（缺陷实际宽度1～ 2 mm，缺陷像素宽度3～ 5 pixel）。数据集包括2 000 幅训练集，300 幅验证集和200 幅测试集。钢梁图像缺陷采集装置如图5 所示，部分钢梁表面缺陷实例如图6 所示。

图5 钢梁图像裂纹采集装置

2.2 实验内容

本文实验均采用迭代和随机多尺度训练策略，损失函数选用GIoU[22]，权重衰减系数为0.000 5，动量为0.9，迭代总次数为5 000 次，初始学习率为0.001，并在3 600 次和4 200 次迭代后依次衰减10 倍学习率。在相同参数下分别训练4 种不同的网络模型，其中YOLOv3 是以残差模块搭建骨干网络并利用多尺度特征融合的单阶段目标检测模型，而YOLOv3-Tiny 是结合单层卷积与最大池化并利用多尺度特征融合的轻量化网络模型。4 种模型均利用YOLO 层输出预测结果，区别在于CSP-DenseNet与CSP-Tiny 均为含有跨阶段分层结构所组成的骨干网络。模型性能评估采用查准率R（Recall）、查全率P（Precision）和F 度量F1进行标准，表达式分别为：

式中：FP表示在错误目标中误认为正确目标的数目；FN表示在正确目标中误认为错误目标的数目。

4 种不同模型在训练过程中的GIoU 损失曲线变化和精度曲线变化分别如图7a）和图7b)所示。

图7 4 种模型的GIoU 损失曲线和精度曲线

2.3 实验结果分析与讨论

从4 种不同模型中分别选取最优训练结果进行定量比较。如表2 所示，具有跨阶段分层结构的模型拥有较好的最大召回率，但最大精度却略显不足。从预测的准确能力来看，将跨阶段分层结构作为特征提取模块可减少正确和错误目标的错误检测。通过mAP50可以反映模型在阈值为0.5 时的总体精度，不难看出轻量化卷积神经网络与其余网络模型相比总体精度相对较低，但检测速度快且模型所需的前向推理计算量（BFLOPS）显著减少。其中，CSP-Tiny 可在精度为93.59%的同时处理图像的速度达到每秒30.3 张；与另一个轻量化卷积神经网络相比，能在精度高出1.39%的同时提升了11.3%的检测速度。

表2 4 种不同模型的实验结果

4 种不同模型的定量比较如图8a）和图8b）所示。从P-R曲线中可以看出轻量化卷积神经网络的检测性能略低于其他网络模型，其原因在于轻量化卷积神经网络主要通过减少卷积层的数目或优化各层间的梯度传递方式来实现，在缺乏足够的卷积层的前提下也可获取数据的有效特征，其总体检测性能自然会降低；而增加卷积层的数目将会增大模型的推理计算量，进而导致检测速度下降。从F1得分来看，CSP-Tiny 的模型总体性能接近于非轻量化的卷积神经网络。通过定量比较发现，CSP-Tiny 拥有最快的检测速度且模型总体性能接近于未经过轻量化处理的卷积神经网络。

图8 不同模型的定量比较

由于受到背景、光照和图像采集装置等因素影响，检测位于图像边缘的缺陷一定的挑战性。明亮环境下的检测效果如图9 所示，可以看出光线充足的区域各模型均有较好的检测效果。图9b）中，位于左上角区域的部分裂纹只有CSP-Tiny 能够较为完整的预测，YOLOv3 未能识别，而其余两种方法虽然能够识别缺陷但预测框中包含大量无关背景信息。因此需要较大推理计算的模型具有相对较强的特征提取能力，当背景信息与目标特征较相似时，多余的背景信息有可能被错误检测为目标的情况。

图9 明亮环境下的定性比较

如图10 所示，在具有油污杂质的昏暗环境中，YOLOv3 和CSP-DenseNet 的检测效果差别不大。图10b）中可看出将跨阶段分层作为特征提取器时，有助于识别钢梁中较为细小的裂纹目标；而图10c）中可看出在轻量化卷积神经网络中具有跨阶段分层结构的CSP-Tiny 可轻松辨别昏暗环境中的油污和缺陷，其检测效果近似于YOLOv3 等较为复杂的模型。

图10 昏暗环境下的定性比较

3 结论

利用轻量化卷积神经网络实现钢梁表面缺陷的快速实时检测。该网络利用跨阶段局部网络作为骨干网络，独立的跨阶段分层模块作为特征提取器并嵌套在跨阶段分层结构的其中一个分支中，最后结合YOLO 层与多尺度特征融合完成目标检测。通过定性比较发现，CSP-Tiny 不仅在昏暗环境中拥有辨别油污与缺陷的能力，而且在一定程度上缓解了明亮环境中多余的背景信息被错误预测。通过定量比较得出，轻量化卷积神经网络的精度和召回率略显逊色，但其检测速度优势显著，可实现钢梁表面缺陷的实时检测。其中，CSP-Tiny 在总体精度93.59%的情况下帧率能达到每秒30.3，与YOLOv3-Tiny相比精度高出1.39%且检测速度提升了11.3%。其检测速度比YOLOv3 快4 倍，YOLOv4 快4.5 倍；推理计算量约为YOLOv3 的0.1 倍，YOLOv4 的0.11 倍。