基于改进YOLOX的地铁列车焊接质量检测

2023-11-13马瑞贺德强贺岁球陈彦君靳震震单晟

铁道科学与工程学报 2023年10期

马瑞，贺德强，贺岁球，陈彦君，靳震震，单晟

(1.广西大学机械工程学院，广西南宁 530004；2.中车株洲电力机车研究所有限公司，湖南株洲 412001)

焊接作为金属连接的主要方式之一，在地铁列车铝合金车体的生产制造中发挥着重要作用[1]。在实际加工过程中，焊接环境、焊接材料以及焊接技术的局限性导致了焊接缺陷的产生，因此，开展焊接质量检测非常必要[2]。无损检测是焊接质量检测的常用方法，相控阵超声波检测技术作为一种便捷高效环保的无损检测方式，其检测灵敏度高，可以检测出焊缝的表面和内部缺陷，内部缺陷主要有未焊透、未熔合、裂纹、气孔和夹渣[3]。陈选民等[4]对钢轨焊缝的相控阵超声定点扫查工艺进行了研究，发现扇形扫描角度范围在30°～70°之间的检测能力最好。闫彧[5]通过超声波检测技术，对焊接缺陷类型、大小、位置做出了检测与评估。但是传统的无损检测方法，需要人工检测和判别缺陷类型，漏检率和误检率较高。人工智能的发展为焊接质量检测提供了新思路，与机器视觉结合的无损检测方法得到广泛应用[6]。在传统机器视觉方面，余胜威等[7]提出基于PCA(Principal Component Analysis)降维的特征焊缝提取方法，有效检测出转向架焊接表面缺陷。SUN 等[8]提出了基于高斯混合特征提取的焊缝缺陷检测模型，实现了焊缝缺陷的识别和分类。ZHANG 等[9]提出了一种基于支持向量机与网格搜索优化交叉验证的焊接缺陷检测模型，可以识别未焊透、烧穿等焊接缺陷。YANG 等[10]提出了一种向量机多尺度缺陷检测方法，运用迁移学习和多尺度融合方法，对于弱纹理和弱对比度图像有较好的识别能力。以上焊缝检测模型虽然取得一定成效，但是模型鲁棒性不足，缺陷识别精度较低，而深度学习算法可以弥补这一缺陷。深度学习可以实现端到端的检测，无须手动提取焊缝缺陷特征，且具有较强的特征学习和迁移学习能力，检测效率较高。在深度学习机器视觉方面，钟嘉俊等[11]提出了基于改进Faster R-CNN(Faster region convolutional neural network)的车体焊缝检测方法，对焊接缺陷有较高的识别率和鲁棒性。FENG 等[12]基于卷积神经网络对电枢焊接表面缺陷进行了研究，但其网络层数较少，所学习到的特征有限，检测精度有待提高。针对焊接缺陷数据样本不平衡的问题，GUO 等[13]提出了生成对抗网络对样本数量扩充，使得各类缺陷数据分布均衡。在实际焊接过程中，焊接缺陷往往并不是单一存在，而是各种缺陷混杂，焊接缺陷密集分布且尺度变化较大，给焊接缺陷检测带来了巨大挑战。常见焊接缺陷的相控阵超声波图像如图1(a)～1(d)所示，按照焊缝缺陷的分布情况可以分为2类，稀疏分布(图1(a)～1(b))和密集分布(图1(c)～1(d))，其中焊接缺陷密集分布情况较为常见。各种检测网络中，YOLOX 对混杂的焊接缺陷进行精确定位，对密集分布和尺度变化较大的焊接缺陷有较好的特征提取能力，YOLOX 对图1(a)～1(d)特征提取的热力图如图1(e)～1(h)所示，焊接缺陷被较好地识别。此外，YOLOX 具有YOLO(you only look once)系列不生成候选框直接进行检测、检测速度快的优势，也用anchor free方法减少负样本数，缓解正负样本不平衡的问题，提高检测精度[14]。但是YOLOX 模型存在梯度流消失问题，多尺度特征融合能力需要进一步加强。YI等[15]引入MobileViT(mobile vision transformer)模块对YOLOX 模型改进，增强了其主干网络的特征提取能力，但其80.67%的检测精度，40.37 fps 的检测速度，难于满足实际应用需求。WU 等[16]在YOLOX 模型中引入Atrous 空间金字塔池化和卷积注意力机制，提高多尺度图像的检测能力，但其误检率较高。综上所述，现有的焊接质量检测网络虽然取得了一定成效，但其特征提取不全面，缺乏多尺度特征融合，检测精度和速度还有待提高。针对目前焊接质量检测智能化水平不高、检测效率低的问题，提出了一种改进的YOLOX 智能检测方法，在YOLOX 模型中引入了跨阶段分部网络(Cross-stage Partial Dark Network,CSPDarkNet)、密集连接网络(Densely Connected Network,DCN)、加权双向金字塔网络(Bidirectional Feature Pyramid Network,BiFPN)和自适应空间融合网络(Adaptively Spatial Feature Fusion,ASFF)，对相控阵超声波检测仪采集到的焊接缺陷进行识别，有效提高了焊接质量检测的效率。

图1 焊接缺陷图像Fig.1 Images of welding defects

1 焊接质量检测模型

1.1 改进的CSPDarkNet

为了解决焊缝缺陷图像中存在的缺陷密集分布导致检测精度低、检测速度不高的问题，改进的YOLOX 将原有的DarkNet 采用跨阶段分部CSP结构[17-18]，并将CSPDarkNet 网络中的残差网络改为密集连接网络DCN[19]，改进的CSPDarkNet 网络结构如图2 所示。CSP 结构通过划分区域减少信息的重复学习，DCN 减轻梯度消失问题，减少了参数数量，对提高模型的检测精度和检测速度具有重要作用。

图2 改进的CSPDarkNetFig.2 Improved CSPDarkNet

如图2(a)所示，CSP 结构的作用原理是先采样，将输出特征图经过1*1 卷积分为2 部分，且卷积后的特征图通道数为输入特征图通道数的一半。经过DarkNet 卷积块之后，再使用1*1 卷积整合通道特征。CSP结构可以最大化梯度联合的差异，通过梯度流截断，可以避免不同的卷积层学习到重复的梯度信息，从而提升网络的学习能力。

CSPDarkNet 的前向传播与权重计算如式(1)～(6)所示。将图像的特征图均分为2部分，分别用和表示，每部分都有k层卷积，如式(1)所示。通过DarkNet 进行特征提取的输出为xT，不计算，最后将和xT通过concat 操作的结果定义为xU。xi，xk，xT，xU分别表示前向传播过程中的特征图，Wk，WT，WU与，，分别表示更新前和更新后的权重，f表示权重更新函数，gi表示第i层卷积的梯度。

如图2(b)所示，DCN 中dense 单元密集连接加强了不同层之间的连接关系，网络中的每一层都与前面层相连，实现特征的传递和复用，进一步减轻了梯度消失问题，提高了特征提取能力。DCN 比残差网络有更少的参数，因为它每一层都设计得比较窄，密集连接使它不需要再重新学习多余的特征图，即每一层只学习很少的特征就学习到足够的信息，使得参数量和计算量显著减少，降低了模型的参数冗余性，有利于模型检测速度的提高。

1.2 改进的BiFPN

为了解决焊接缺陷图像中焊接缺陷尺度变化较大导致的检测精度降低的问题，将原有的YOLOX 中路径聚合金字塔网络(Path Aggregation Feature Pyramid Network，PAFPN)改成了加权双向金字塔网络BiFPN[20]和自适应空间融合网络ASFF[21]，从而实现更高层次的特征融合，改进的BiFPN 网络结构如图3 所示。BiFPN 可以实现双向路径和多尺度融合，双向表示自顶向下和自底向上，加权表示带权重进行特征融合。图3中三箭头表示自顶向下的通路，传递高层特征语义信息；双箭头表示自底向上的通路，传递低层特征的位置信息。P3-P7分别表示不同层的特征图，每一层都包含输入与输出，P4-P6包含中间层。ASFF 对BiFPNP4-P6输出的特征信息做自适应空间特征融合，从而提高特征的尺度不变性。ASFF 的核心思想是自适应地学习每个尺度上特征图融合的空间权值，包含特征图尺度调整和自适应融合两部分。ASFF 的轻量化结构使得提高检测精度的同时，对检测速度几乎无影响。

图3 改进的BiFPNFig.3 Improved BiFPN

BiFPN特征图的计算如公式(7)～(9)所示。，分别表示第7 级、第6 级特征图的输入，表示第6 级特征图的中间层，分别表示第7级、第6 级特征图的输出，Conv表示卷积运算，Resize表示上采样或者下采样运算，自顶向下是上采样，自底向上是下采样。w1，w2表示第6级特征图的中间层的权重，，，表示第6级特征图的输出层的权重。常数项ε=0.000 1。第3 级到第5级特征图的计算与第6级类似。

1.3 改进的YOLOX网络结构

改进的YOLOX 网络主要由输入端、特征提取网络、特征融合网络和目标检测网络四部分组成，如图4 所示。输入端将焊缝缺陷图像尺寸通过多尺度融合重置为640×640，并分为R，G，B 3 个通道输入到特征提取网络中，如图4(a)所示。

图4 改进的YOLOX结构Fig.4 Structure of improved YOLOX

特征提取网络如图4(b)所示。输入的特征图图像依次经过dense-CSPDark2-5，学习焊缝缺陷图像的特征信息。CSP结构增强了卷积神经网络的学习能力，占用较少的显存空间，加快了网络的推理速度。DCN 网络加强特征连接和特征复用，减少了参数量，提高了模型训练和测试的速度。基本卷积、Focus，dense-CSP结构和SPP(Spatial Pyramid Pooling)的单元构成，如图4(e)所示。

特征融合网络如图4(c)所示。改进的BiFPN 将网络输出的有效特征层和SPP结构的输出进行特征融合。BiFPN为双向路径，一个是将低层的语义信息向高层融合，另一个是将高层的语义信息向低层融合。首先，对SPP结构的输出的特征图进行卷积和上采样，对网络输出特征图卷积，将2个结果在通道维度上堆叠，然后将结果再进行卷积和上采样，将2个特征图在通道维度上堆叠，完成低层的语义信息向高层融合。同理，可以实现高层的语义信息向低层融合。BiFPN输出的特征信息分别输入到ASFF 网络中，进行自适应空间特征融合。ASFF 在空间领域过滤冲突信息以抑制不一致特征，提升网络对不同尺度目标的特征融合能力。

目标检测网络如图4(d)所示。目标检测网络采用解耦检测头结构，可以提高检测性能，提升收敛速度。不同的分支对应于ASFF 输出的不同尺度下的特征图，结合不同的尺度对焊接缺陷进行精确分类。

2 数据采集与处理

地铁列车车体生产制造中，T 型焊缝较为常见，如图5(a)～5(h)所示。实验数据为中车某公司生产的车体焊接试件，如图5(i)所示。焊缝类型为T 型焊缝，材料为6082 铝合金，焊接方式为MIG(metal inert-gas welding)，用相控阵超声波检测仪采集了1 500 张焊接缺陷图像，如图6 所示。用labelme 软件分别标注为LOF(未熔合)、IP(未焊透)、crack(裂纹)、slag(夹渣)、core(气孔)，如图7所示。为了提高数据集的泛化能力，避免过拟合，将1 500 张图像通过旋转、平移、改变亮度、增加噪声等数据增强技术扩增到3 000 张。并以9︰1 的比例划分训练集和测试集，即训练集有2 700 张图像，测试集有300 张图像。每张图像含有1 个或多个焊接缺陷，5种焊接缺陷数量如表1所示。

表1 焊接缺陷数量Table 1 Amount of welding defects

图5 地铁列车铝合金车体和试件Fig.5 Aluminum alloy body of metro train and test piece

图6 相控阵超声波检测T型焊缝焊接缺陷Fig.6 T-type welding defect detection by phased array ultrasound

图7 5种焊接缺陷类型Fig.7 Five kinds of welding defects

3 模型训练与测试

3.1 实验环境与性能评估指标

模型训练和测试的软件系统为Ubuntu20.04 系统，搭建MMDetection 框架，配套安装Pytorch 1.11.0，TorchVision 0.12.0，Cuda 11.3.1，mmdet 2.25.0 和mmcv-full 1.4.8。硬件系统CPU 为I7-11800H@2.30 GHz，GPU 为英伟达显卡RTX3070。利用训练集2 700 张图像训练模型，一共训练300轮，并获得检测精度最高的权重文件。利用测试集300张图像和模型训练中的权重文件对模型的检测性能进行测试。模型训练中batchsize 设置为2，即每次训练时输入2 张图像，每轮训练1 350 次。具体模型参数设置如表2所示。

表2 模型参数设置Table 2 Model parameter setting

模型的检测性能评估指标有平均检测精度mAP(mean average precision)和帧速率FPS(frames per second)。AP(average precision)表示每一类焊缝缺陷的检测精度，mAP表示5种焊缝缺陷的平均检测精度。检测速度用帧速率表示，即每秒检测的图像数。

3.2 焊缝检测模型对比

为了验证模型的有效性，将改进的YOLOX 模型与主流网络Faster R-CNN，Cascade R-CNN，YOLO V5 以及YOLOX 进行对比，评估其检测性能。如表3 所示，改进YOLOX 的平均检测精度mAP 和检测速度是最高的，分别达到了97.3%，78.4 fps。在同样采用CSP 结构的情况下，改进YOLOX 模型比原始YOLOX 的检测精度提高4.5%，检测速度提高3.6 fps。改进YOLOX 对于未焊透缺陷的检测精度最高，达到了98.60%，其次是夹渣缺陷，检测精度达到了98.50%，表现出优秀的检测性能。

3.3 特征提取网络对比

将几种特征提取网络的检测效果进行对比，如表4 所示。ResNet 是Faster R-CNN 和Cascade RCNN 的特征提取网络，Darknet 是YOLOX 的特征提取网络，CSPDarknet 是YOLO V5 的特征提取网络。由表4 可知，改进CSPDarknet 的检测性能最好，CSP 结构和DCN 密集连接有利于充分提取密集分布和多尺度的焊接缺陷特征信息，减少参数量，提高检测速度。改进CSPDarknet 比原始CSPDarknet 的检测精度提高了4.14%，检测速度提高了4.0 fps。

表4 特征提取网络对比Table 4 Comparison of feature extraction networks

3.4 特征融合网络对比

将改进BiFPN 与PAN，BiFPN 进行对比，如表5所示，可知改进BiFPN 具有BiFPN 双向加权融合和ASFF 空间自适应融合的优势，对密集分布的焊接缺陷特征充分学习。相比BiFPN，改进BiFPN在不牺牲检测速度的情况下，将检测精度提高了1.8 %。

3.5 模型鲁棒性分析

用改进的YOLOX 网络检测测试集的300 张图像，部分检测结果如图8 所示。图8(a)～8(b)为稀疏分布的焊接缺陷图像，图8(c)～8(d)为密集分布的焊接缺陷图像。改进的YOLOX 模型对于密集分布的焊接缺陷具有较高的检测精度，均在94%以上，模型的抗干扰能力比较强。为了更好的检测模型的鲁棒性，对图8(a)～8(d)通过添加斑点、改变亮度等方式增加噪声，如图8(e)～8(h)所示。对于添加噪声的焊接缺陷图像，改进的YOLOX 网络仍可以准确识别各种焊接缺陷，其检测精度与无噪声时相近。如图8(a)和8(e)所示，有噪声和无噪声时，气孔缺陷(core)的检测精度均为95%，说明该模型具有较好的鲁棒性。

4 结论

1) 将深度学习与相控阵超声波检测技术结合，提出了一种基于改进YOLOX 的地铁列车焊接质量智能检测方法。在特征提取网络中，引入CSP 结构和dense 网络；在特征融合网络中，引入BiFPN和ASFF 网络。在同样采用CSP 结构的情况下，改进后的YOLOX 比原始YOLOX 的检测精度提高4.5%，检测速度提高3.6 fps。

2) 改进后的YOLOX 模型对图像噪声的抗干扰能力较强，表现出较好的鲁棒性。

3) 提出的改进YOLOX智能检测算法尚未部署到相控阵超声波检测仪终端，未来需要在模型的部署方面进一步研究。