基于YOLOv5m的电机换向器缺陷检测

2024-06-24许云涛焦培刚刘家齐

山东交通学院学报 2024年2期

许云涛焦培刚刘家齐

摘要：为降低电机换向器缺陷的检测成本，提高检测效率，满足实际工程中对检测精度和检测速度的均衡要求，以YOLOv5m模型为基础提出优化改进的表面缺陷检测算法，将采集的数据集经Mosica数据增强，提高模型的鲁棒性；在其他层中采用双向特征金字塔网络（bidirectional feature pyramid network，BiFPN）层代替路径聚合网路（path aggregation network，PANet）层，引入双向连接和跨层特征融合机制，同时增加Criss-Cross注意力机制，更好地捕捉输入序列中的相关信息，增强网络在不同尺度下的反馈，并通过消融试验验证。结果表明：相较于传统YOLOv5m模型，优化改进后YOLOv5m模型的总体平均检测精度增大17%，准确率增大28.3%，召回率增大8.2%。在保证检测精度的同时，缩短缺陷检测时间，较好地满足缺陷检测工程中对检测精度与检测速度的均衡需求。

关键词：电机换向器；表面缺陷；YOLOv5m；注意力机制；特征融合

中图分类号：U463.6文献标志码：A文章编号：1672-0032（2024）02-0010-09

引用格式：许云涛，焦培刚，刘家齐.基于YOLOv5m的电机换向器缺陷检测［J］.山东交通学院学报，2024，32（2）：10-18.

XU Yuntao， JIAO Peigang， LIU Jiaqi. Motor commutator defect detection based on YOLOv5m［J］.Journal of Shandong Jiaotong University，2024，32（2）：10-18.

0 引言

电机换向器是交流换向器和直流换向器电动机电枢上的重要部件，对电机的性能和质量有较大影响。电机换向器的制作工艺复杂，顶端和底端表面由金属、塑料和云母等多种材料构成，表面缺陷分布广、形式多样、特征复杂，难以制定统一的量化检测标准，采用传统视觉方法检测缺陷时难免出现漏检、误检现象[1-2]。

检测电机换向器表面缺陷的方法主要有视觉检测、涡流检测、激光三维扫描和红外线扫描等方法。视觉检测主要通过摄像头拍摄电机换向器表面图像，采用图像处理技术进行缺陷识别和分类；涡流检测是通过电磁感应原理检测电机换向器表面的缺陷，检测速度快，无需接触，不易受表面涂层和颜色干扰。随着机器学习和机器视觉的不断发展，目前多采用自动化方法检测金属材料表面的缺陷。

罗立浩等[3-4]开发基于频域分析和分数域分析的在线视觉检测系统，有效排除金属表面氧化层的干扰，并通过自适应滤波器增强缺陷区域，针对柱面缺陷分类问题，综合多种特征，采用随机森林分类，检测准确率明显提高。Jung等[5]训练深度卷积神经网络实时检测纹理表面缺陷，准确性和鲁棒性较高。Gu等[6]采用语义分割的经典U-Net网络训练道路数据集，并在嵌入式设备Jetson AGX Xavier部署道路分割模型，但刷新频率指标效果不理想，在算力有限的边缘设备上难度较高。Nguyen等[7]提出2级卷积神经网络，第1级结构用于消除噪声并缩小图像中的裂缝区域，第2级用于裂缝特征学习，在网络参数较小时检测裂缝。徐晓峰[8]采用最小核值相似区（small univalue segment assimilating nucleus，SUSAN）算法进行自适应阈值检测，偏差不超过5 μm，检测速度明显提高。李树遥[9]提出多缺陷在线检测算法，可涵盖换向器各区域多种缺陷。电机换向器缺陷的检测精度提高，但检测成本较高，检测速率较慢。

本文提出优化改进后的YOLOv5m算法，融入双向特征金字塔网络（bidirectional feature pyramid network，BiFPN）层，从输入图像中提取特征细节，提高检测的准确性，同时增加Criss-Cross注意力机制，引入更多的上下文信息，提高网络的特征提取能力，减少网络对特定场景的依赖，提高网络的泛化能力和换向器缺陷检测准确率和检测速度。

1 YOLOv5检测算法

1.1 YOLOv5网络结构

YOLOv5主要由主干网络（Backone）、其他层（Neck）、输入端（Input）及预测头（Prediction）部分组成，网络结构如图1所示。

注：CBS为连续卷积、批归一化和激活函数的组合；Conv为卷积层，可提取输入数据的特征；SPP为空间金字塔池化，是将输入的特征图转换为预定义的固定值输出方法；Concat为拼接操作，将来自不同层的特征图按某维度（通常是通道维度）拼接；Slice是指从大的数据结构中抽取出部分数据；CSP为跨阶段部分网络，可减少计算量并保证准确性；Focus为特殊层，旨在减少计算成本，保持模型性能；Resunit为残差单元。

YOLOv5是高效的卷积神经网络结构，以跨阶段部分网络（cross stage partial network，CSPNet）为主干网络，提高模型的检测速度和准确率，其他层采用空间金字塔池化（spatial pyramid pooling，SPP）和路径聚合网络（path aggregation network，PAN）结构，捕捉不同尺度的特征并帮助网络学习全局特征。在预测头部分，YOLOv5采用YOLOv3和YOLOv4的结构，包含多个卷积层和池化层，输出预测结果。YOLOv5采用anchor-based的方法作为预测方式，对预测结果进行后处理，可得到目标的类别、位置和置信度信息。

1.2 YOLOv5算法改进

1.2.1 BiFPN特征融合方法

BiFPN用于目标检测任务的网络结构，旨在提高特征金字塔网络（feature pyramid network，FPN）的性能。FPN通常用于解决目标检测任务中不同尺度特征信息的融合问题，特征自下而上传递，低层特征与高层特征融合。在此基础上，在BiFPN中引入反向连接，允许高层特征影响低层特征，实现更全面的信息交换[10-11]。BiFPN引入双向连接和更多的特征融合机制，提高特征的表征能力，原理结构如图2所示。

a）FPN结构 b）PAN结构 c）BiFPN结构

注：白色为输入图像或初级特征图；蓝色、绿色和粉色为低层特征图，分辨率较高；红色和黄色为高层特征图，分辨率较低。

在YOLOv5m中，BiFPN确保从输入图像中提取细节丰富的特征，上下文信息充足，提高检测的准确性，增强网络在不同尺度上的特征表示。BiFPN嵌入主干特征提取网络，在不同层级上融合特征，有助于提高模型对大、小目标的检测能力，并提高模型的鲁棒性和准确性[12]。同时，BiFPN可去除噪声和假阳性，在复杂场景下检测目标，提高模型在工业领域的实用性。因引入更多的融合机制和双向连接，BiFPN的计算复杂度相对较高，可能增大模型的训练和推理成本。BiFPN涉及多个融合机制和参数，需仔细调整参数，获得最佳检测性能[13-14]。

1.2.2 Criss-Cross注意力机制

H—输入的隐藏状态或特征映射； H′—输出的隐藏状态或特征映射；

A—注意力权重矩阵，由模型学习确定输入的哪些部分应该被给予更多关注；

Q—查询（query）；K—键（key）；V—值（value）；

Q、K、V—注意力机制中的3个基本组件。

Criss-Cross网络采用轻量级计算和内存表示局部特征，进行全图像依赖性建模，引入1个交叉注意模块，结构如图3所示。Criss-Cross是神经网络中的注意力机制，可处理序列数据，在水平和垂直2个方向上交叉计算注意力权重，捕捉输入序列中的相关信息，计算左向和右向的卷积注意力分数，通过Softmax函数（Softmax是将输入的实数序列转化为概率分布，确保结果都在[0，1]内，概率分布总和为1）处理得到左向和右向的卷积注意力权重，通过加权平均合并得到最终的注意力权重矩阵。通过此矩阵，模型可在处理输入图像时更有效聚焦关键特征，提高检测准确率。

在Criss-Cross注意力机制的工作流程中，计算从左到右和从右到左的注意力分数，即左向和右向注意力，量化位置间的关联程度，位置i到位置j的左向注意力分数矩阵[15]

Lij=XijT，

式中：Xij为输入特征映射矩阵。

位置j到位置i的右向注意力分数矩阵Rij=XijT。

对左向和右向注意力分数矩阵进行Softmax函数[16]处理得到双向注意力权重，双向注意力权重反映每个位置相对于其他位置的重要性程度，位置i对位置j的左向注意力权重矩阵

Lsoftmax，ij=expln Lij/expln∑NK=1Lij，

式中：K为对输入向量中的元素进行求和时的迭代变量，从1开始迭代到N。

位置j对位置i的右向注意力权重矩阵

Rsoftmax，ij=expln Rij/exp ln∑NK=1Rij，

通常采用加权平均的方法，将左向注意力权重和右向注意力权重合并得到最终的注意力权重矩阵。超参数α控制左向注意力权重和右向注意力权重，α∈[0，1]，根据任务和数据调整α获得最佳检测性能，注意力权重矩阵公式为：

Aij=αLsoftmax，ij+（1-α）Rsoftmax，ij。

在Criss-Cross注意力机制中，通过2个全连接层分别计算输入序列在水平和垂直方向上的注意力权重，将这2个注意力权重相乘得到最终的注意力权重，能有效捕捉图像中远距离像素间的依赖关系，帮助模型获取更广阔的全局上下文信息，有助于提升任务性能[16]。

YOLOv5结合Criss-Cross注意力机制可在原有基础上提高检测精度，且对图形处理器（graphic processing unit，GPU）内存友好、计算高效，Criss-Cross模块可增强YOLOv5网络模型在不同尺度下的反馈，引入更多的上下文信息，提高网络的特征提取能力和泛化能力[17-19]，减少网络对特定场景的依赖。

2 试验结果与分析

基于Windows11操作系统，采用软件AMD Ryzen 7 6800H with Radeon Graphics进行训练和测试，采用Python 3.11为深度学习语言，Pytorch 1.7.1为深度学习框架，以PyCharm为开发环境，采用Cuda 10.1和Cudnn 7.6.5编程。

2.1 试验数据集

采用海康MV-CE050-31GM工业相机拍摄距相机0.2 m的电机换向器元件3种常见的表面缺陷，包括划痕（scratch）、破损（damaged）及凹陷（sunken），如图4所示。

a）划痕 b）破损 c）凹陷

图4 电机换向器元件3种表面缺陷图片

共采集原始图片300张，保存为jpg格式，每种缺陷有100张图片，通过YOLOv5中的剪切、旋转、缩放等功能增强数据，采用Mosaic增强方法将图片增至每种缺陷有800张，即将4张图片随机裁剪、缩放后排列拼接成1张图片，丰富数据集，增加小样本目标，提升网络的训练速度[20-22]。进行归一化操作时，一次计算4张图片的数据，降低模型对内存的占用空间。

2.2 测评标准

试验结果的评价指标包括准确率p、召回率r（衡量模型监测正类的能力）、平均检测精度均值（mean average precision，mAP）。mAP基于准确率、召回率、平均检测精度（average precision，AP）3个标准[23-25]。

准确率

p=NTP/（NTP+NFP）×100%，

式中：NTP为真正例，NFP为假正例。

召回率

r=NTP/（NTP+NFN）×100%，

式中NFN为被预测为负类的正样本。

第i类缺陷的平均检测精度XAPi=∫10p（r）dr，平均检测精度均值

XmAP=1c∑ci=1XAPi，

式中c为缺陷类别数。

2.3 训练方法

在模型训练过程中，下载图像识别数据集MS COCO（微软提供的Common Objects in Context）后，通过深度学习框架darknet转换为YOLOv5数据集，转换后将图像及标注按一定比例分为训练集、验证集和测试集。一般情况下，训练集占总数据集的70%～80%，验证集占10%～15%，测试集占10%～15%。

采用YOLOv5m及权重文件yolo5m.pt作为YOLOv5m模型的初始权重，采用小批量随机梯度下降法训练模型，单次传给程序用来训练的样本数BatchSize为31，网络的初始学习率为0.02，动量参数为0.916，权重衰减系数为0.000 6。

在YOLO系列算法中，YOLOv5s模型较小，检测速度较快，但检测精度相对较低；YOLOv5m模型适中，检测速度较快，检测精度相对较高；YOLOv5l模型较大，检测速度较慢，但检测精度更高；YOLOv5x模型最大，检测速度最慢，但检测精度最高[26]。采用YOLOv5m、YOLOv5s、YOLOv5l、YOLOv5x模型训练、测试电机换向器缺陷检测数据集，结果如表1所示。

注：①参数量涉及模型大小和复杂性，通常以参数的总数衡量，是指构成审读学习模型的所有权重和偏差的总和。②p、r等参数在训练中被学习，以便模型能准确预测或分类。

由表1可知：不同YOLOv5模型的数据集特征单一且复杂度较低，大部分为单标签，适用于工厂和轻量化的缺陷检测需求；YOLOv5x模型较大，参数较多，浮点运算数最大，占用GPU内存较多，但可保证较高的平均检测精度和召回率；YOLOv5m模型的浮点运算数比YOLOv5l模型少，检测速度不占优势，但能保证在平均检测精度略逊色于YOLOv5l模型的同时，占用较少GPU内存；YOLOv5m模型的平均检测精度和检测速度比YOLOv5s高。综合考虑后选择YOLOV5m模型为本文的基线，评估新模型的改进程度。

2.4 结果分析

注：√表示加入相应模块，×表示未加入相应模块。

为验证本文设计的有效性，设置消融试验，在YOLOv5m模型中加入BiFPN特征融合方法和Criss-Cross注意力机制，检测电机换向器不同缺陷的平均检测精度均值，如表2所示。模型1为增加BiFPN层的YOLOv5m模型，模型2为加入Criss-Cross注意力模块的YOLOv5m模型，模型3为加入BiFPN和Criss-Cross的YOLOv5m模型。由表2可知：模型1～3对3种表面缺陷的检测平均检测精度均值比YOLOv5m模型大，验证了改进算法的有效性。选择模型3为改进优化后模型，检测电机换向器缺陷。

不同模型检测电机换向器表面缺陷的预测结果如图5～7所示，红色字体为标注的缺陷种类及特征。

由图5～7可知：改进优化的YOLOv5m模型检测到的缺陷比其他模型更精确，检测到的缺陷信息更多，漏检更少，在scratch_4.jpg、sunken_4.jpg、damaged_4.jpg的图片上都检测到缺陷，但对于背景颜色与缺陷类似的图片，改进优化的YOLOv5m模型也会出现漏检和检测不精确的现象。

2.5 对比试验

对改进优化的YOLOv5m模型完成训练后，可观察到p、r与置信度间的关系如图8所示。由图8a）可知：置信度越高，p越高。由图8b）可知：所有类别曲线与x、y轴围成的区域占据了图片大部分的面积，说明整体优化的效果较好。

不同模型消融试验的结果如表3所示，其中参数量和浮点运算数（又称为浮点计算次数）包含乘法和加法，只与模型有关，可用来衡量深度学习模型的复杂度。

由表3可知：改进优化的YOLOv5m模型的平均检测精度为94.0%，比传统YOLOv5m模型增大17.0%；准确率增大28.3%，召回率增大8.2%。因模型内容增加，改进优化的YOLOv5m模型进行帧处理时间比传统YOLOv5m略长，检测速度略慢，但满足工业生产需求。

通过消融试验证明改进后的YOLOv5m模型均能提高原有模型在电机换向器检测缺陷的检测效果，改进后的网络可提高检测精度。

3 结论

1）综合考虑电机换向器缺陷检测现状及优化问题，提出融合BiFPN及Criss-Cross方法的YOLOv5m算法，采用Mosaic数据增强方法对数据集进行预处理，融入BiFPN层，并引入Criss-Cross注意力机制，实现多尺度特征融合，减少网络对特定场景的依赖，提高网络的泛化能力。

2）相较于传统YOLOv5m模型，改进优化的YOLOv5m模型的总体平均检测精度增大17.0％，准确率增大28.3%，召回率增大8.2%。

此方法同样适用于其他工业应用场景，特别是对存在多尺度特征缺陷及背景较复杂的目标缺陷检测领域。同时，需研究如何进一步提高检测速度，更好地满足工业生产需求。

参考文献：

[1] 崔译文，占丰，张宇峰，等.基于机器视觉的电子元器件检测系统设计[J].计算机测量与控制，2020，28（11）：21-26.

[2] 李少波，杨静，王铮，等.缺陷检测技术的发展与应用研究综述[J].自动化学报，2020，46（11）：2319-2336.

[3] 罗立浩，郑日荣，何小敏，等.基于机器视觉的电机换向器质量在线检测系统开发[J].计算机测量与控制，2016，24（7）：56-61.

[4] 罗立浩.电机换向器外观质量在线视觉检测系统[D].广州：广东工业大学，2016.

[5] JUNG S Y， TSAI Y H， CHIU W Y， et al. Defect detection on randomly textured surfaces by convolutional neural networks[C]//2018 IEEE/ASME International Conference on Advanced Intelligent Mechatronics （AIM）. Washington：IEEE， 2018.

[6] GU N W， FADILLAH M F， PRAKASA E， et al. Road segmentation with U-Net architecture using Jetson AGX Xavier for autonomous vehicle[C]//Proceedings of 2022 16th International Conference on Telecommunication Systems， Services， and Applications. Washington：IEEE， 2022：1-5.

[7] NGUYEN N H T， PERRY S， BONE D， et al. Two-stage convolutional neural network for road crack detection and segmentation[J].Expert Systems with Applications，2021，186：115718.1-115718.13.

[8] 徐晓峰.基于改进SUSAN算法的电机换向器孔径参数检测[J].仪表技术与传感器，2012（10）：50-52.

[9] 李树遥.换向器视觉检测的分数域分析与缺陷分类方法[D].广州：广东工业大学，2019.

[10] SMITH S M， BRADY J M. SUSAN：a new approach to low level image processing[J].International Journal of Computer Vision， 1997， 23（1）：45-78.

[11] TAN M， PANG R， LE Q V. EfficientDet：scalable and efficient object detection[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington：IEEE， 2020.

[12] LIN T Y， DOLLAR P， GIRSHICK R， et al. Feature pyramid networks for object detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]：Institute of Electrical and Electronics Engineers， 2017：936-944.

[13] CHEN J， MAI H S， LUO L B， et al. Effective feature fusion network in BIFPN for small object detection[C]//Proceedings of2021 IEEE International Conference on Image Processing （ICIP）. Washington：IEEE， 2021：699-703.

[14] 李英群，李亚菲，裴雷，等.基于YOLOv5-ECA-BiFPN的学术期刊文献图表识别与提取方法研究[J].数据分析与知识发现，2023，7（11）：158-171.

[15] HUANG Z L， WANG X G， HUANG L C， et al. CCNet：criss-cross attention for semantic segmentation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul， Korea：Institute of Electrical and Electronic Engineers，2019：603-612.

[16] LIU W， WEN Y， YU Z， et al. Large-margin softmax loss for convolutional neural networks[C]//Proceedings of the 33rd International Conference on Machine Learning. New York：JMLR， Workshop and Conference Proceedings，2016：1612.02295v4.

[17] YAN C， PAN W G， XU C， et al. Gaze estimation via strip pooling and multi-criss-cross attention networks[J].Applied Sciences，2013，13 （10）：13105901 .

[18] HUANG L， ZHANG C， ZHANG H. Self-adaptive training：beyond empirical risk minimization[J].Advances in Neural Information Processing Systems，2020（3）：19365-19376.

[19] ZHANG L， CHENG Y D. A densely connected criss-cross attention network for document-level relation extraction[EB/OL].（2022-03-26）[2023-04-10].https：//arxiv.org/abs/2203.13953.

[20] CUBUK E D， ZOPH B， MANE D， et al. AutoAugment：learning augmentation strategies from data[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York：IEEE， 2019：113-123.

[21] ZHANG H Y， CISSE M， DAUPHIN Y N， et al. Mixup：beyond empirical risk minimization[C]//Proceedings of ICLR 2018.[S.l.]：OpenReview.net， 2018.

[22] BOCHKOVSKIY A， WANG C Y， LIAO H Y M. Yolov4：optimal speed and accuracy of object detection[EB/OL].（2020-09-13）[2023-04-10].https：//arxiv.org/abs/2004.10934.

[23] 庞宁雅，杜安钰.基于YOLOV5s-Attention的表面缺陷检测的应用研究[J].现代电子技术，2023，46（3）：39-46.

[24] 施恺杰，王颖，王嘉璐，等.基于深度学习的电子换向器表面缺陷检测[J].网络安全技术与应用，2021（6）：113-115.

[25] WU Z L，ZHANG D，SHAO Y H，et al. Using YOLOv5 for garbage classification[C]//Proceedings of the 4th International Conference on Pattern Recognition and Artificial Intelligence. New York：IEEE，2021：35-38.

[26] 周贤勇，祝俊辉，王圆，等.基于改进YOLOv7的PCB裸板缺陷检测[J].无线电工程，53（12）：1-13.

Motor commutator defect detection based on YOLOv5m

XU Yuntao， JIAO Peigang*， LIU Jiaqi

School of Construction Machinery， Shandong Jiaotong University， Jinan 250357， China

Abstract：To reduce the detection cost of motor commutator defects， and improve detection efficiency， and meet the balanced requirements of detection accuracy and speed in practical engineering， an optimized and improved surface defect detection algorithm based on the YOLOv5m model is proposed. The collected data is enhanced through Mosica data augmentation to enhance the robustness of model. In other layers， the bidirectional feature pyramid network （BiFPN） layer is used instead of the path aggregation network （PANet） layer， introducing bidirectional connections and cross-layer feature fusion mechanisms， and adding a Criss-Cross attention mechanism to better capture relevant information in the input sequence， and enhance network feedback at different scales， and verified through ablation experiments. The results show that compared to the traditional YOLOv5m model， the average precision （AP）， accuracy， and recall of the optimized and improved YOLOv5m model increases by 17%， 28.3%， and 8.2%， respectively. While ensuring detection accuracy， the detection time for defects is shortened， better meeting the balanced requirements of detection accuracy and speed in defect detection engineering.

Keywords：motor commutator; surface defect; YOLOv5m; attention mechanism; feature fusion

（责任编辑：王惠）

收稿日期：2023-04-21

基金项目：山东省重点研发计划项目（2019GNC106032）

第一作者简介：许云涛（1997—），男，山东德州人，硕士研究生，主要研究方向为机器视觉及深度学习，E-mail：514390480@qq.com。

*通信作者简介：焦培刚（1974—），男，山东聊城人，教授，工学博士，硕士研究生导师，主要研究方向为虚拟现实和光滑粒子流体动力学，E-mail：jiaopeigang@163.com。

DOI：10.3969/j.issn.1672-0032.2024.02.002