基于改进YOLOv5的绝缘子快速检测
2023-06-25黄施懿董效杰杨龙欢王一帆
黄施懿 董效杰 杨龙欢 王一帆
摘 要:为了解决复杂背景下,绝缘子准确快速识别的实时性问题,提出了一种基于YOLOv5改进的轻量型绝缘子检测算法模型。在网络结构中融入了Shufflenet v2网络和深度卷积模块,通过控制通道数和减少网络层数来减少参数量,采用K-means算法调整anchor框,并提出了改进损失函数DCIoU加速了损失函数的收敛。实验结果表明,改进的YOLOv5算法在参数量上仅有原网络的10%,准确率提高了0.2%,推理速度提升了2帧。
关键词:深度学习;目标检测;绝缘子;YOLOv5
中图分类号:TP18;TP391.4 文献标识码:A 文章编号:2096-4706(2023)06-0073-04
Fast Detection of Insulators Based on Improved YOLOv5
HUANG Shiyi, DONG Xiaojie, YANG Longhuan, WANG Yifan
(College of Intelligent Systems Science and Engineering, Hubei Minzu University, Enshi 445000, China)
Abstract: In order to solve the real-time problem of accurate and rapid identification of insulators under the complex background, an improved lightweight insulator detection algorithm model based on YOLOv5 is proposed. Shufflenet v2 network and deep convolution modules are integrated into the network structure to reduce the number of parameters by controlling the number of channels and reducing the number of network layers. K-means algorithm is adopted to adjust the anchor box, and the improved loss function DCIoU is proposed to accelerate the convergence of the loss function. Experimental results show that the improved YOLOv5 algorithm is only 10% of the original network in terms of the number of parameters, the accuracy rate is increased by 0.2%, and the inference speed is increased by 2 frames.
Keywords: deep learning; target detection; insulator; YOLOv5
0 引 言
由于人類社会对用电质量要求的逐渐提高,输电线路的长度也将日益增加[1]。电力输电线路分布于高山丘陵等地形复杂、气候恶劣的环境,这给线路巡检带来了很大的困难[2]。由于电缆线路长期裸露于严酷的自然环境下,非常容易发生自爆和污秽等情况,造成了输电线路的不安全和不稳定,甚至会造成巨大的经济损失。
由于深度学习等人工智能技术的创新发展,目标检测等深度学习技术在视觉图像方面取得了很大成功[3]。Yang[4]等人通过使用深度卷积神经网络来检测绝缘子自爆位置的方法。林志城[5]等人分别使用Mask-RCNN、Retina-Net、YOLOv3三种目标检测算法通过多模型融合,将检测结果中置信度和重叠率高的预测目标框进行融合,提高了绝缘子自爆故障的检测精度。文献[6]将改进之后的U-Net网络和YOLOv5网络相融合,检测绝缘子的自爆缺陷,精度较高,但没有检测破损小目标缺陷。
针对上述问题,本文提出了一种基于改进YOLOv5的绝缘子快速检测模型。无人机为绝缘子检测提供了便利,但此方法存在数据集内样本数量少的问题,且需要解决检测速度的问题,为此本文在解决这些问题上,提出了对YOLOv5算法模型的一系列改进。
1 网络结构
1.1 YOLOv5网络结构
YOLOv5网络是在原来的YOLOv3和YOLOv4的网络结构基础上做出了改动,是当前用于目标检测且检测速度和准确率都比较好的单阶段检测网络。
输入端采用了Mosaic数据增强的方式以及自适应图片缩放。此方式的数据增强丰富了数据集,且使得小目标的检测准确率得到了很好的提升。自适应图片缩放是将图片缩放填充时,按小比例填充,对原始图像自适应的添加最少的黑边,否则存在信息冗余。
主干采用了Focus结构,并增加了切片操作。主干网络中采用了CSPDarknet-53,目的是进行初步的特征提取,主要从网络结构设计的角度解决推理中计算量很大的问题。网络结构中的C3模块消除了每个瓶颈结构中的一个卷积,使得模型尺寸变小了一点,且推理速度也有少许的提升。
在颈部中,采用了FPN+PAN结构。用上采样的方法将上层的特征信息与下层的特征信息融合在一起,实现自上向下的信息流动,以达到优势互补的目的,解决多尺度的问题。
1.2 ShuffleNet v2网络结构
ShuffleNetv2是一种适合用于便携式设备的轻量型网络,由文献[7]于2018年提出,作者通过理论推导和实验证明得出了以下四条准则:
(1)通道数相等可最大限度地降低内存访问成本。
(2)过多的分组卷积会增加内存占用量。
(3)尽量减少网络分支。
(4)元素操作(如Relu函数和Add)是不可忽略的。
ShuffleNetv2网络结构大致分为两种,如图1所示,第一种如图1中左半部分所示,步长为1,在特征图输入后有一个通道分支(channel split)操作,该操作将输入通道数为C的特征图分为C-C和C,左边的分支不做任何操作,右边的分支包含了3个卷积操作,3个卷积输入输出的通道数都是一样的,并且两个1×1卷积已经由ShuffleNetv1中的分组卷积更换为普通卷积,最后再将这两个分支通过Concat进行通道拼接,使得该模块的输入和输出通道数一样,最后进行通道重组(channel shuffle)操作。这样不仅可以避免Add操作,而且加快了模型的推理速度,值得注意的是,图1中右邊部分为stride=2,没有了(channel split)操作,左分支的3×3平均池化变为了3×3的DW conv,这会使得最后Concat之后输出特征的通道数为输入的两倍。
2 目标检测算法的改进
2.1 Mosaic数据增强
所谓数据增强,就是指对图片数据进行变换、修改,使其变成新的数据,从而扩充原有图片数据集。使用数据增强方法对于训练神经网络非常有帮助,可以对有限的数据集进行扩增,增加神经网络的鲁棒性。
Mosaic-9数据增强方法是将九张图片进行随机裁剪、缩放后,将之混合形成一张图上进行训练。它的优点是大量增加了数据信息,增加了小目标物体的数量,在进行归一化操作时,会计算九张图片,并不依赖批处理参数,减轻计算量,它是普通Mosaic的增强版,如图2所示。
2.2 K-means聚类先验框
使用先验框方法是为了确定固定框内是否有目标以及预测框与实际框的差值。本文的检测目标种类偏少,且长宽比很大,为了使模型算法有一个较好的收敛速度,故使用K-means聚类先验框,步骤如下:
(1)首先随机选取9个聚类中心C初始值。
(2)计算当前聚类中心与其他先验框的距离d1,采用IoU距离代替欧式距离进行计算,如式(1)所示。
d1=1-IoU (1)
(3)计算每个绝缘子先验框被选为下一个聚类中心的概率P(x):
(2)
(4)重复上述步骤,直至找到k个聚类中心,然后将数据集中每个样本分配到最近的聚类中心,重新计算每个类别C的聚类中心,直到聚类中心坐标不发生变化。
(3)
经过聚类后得到新的先验框如表1所示。
2.3 损失函数
IoU是目标检测中最常用的指标,被用来评估实际框与预测框之间的关系。如式(4)所示:
(4)
其中,A为真实框,B为预测框。当两个框没有重叠部分时,IoU的值为0,导致很大范围内损失函数没有梯度。在此基础上添加了一个惩罚项,提出来GIoU。
(5)
其中,C为A和B的最小外接矩形。GIoU解决了A与B没有重叠部分时梯度无法收敛的问题,但是当预测框为水平和竖直方向时依然不能达到一个较好的收敛效果。因此提出了DIoU与CIoU。
(6)
(7)
(8)
(9)
其中,a为实际框的中心位置,b为预测框的中心位置,ρ为a与b之间的欧式几何距离,D为C的对角线长度,v为两个框的长宽比的相似性,wgt与hgt为真实框的宽度和高度,w与h为预测框的宽度和高度,α是权重函数。CIoU考虑到了A与B的重合面积、A与B的距离、长宽比,在DIoU的基础上增加了长宽比惩罚项,使得收敛更加快速稳定。
由于图像中的绝缘子长宽比大多相似,通过距离惩罚项进行收敛,速度较慢,故为了加快算法的收敛速度,引入了两个框之间的对角点距离与中心点距离的关系,提出了DCIoU。
,,(10)
(11)
其中, 为真实框与预测框左上角顶点的距离, 为真实框与预测框右下角顶点的距离,当两点越近时, 为1,当两点越远时, 为0,它能反应两个框之间的重合情况。
2.4 深度可分离卷积
深度可分离卷积是2017年由Sandler等提出的用于嵌入式设备的轻量化方法,深度可分离卷积将传统卷积中的卷积分离成一个3×3的逐通道卷积和一个1×1的逐点卷积。
逐通道卷积,就是各个卷积核只负责自己的通道,即通道与卷积核一一对应,这个过程产生的特征图通道数和输入的通道数完全一样。如图3所示。
逐点卷积的卷积核的尺寸为1×1×M,M为上一层的通道数。这里的卷积运算会将上一步的map在深度方向上进行加权组合,生成新的特征图。有几个卷积核就有几个特征图。如图4所示。
假设输入层为一个大小为64×64像素、三通道彩色图片。经过一个包含4个卷积核的卷积层,最终输出4个特征图,且尺寸与输入层相同。可以计算出常规卷积的卷积层的参数数量是4×3×3×3=108。而使用深度可分离卷积,逐通道卷积的参数数量为3×3×3=27,逐点卷积的参数数量为1×1×3×4=12。
因此,将两种卷积方式进行比较:常规卷积有108个参数;深度可分离卷积仅有39个参数,是常规卷积参数的约1/3。由比对可知,使用深度可分离卷积能够使模型速度得到显著提升,更有利于部署在嵌入式设备中。
综上所述,改进后YOLOv5网络结构如图5所示。
3 实验结果与分析
3.1 数据集制作
本文在制作训练集的时候,采用了Github上开源的绝缘子数据集图片,从中筛选出了248张缺陷绝缘子图片,600张完整绝缘子图片。数据集图片的数量存在严重的不足,故决定采用数据增强的方式以扩充数据集。本文将原有图片以1:15的比例进行扩充,对图像进行模糊、亮度、裁剪、旋转、平移、镜像等操作,最终得到12 720张图片。将8 558张图划为训练集,3 462张图划为验证集,700张图划为测试集。由于图片的分辨率较高,直接运算量太大,因此将图片缩放至640×640,尽量加入多尺度、多角度、多背景的绝缘子。
根据要求将图片转化为VOC格式,本文采用LabelImg标注工具對图片进行标注,将缺陷绝缘子的位置标注为defect,将完整绝缘子的位置标注为insulator,如图6所示。
3.2 实验环境及配置
本实验所用配置如表2所示。
3.3 实验结果
为了全面客观评价改进的YOLOv5模型的性能,使用参数数量(Parameters)、绝缘子平均值(Insulator AP)、缺陷绝缘子平均值(Defect AP)、平均精度均值(mAP)、检测速度(FPS),其中S代表Shufflenet V2网络,D代表DW深度可分离卷积,A代表ADD融合操作。实验结果如表3所示。
由表可知,本文在YOLOv5原模型上,进行了控制变量的消融实验,通过控制变量来测试改进是否具有能够提升模型的效果。YOLOv5+S+D+A模型是在YOLOv5模型的基础上进行了网络结构的删减和模块的嵌入,模型的检测精度比原模型仅有0.3%的提升,且不是所有测试模型里的最优选择,但此模型的参数量大约只有YOLOv5原模型的10%,且检测速度是最快的。
本研究算法的部分测试结果如图7所示。
4 结 论
本文提出了一种基于YOLOv5改进的目标检测方法,使用了Shufflenet V2网络与深度可分离卷积重新构建了网络模型的框架结构,减少了参数的数量,减轻了模型的大小;使用K-means算法得到了更加符合大长宽比数据集的先验框;使用了Mosaic-9的数据增强方法,丰富了数据集的内容。实验结果表明,与主流算法相比,本文所提出模型的检测速度与模型占用内存大小均优于原模型,检测速度可达到每秒13.58帧,模型文件大小为1.64 MB,为检测算法的嵌入式应用及巡检时边采集边检测提供了可能性。
参考文献:
[1] 中国电力企业联合会.中国电力行业年度报告2020 [R/OL].
(2020-06-12).https://cec.org.cn/detail/index.html?3-284214.
[2] 邵瑰玮,刘壮,付晶,等.架空输电线路无人机巡检技术研究进展 [J].高电压技术,2020,46(1):14-22.
[3] 陈伟骏,周长胜,黄宏博,等.基于卷积神经网络的目标检测算法综述 [J].北京信息科技大学学报:自然科学版,2020,35(2):90-96.
[4] YANG Y L,WANG L J,WANG Y,et al. Insulator Self-Shattering Detection:A Deep Convolutional Neural Network Approach [J].Multimedia Tools and Applications,2019,78(8):10097-10112.
[5] 林志成,缪希仁,江灏,等.多模型融合的输电线路绝缘子自爆故障检测 [J].福州大学学报:自然科学版,2020,48(2):217-223.
[6] 唐小煜,熊浩良,黄锐珊,等.基于改进的U-Net和YOLOv5的绝缘子掩模获取与缺陷检测 [J].数据采集与处理,2021,36(5):1041-1049.
[7] MA N N,ZHANG X Y,ZHENG H-T,et al. ShuffleNet V2:Practical Guidelines for Efficient CNN Architecture Design [J/OL].arXiv:1807.11164 [cs.CV].[2022-01-03].https://arxiv.org/abs/1807.11164.
作者简介:黄施懿(1998—),男,汉族,江苏南通人,硕士研究生在读,研究方向:目标检测与人工智能;董效杰(1978—),男,汉族,上海人,讲师,博士,研究方向:红外图像与小目标特征;杨龙欢(1996—),男,汉族,四川成都人,硕士研究生在读,研究方向:目标检测与人工智能;王一帆(1998—),男,汉族,陕西西安人,硕士研究生在读,研究方向:目标检测与人工智能。
收稿日期:2022-10-13
基金项目:湖北省教育厅科学技术研究计划项目(B2016092)