基于深度学习的改进型YOLOv4输电线路鸟巢检测与识别

2023-02-19王杨杨莫文昊

智慧电力 2023年1期

王杨杨，曹晖，莫文昊

（1.西安交通大学电气工程学院，陕西西安 710049；2.中国电力科学研究院有限公司，北京 100192）

0 引言

随着输电网络的不断深化和覆盖区域的不断扩大，确保输电线路可靠、有序、经济运转成为重中之重。输电线路走廊上的鸟巢给电网设备带来隐患，严重时甚至会造成跳闸。为此，需要结合输电线路实际情况，利用适宜的方式开展定期巡检。经济便捷的无人机智能巡检是目前重要的方式之一[1-5]，无人机获取的巡检图片，可以用于输电线路环境和通道设备的智能分析与应用。文献[6]采用绝对误差和算法建立图像视差图，然后利用阈值分割完成对输电线路的提取。文献[7]使用方向梯度直方图法提取航拍图像特征，基于增量特征选择参数完成特征分类。

传统检测算法的特点是利用图像特征分类器完成对象识别。文献[8]采用自适应二值化、树干/分支检测和模式学习的方法，对高铁接触网中出现的鸟巢进行检测，并以实验验证了其可行性。文献[9]采用基于微结构的Gabor 滤波方法与主成分分析法来更精确地进行鸟巢的特征提取。文献[10]提出了一种基于图像配准的固定场景电力设备缺陷定位方法。

深度学习算法凭借优越的性能表现，在目标检测和视觉学习领域得到大规模应用[11-13]。卷积神经网络（Convolutional Neural Networks，CNN）能缩小权重参数范围，提高算法的运算速度[14-15]。R-CNN（Region CNN）对图片生成若干候选框，利用CNN 提取特征向量，使用支持向量机进行分类，通过非极大值提高检测效率[16]。Fast R-CNN[17]在R-CNN 的基础上，采用性能效果更优的softmax，以降低时空复杂度，同时创新性地引入边界框回归技术，因此要比R-CNN 具有更高的鲁棒性和精度。通过借鉴其他图像识别算法中的结构，学者们提出了以Mask R-CNN 为代表的众多优化算法[18]。文献[19]提出一种基于Retina Net 和注意力机制的多级目标检测方法，文献[20]对源图像数据集进行了数据增强处理，同时采用初级YOLOv3 网络对鸟巢进行预检测，利用高级YOLOv3 网络对鸟巢检测结果进行修正，兼顾了算法的精度与效率，提高了网络性能。文献[21]利用图像增强和深度可分离卷积提高网络的运算速度，文献[22]提出一种基于注意力机制和Squeeze Net 结构的目标检测算法，文献[23]提出一种基于多维特征融合的改进YOLOv4 算法，文献[24]提出一种基于多尺度池化核的TS-YOLO 结构，提高了模型的检测准确率。

为了得到一种高效的多尺度目标检测网络，本文提出了一种基于深度可分离卷积和最小凸集的改进型YOLOv4 算法。首先，对CSPDarknet53 网络中的CSP 块·N模块引入深度可分离卷积，得到DS-CSP 块·N，以增强特征信息提取；其次，基于Kmeans 存在受初始聚类簇数影响大的缺点，提出Kmeans++算法以优化锚框尺寸和比例，基于最小凸集改进回归损失函数，改进后的YOLO Head 称为DS-YOLO Head；最后，为了能够在多尺度目标检测中提取更多的特征信息，本文在PANet 和DSYOLO Head 之间增加SPP1 和SPP2 2 个新的空间金字塔池化模块（Spatial Pyramid Pooling，SPP）。运用巡检无人机获取线路通道图片，得到不同规格的图片集，经过归一化处理、数据增强和图像标注，得到模型所需格式的数据集。相较于改进之前，准确率和精度F1 值均得到有效提高；相较于其他算法，本文算法兼顾了精度和速度，具备更优的综合性能。

1 YOLOv4网络结构

YOLOv4 是一种多层级、多尺度的智能检测算法，其结构包括：（1）Head 模块：采用多尺度滑动窗口的Anchor 机制；（2）backbone 模块：引入残差结构和softmax，采用轻量化的CSPDarknet53 结构[25]，减少了网络参数和计算开销，提升了检测的速度和精度；（3）Neck 模块。

其中，Neck 模块包括：（1）SPP 模块：采用3×3卷积核，能实现将规格各异的图片处理成同一规格的功能，拓展感受野的同时挖掘更完善的语义信息，提高精度的同时减少时空开销；（2）PANet：一种双向特征信息融合结构，可以兼顾深层语义特征和浅层位置特征，提高多尺度目标的检测能力。

1.1 CSPDarknet53

CSPDarknet53 包含5 个CSP 块·N模块，每个CSP 块·N模块由N个Res unit 单元和若干CBM 单元组成，CBM 单元包括卷积Conv，BN（Batch Normalization）和Mish 激活函数；Res unit 单元包含2 个CBM 单元，2 个CBM 单元之间通过残差结构连接；CBM 单元包含提取特征的Conv 卷积层、促进收敛的BN 层和改善梯度的Mish 激活层。

1.2 空间金字塔池化

SPP 可以对任何大小、比例的输入图像进行池化，以获取维度一致的特征向量。SPP 利用不同规格的分割方式对输入图片进行处理，从而得到SPP的不同层，如图1 所示，其中d为维度。

图1 SPP示意图Fig.1 Schematic of SPP

在第1 层中，将整张图片作为1 张特征图；在第2 层中，把整张图片分为了4 张特征图；在第3层中，把整张图片分为了16 张特征图。然后提取上述21 张特征图的特征向量，输入全连接层中进行训练。通过在YOLOv4 中添加SPP 结构，可以增加感受野，同时提高检测速度。

1.3 PANet

PANet 包括特征金字塔网络（Feature Parymid Network，FPN）和路径聚合网络（Path Aggregation Network，PAN）两部分，如图2 所示。

图2 PANet网络结构图Fig.2 PANet network structure

FPN 通过横向连接方式把采样得到的特征图与同等尺寸的特征图融合，并且采用自顶向下的特征提取结构，不仅可以改善特征图的表征效果，还可以用于多尺度目标检测；PAN 以横向连接方式把采样得到的特征图与同等尺寸的特征图融合，并且采用自底向上的特征提取结构，能够兼顾上下文的定位信息和语义信息。

2 基于深度可分离卷积和最小凸集的改进型YOLOv4网络结构

本文针对YOLOv4 存在的不足，基于低参数量的深度可分离卷积（Depthwise Separable Convolution，DSConv）和最小凸集技术，对YOLOv4 提出相应的改善措施：

1）在YOLOv4 中，对CSPDark-net53 网络中的CSP 块·N模块引入深度可分离卷积，得到DS-CSP块·N，降低了网络的参数量和计算开销，提高检测速度。

2）利用K-means++算法对锚框尺寸和比例进行优化，克服了K-means 算法选择初始点时人为因素的影响，避免陷入局部最优困境；基于最小凸集建立回归损失函数，克服了边界框不重合时的缺陷，将改进后的YOLO Head 称为DS-YOLO Head。

3）在PANet 和DS-YOLO Head 之间增加SPP1和SPP2 2 个新的SPP 模块。新的SPP 模块改变了池化核大小，使得池化层能够对输入特征层进行多尺度池化和信息融合，大大增强了网络的接受域。

基于深度可分离卷积结构和最小凸集技术的改进型YOLOv4 算法的网络结构如图3 所示。

图3 改进型YOLOv4示意图Fig.3 Schematic of improved YOLOv4

2.1 基于DSConv改进的DS-CSP 块·N

深度可分离卷积DSConv[26]结构包括：（1）深度卷积层：每个卷积核各自对应1 张通道特征图，各自生成1 张特征图；（2）逐点卷积层：每个卷积核将3 通道特征图拼接成1 张特征图。本文采用DSConv 替换CSP 块·N中的Conv 卷积层，得到DSCSP 块·N，以降低参数量和计算开销。

2.2 基于K-means++改进的锚框

YOLOv4 利用锚框对图像进行分割，通过聚类的方式得到锚框的尺寸和比例，进而检测锚框中的物体。如图4 所示。假设特征图中被划分到某一单元的左上角坐标为()cx,cy，锚框的宽和高为bw和bh。通过网络不断学习，得到其坐标和长宽值。其中，tx，ty为坐标偏移量，tw，th为宽和高缩放比，()bx,by,bw,bh为图4中实线框的预测输出坐标和宽高；σ(tx)，σ(ty)为坐标偏移量补偿；为宽高缩放比补偿；pw，ph为图4 中虚线框的实际宽度和高度。

图4 预测框示意图Fig.4 Schematic diagram of bounding box

YOLOv4 网络使用K-means 算法求解出Q个锚框的大小和比例，使用交并比OIU为距离指标进行聚类。K-means 算法需人为给定初始点，如果给定的初始点不合适，最后迭代得到的结果可能为局部最优值。K-means++算法初始点的选取是从整个数据集随机选取，因此跳出了初始簇的范围，使得算法有很大的概率跳出局部最优解，从而在迭代过程中得到全局最优解，其具体计算步骤如下：

1）给定M个候选框。

2）任意挑选1 个候选框，作为第1 个簇心。

3）对余下的M-1 个候选框，从中选出与第1 个簇心最远（D(A,B)最大）的候选框，该候选框是第2 个簇心。

4）再次执行以上步骤，最后从M个候选框中选出Q个簇心。

5）用选出的Q个簇心代替K-means 算法的初始点，按照算法流程选出Q个锚框。其中，D(A,B)的表达式为：

式中：A为候选框；B为簇心。

2.3 基于最小凸集改进的回归损失函数

回归损失函数是衡量预测框和真实框之间相似度误差的关键指标之一，影响着目标检测的精度。YOLOv4 采用交并比计算回归损失函数LO，LO主要考虑了预测框C和真实框D公共部分的面积，当边界框不重合时（此时LO的值为1）会造成很大误差。为了解决这种不足，同时兼顾预测框纵横比和真实框中心点之间的距离，提出基于最小凸集改进的回归损失函数LC；当预测框C和真实框D的边界框不重合时，OIU为0，LC大于1。最小凸集是包含C和D的最小外接矩形，基于最小凸集改进的回归损失函数LC，公式如下：

式中：ρ2(b,bgt)为C的几何中心b和D的几何中心bgt之间的欧氏距离；c为最小凸集的对角线距离；wgt和hgt分别为C的宽度和高度；w和h分别为D的宽度和高度。

3 仿真与分析

3.1 数据集建立与网络参数设置

本文使用的图像数据集是某省供电公司利用多台无人机获取的输电线路高清照片。对于光线明暗程度和图片大小不同的问题，将原始图片统一转换为相同规格，大小为416 px×416 px。无人机获取的有效照片仅为1 000 张，尚不足以满足训练需求，因此通过引入Mosaic 图像增强以丰富模型样本集；通过缩放、平移、色域变化、旋转等方式，将图像数量扩增到3 000 张。

使用LabelImg 软件，标注出数据集中鸟巢所处的位置和种类。将标注好的数据集分为3 组：验证集480 幅；训练集1 920 幅；测试集600 幅。网络参数上，采取Adam 优化器。在前80 训练轮次中，学习率初值为0.01，每20 个训练轮次学习率减半，属于模型粗调阶段；81 到100 训练轮次的学习率为0.001，属于模型微调阶段；101 到120 训练轮次的学习率为0.000 1，属于模型精调阶段。批大小设置为25，共进行120 个训练轮次训练。

3.2 模型性能评价指标

本文采用评估准确率Acc，F1 值、召回率Rec和每秒传输帧数FPS作为模型性能的指标。TP和FN分别为“有鸟巢”样本被模型正确和错误评估的数量；TN和FP分别为“无鸟巢”样本被模型正确或错误评估的数量。

Acc，F1值，Rec的计算表达式如下：

3.3 实验结果及分析

利用标注好的数据集对原始YOLOv4 和改进型YOLOv4 进行训练和验证，得到训练集和验证集的损失函数（无量纲），如图5 所示。

图5 训练集和验证集损失Fig.5 Loss of training set and verification set

由图5（a）可知，深度可分离卷积的引入，使得改进型YOLOv4 在大约50 个训练轮次后比原始YOLOv4 的损失更低；而最小凸集的引入，使得算法改进后损失的梯度下降更快。

由图5（b）可知，深度可分离卷积的引入，使得改进型YOLOv4 的损失在大约10 个训练轮次后比原始YOLOv4 的损失更低；Adam 优化器的引入，使得改进后算法最终的损失大约是改进前损失的一半。

改进前后算法的准确率Acc和F1 值变化曲线如图6 所示。

图6 精度指标变化图Fig.6 Curves for precision index

由图6 可知，由于引入DSConv 结构，减少了算法参数和运算时空开销，同时使得算法F1的稳定时间变长。经过逐次训练不断优化，改进型YOLOv4的检测精度和速度不断改善，整体性能表现都优于YOLOv4。因此，本文所提出的模型在鸟巢检测方面具有良好性能。

利用本文提出的改进型YOLOv4 和YOLOv4分别对输电线路不同位置（间隔棒、均压环和铁塔横担）的鸟巢进行检测，结果如图7 所示。图7（a），（c），（e）分别为YOLOv4 对间隔棒、均压环、铁塔横担处的鸟巢检测结果，图7（b），（d），（f）分别为改进型YOLOv4 对间隔棒、均压环、铁塔横担处的鸟巢检测结果。

图7 改进型YOLOv4和YOLOv4鸟巢检测结果Fig.7 Bird’s nest detection results with improved YOLOv4 and YOLOv4

此外，本文设计了消融实验，共分为6 组实验。第1 组为原始YOLOv4 算法，第2 组为引入DSConv 的YOLOv4 算法，第3 组为引入DSConv 和SPP 的YOLOv4 算法，第4 组为引入DSConv，SPP和Mosaic 图像增强的YOLOv4 算法，第5 组为引入DSConv，SPP，Mosaic 图像增强和K-means++的YOLOv4 算法，第6 组为采用了DSConv，SPP，Mosaic 图像增强，K-means++和Adam 学习率衰减的改进型YOLOv4 算法，结果如表1 所示。

表1 消融实验结果Table 1 Results of ablation experiment

由表1 可知，DSConv 在略微降低精度的情况下提升速度；SPP 略微降低了速度，但提升了精度，并显著提升了准确度；由于Mosaic 图像增强技术的引入，各项精度指标得到了改善；K-means++算法提升了精度，但速度略微降低；Adam 优化器提升了精度，并显著提升了召回率。

利用已标注的数据集，把评估准确率Acc，F1值，Rec和FPS作为模型性能的指标，将所述的改进型YOLOv4 算法与其他3 种进行对比实验，结果如表2 所示，其中SSD 为单目标多框检测。

表2 对比实验结果Table 2 Results of contrast experiment

分析可知，所述改进型YOLOv4 算法的FPS不及YOLOv5，但是提高了算法的Rec和F1；在Acc，F1 值，Rec和FPS方面，所述改进型YOLOv4 算法的表现均比SSD 有所提高；此外，相较于Faster RCNN，所述改进型YOLOv4 算法除了F1 有轻微降低，其他性能表现更优。综合看来，改进后的算法有更高的鸟巢检测准确度和更低的运算开销。