融合高效注意力的多尺度输电线路部件检测
2024-01-18陈思雨付章杰
陈思雨,付章杰
1.南京信息工程大学 数字取证教育部工程研究中心,南京 210044
2.综合业务网理论及关键技术国家重点实验室,西安 710126
得益于北斗系统以及GPS导航系统的不断完善,无人机(unmanned aerial vehicles,UAV)技术得到了巨大发展,无人机的民用化普及更使无人机架空输电线路巡检逐渐成为了一种趋势[1]。新兴的巡检技术不仅大幅提升了架空输电线路巡检安全性,同时也在极大程度上节省了人力成本。无人机搭载的高清摄像头可以采集到更高分辨率的图像,帮助人们更加充分地去把握当前架空输电线路的真实情况。
当然,数据采集技术的发展也推动着数据处理技术的升级。随着深度学习浪潮的推进,将通用目标检测算法运用于电力部件检测方面也已成为一大潮流。通用的目标检测算法主要分为两大类别,一种是单阶段回归型目标检测算法,如SSD[2]、RetinaNet[3]、YOLO v1-YOLO v5[4-8],通过此类算法可直接输出目标类别和相应的定位;另一种是两阶段目标检测算法,如RCNN[9]、Fast RCNN[10]、Faster RCNN[11],此类算法先定位包含目标大致位置信息的候选区域,再对候选区域进行分类及位置精修后确定目标位置。
基于以上两大类目标检测算法,王万国等[12]针对无人机采集到的输电线路巡检图像,分别使用SPPnet、DPM、Faster RCNN三种目标检测算法进行检测并进行了对比分析,同时也讨论了不同方法的优劣。戚银城等[13]使用改进的SSD算法,在输电线路航拍巡检图像中针对金具进行目标检测。应用多角度旋转、自适应裁剪等方法扩充样本。考虑到金具存在分布较为密集且有遮挡的情况,设计了具有针对性的损失函数。郭敬东等[14]利用YOLO v1这种单阶段检测算法在检测速度上的优势,结合K-means 聚类算法进行改进,实现了对输电塔杆状态的实时监测。张鸥等[15]使用改进的Faster RCNN 算法对无人机巡检所拍摄图像进行电力部件识别,并考虑分析了网络参数对检测效果的影响。赵振兵等[16]使用动态焦点损失函数以及基于二阶矩的样本平衡方法,有效缓解了航拍绝缘子图像中不同类型缺陷间存在的样本数不平衡、困难样本学习低效等问题。韩汉贤等[17]为提高无人机电力巡检效率,将特征金字塔网络FPN与SSD目标检测算法进行结合,局部融合层间特征信息,在绝缘子部件检测方面取得了良好的检测效果。董召杰[18]构建了包含玻璃绝缘子、复合绝缘子、屏蔽环、均压环、防震锤在内的5 种电力线关键部件数据集,应用YOLO v3算法在该数据集上实现了高精度的实时部件检测。Zhai等[19]针对输电线路背景复杂、金具形状多样、多金具检测目标密集等问题,提出了一种级联推理图网络(CRGN),用于输电线路的多重拟合检测,显著提高了对输电线路上多种金具的检测效果。
综上所述,输电线路部件检测目前已是一个新兴的研究热点话题,但是大多研究都只针对同种或同一尺度大小的部件进行,鲜有研究直接探讨高分辨输电线路图像中针对多尺度目标的检测方法。经过深入调研后发现,此领域尚存如下几点亟待解决的问题:
(1)现已公开的架空输电线路高清数据集图片数量较少,创新检测技术需要较大数据量的支持,数据量不足对开展深入研究是一大挑战。
(2)直接使用目前最先进的目标检测算法,如YOLO、Faster RCNN、SSD 等,均会将输入图像压缩至统一大小后再进行特征提取,对于高分辨率图像来说,压缩会导致有效信息损失严重,影响检测效果。
(3)采集的图像分辨率越高,图像中的小尺度目标像素占比越小,也就越难以被检测。
针对上述问题,本文提出了一种融合高效注意力的多尺度输电线路部件检测算法,主要贡献包括以下3个方面:
(1)提出了一种基于高效注意力ECBAM 改进的YOLO v5 算法,增强了YOLO v5 算法的特征提取能力,提升了模型整体检测性能。
(2)提出了一种与高分辨率输电线路图像统计特性相适应的滑窗切片方法,并相应提出了检测结果的拼接方法,既扩充了数据量,又对不同尺度大小的目标进行了针对性检测。
(3)设计了一种多尺度模型检测结果集成策略,综合保留了各尺度的检测优势,全面提升了跨越尺度较大的多尺度输电线路部件检测精度。
1 输电线路部件检测模型
1.1 YOLO v5算法原理
YOLO v5 算法属于经典的单阶段目标检测算法,因其高效性常被应用于工业场景中。YOLO v5模型主要由输入端、骨干网络(Backbone)、瓶颈块(Neck)、预测头(Head)四个部分组成,总体结构如图1所示。
YOLO v5输入端负责完成Mosaic数据增强以及自适应锚框计算,将图像缩放至模型定义输入的统一尺寸;Backbone 部分为主干特征提取网络,对输入图片进行特征提取,并将提取到的特征提炼成三个有效特征层作为Neck部分的输入;Neck部分进一步加强特征提取,通过特征金字塔(feature pyramid networks,FPN)以及PANet结构将不同尺度的特征信息进行结合;Head部分对深度提炼的特征进行分类与回归,完成对于输入图像的预测。
YOLO v5各个部分具体由以下若干结构组成:
(1)Focus结构,将640×640×3的输入图片进行切片和卷积后得到320×320×12 的特征图,再将宽高信息统一集中到通道信息中,减少信息丢失。
(2)Conv2D_BN_SiLU 结构,其中Conv2D 层用于提取输入图像的特征信息;BN(batch normal)层对提取到的输入图像特征进行标准化处理,在加快网络收敛速度的同时防止出现梯度消失及过拟合现象;SiLU 激活函数是Sigmoid 和ReLU 激活函数的改进版,具有无上界有下界、平滑、非单调的特性,可视作平滑的ReLU激活函数。
(3)CSPLayer结构,将原来的残差块堆叠(即图1中每个虚线框框出部分)拆分成两个部分,主干部分继续堆叠原来的残差块,另一分支部分类似于残差边操作,经过少量处理后直接连接到最后。
(4)SPPBottleneck 结构(可见图1 中右上角),利用不同大小的池化核进行多尺度特征提取,用于提高网络的感受野。
(5)Concat 结构,在通道维度将两个及两个以上的特征图进行拼接,以融合不同层次的特征信息。
(6)UpSample、DownSample 结构,分别表示上采样和下采样操作,用于在不同层次特征信息融合前统一特征维度。
1.2 改进的YOLO v5算法
为提升YOLO v5算法性能,在YOLO v5中加入高效卷积注意模块(efficient convolutional block attention module,ECBAM)进行改进。ECBAM 结构主要添加于YOLO v5 中的Neck 部分,即图2 中颜色加深处,经过ECBAM后,新的特征图可以获得通道和空间维度上的注意力加权,增加各个特征在通道和空间上的联系,更有利于提取目标的有效特征。
图2 改进的YOLO v5总体结构Fig.2 Overall structure of improved YOLO v5
ECBAM 由卷积注意模块(convolutional block attention module,CBAM)[20]改进而来,可以在卷积神经网络中实现即插即用,使输入特征图中的特征具备自适应细化的能力,以较小的计算成本来达到提升模型特征提取性能的目的。与CBAM的主体结构相似,ECBAM也采用串联的方式来连接通道注意力模块和空间注意力模块两部分。不同的是,ECBAM借鉴了高效通道注意力(efficient channel attention,ECA)[21]的思想,改进了通道注意力模块中的权值参数共享操作,改进前后的对比如图3所示。
图3 CBAM与ECBAM中的通道注意力模块Fig.3 Channel attention module in CBAM and ECBAM
在CBAM 中,用以实现全通道交互的共享全连接层是一个多层感知机(multi-layer perceptron,MLP)模块,多层感知机由最底层的输入层,中间的隐藏层,最后的输出层组成,至少包含三个层结构,层与层间全连接,因此在计算时会产生较多冗余计算。鉴于卷积操作具有参数共享性质,引入一维卷积可以在一定程度上减少通道注意力模块的参数量,故考虑在ECBAM中使用一维卷积操作替代CBAM中的全连接层来完成通道特征聚合,仅实现适当的跨通道交互,在一定程度上提高计算效率。
图4展示了ECBAM的完整结构。对于给定输入为(C,W,H)的特征图F,其中C、W、H分别表示特征图的通道数、宽度、高度,在ECBAM中依次通过通道注意力模块、空间注意力模块后完成加权操作,得到加权后的特征图F′′。
图4 ECBAM结构Fig.4 Sturcture of ECBAM
首先通过通道注意力模块,分别对输入特征图F进行一次全局最大池化及平均池化操作,对池化后得到的两个一维向量使用一维卷积进行通道特征聚合后将卷积运算结果进行相加,一维卷积核的大小为聚合邻域内的通道数,经过Sigmoid 运算后获得通道注意力Mc∈RC×1×1,具体过程表达可见公式(1):
其中,F表示输入特征图,MaxPool()和AvgPool()分别表示最大池化和平均池化操作,C1D表示一维卷积操作,σ表示Sigmoid 运算,Mc(F)表示通道注意力模块的输出。
再按公式(2)将Mc∈RC×1×1与输入特征图F对应元素相乘,得到由通道注意力调整后的特征图F′。
其中,⊗表示同位元素相乘操作,F′ 表示通过通道注意力调整后得到的新特征图。
其次通过空间注意力模块,对特征图Mc按空间进行全局最大池化及平均池化操作,将池化后得到的两个二维向量进行拼接并对拼接结果进行卷积操作,经过Sigmoid 运算后获得空间注意力Ms∈R1×H×W,具体过程表达可见公式(3):
其中,F′ 表示输入特征图,f()表示卷积层中进行的矩阵运算,MaxPool(·)、AvgPool(·)、σ的含义与公式(1)中相同,Ms(F′)表示空间注意力模块的输出。
再按照公式(4)将Ms∈R1×H×W与特征图F′ 对应元素相乘,得到经过空间注意力调整后的特征F′,由此走完一个ECBAM结构的完整流程。
其中,⊗表示同位元素相乘操作,F′ 表示通过通道注意力以及空间注意力调整后得到的新特征图。
1.3 多尺度输电线路部件检测模型
由于架空输电线路场景中所包含的目标尺寸跨度较大,电线杆塔尺寸和其他部件尺寸往往不属于同一个层级,而极小尺寸的防震锤更使此场景下的目标检测难度直线上升。因此,为同时考虑多尺度目标检测的平衡性,分别训练两个模型来处理中小尺度目标以及大尺度目标。其中一个模型将原图进行滑窗切片之后使用目标检测算法进行训练,测试时也采用同样的方式对测试图像进行滑窗切片,并且在对各切片进行目标检测之后通过设计的拼合机制将所属同一幅图像的检测结果进行拼合,这样既能保留并放大图片中的高分辨率细节,又能扩充原有图片的数量。另外,再构建一个模型直接将整张图片放入目标检测器中进行训练,相应地同样使用整幅图像进行测试,保证对于大尺度目标的检测。最后将两个模型得到的多尺度目标检测结果进行集成后得到最终完整的检测结果,所设计的模型结构如图5所示。
图5 多尺度输电线路部件检测模型结构Fig.5 Sturcture of multi-scale transmission line component detection model
1.3.1 滑窗切片
使用滑动窗口对高分辨率图像进行切片,不可避免地会将大尺度目标切分开,大尺度目标的检测效果可由对切片前图像训练好的模型来保证,因此对于切片后图像,无需担忧其中大尺度目标的检测效果,只需均衡其中中小尺度目标的检测效果,要求能够在检测到小尺度目标的同时,不过度切分中等尺度目标。
考虑上述切片需求后,对图像中的目标尺寸进行统计分析,确定采用1 400×1 000 大小的滑动窗口从左到右,从上到下依次划过整幅图像,将窗口在横向滑动时与前一个窗口的重叠区域设置为20%,在纵向滑动时与上一个窗口的重叠区域设置为15%,这样左右以及上下都有200像素左右的重叠距离,可以保证图像切片后各个切片之间的边缘的平滑度,降低切片与切片之间的边缘不平滑特性。当窗口滑动到图像边界有超出时,从所触碰边界向前切片作为收尾,以保证切片覆盖全图。滑窗切片的具体方法如图6所示。
图6 滑窗切片方法示意图Fig.6 Schematic diagram of sliding window slicing method
另外,考虑到目标检测数据集标签的特殊性,对图像切片的同时也需要考虑对图像中目标的切片方法。根据目标框左上角点、右下角点与当前切片所采用滑动窗口的位置关系,共可讨论出9种滑动窗口将目标切开的情况,如图7所示,并在表1中做出了不同情况下位置关系详细描述。
表1 不同切片情况下的位置关系Table 1 Position relationship under different sections
图7 不同切片情况Fig.7 Different slice conditions
对于不同位置关系,统一采用如下切片机制对当前滑动窗口中的目标进行筛选保留:
(1)根据识别目标的完整性,认为只观察目标的1/9不足以判断出原始目标,因此当待切目标与滑动窗口交叠部分的长或宽超过目标自身长或宽的1/3 时,在滑动窗口边沿处截断目标并保留至当前滑动窗口。
(2)经机制(1)筛选后,当待切目标与滑动窗口交叠部分的长或宽不足64 个像素点,即小于数据集最小目标框尺寸时,在当前滑动窗口中舍弃该目标。
1.3.2 切片检测结果拼合策略
对切片后图像进行检测,同一个目标的不同部分可能会被多个相邻切片检测到,因此需要根据切分机制相应地设计拼合机制对图像及其检测结果进行拼合。
首先,按照滑窗切片时的起点位置标记,采用切片逆向操作将带有预测框的切片拼合成整幅图。其次,根据滑窗切片时的步距长度,给予50 像素左右的容错范围,设定150 像素点为预测框拼合阈值,若待拼合图像中同种预测框相交区域的任意边长超过这个阈值,或者两预测框的交并比超过0.5,则判定这两个预测框所属同一个目标,将其拼合成一个完整的目标。
在拼合时,分别取两预测框的左上角点横纵坐标中的最小值作为拼合预测框左上角点的横纵坐标,取两预测框的右下角点横纵坐标中的最大值作为拼合预测框右下角点的横纵坐标。同时,取拼合前两个预测目标中的较高得分作为拼合后的预测目标得分。图8 展示了通过此种拼合方式拼合前后效果对比。
1.3.3 模型检测结果集成策略
由于分别训练了两个模型同时对切片前后的图像进行全类别检测,直接整合检测结果会产生较多冗余预测框,因此需要对这些预测框进行进一步筛选保留。
通过观察检测结果发现,能够同时被两个关注不同尺度的模型检测到的仅有电线杆塔、绝缘子、间隔棒类中等尺度以上的目标,因此不用再对塔号牌、防震锤这两类小尺度目标做进一步筛选。
使用预测框的交并比大小作为筛选条件。由于不满足保留条件的目标会在切片时被舍弃,一个大目标在切片时可能会横跨9个滑动窗口甚至更多,但可能仅有一个滑动窗口保留下了此目标。这样就会出现同一个目标被切片前训练所得模型完整检测,而仅被切片后训练所得模型检测出很小一部分的情况,从而产生较小的交并比。在经过多次实验之后,发现以0.1 作为筛选阈值较为合理。当同类别预测框交并比超过0.1时,只保留置信度得分较高的预测框,舍弃另外的冗余预测框。
2 输电线路部件数据集
2.1 数据集简介
本文实验所采用的PLAD 数据集[22]是基于高分辨率无人机所采集的多尺度电力线资产检测数据集,包含5 472×3 078及5 472×3 648两种分辨率的架空输电线路图片。对图片中的电线杆塔、绝缘子、间隔棒、塔号牌和防震锤等5 种架空输电线路部件进行了标注,图9 为数据集图片及标注示例。
图9 数据集图片及标注示例Fig.9 Examples of dataset images and labels
2.2 数据集分析
PLAD数据集[22]中包含253个电线杆塔、312个绝缘子、253 个间隔棒、86 个塔号牌、1 505 个防震锤,共计2 409 个目标。按照PLAD 原文提及的数据集划分方式,将训练集与测试集的比例设置为8∶2,并从训练集中划分出10%作为验证集辅助训练。
图10(a)所示为PLAD数据集[22]中的目标框尺寸分布情况,纵坐标表示目标框相对于原图高度的占比,横坐标表示目标框相对于原图宽度的占比。红色、黄色、绿色、紫色、蓝色圆圈分别表示电线杆塔、绝缘子、间隔棒、塔号牌、防震锤这5类目标的宽高分布位置,从图中可以直观地看出不同类别的目标框大小分布不均,小目标数量占比较大,除大型电线杆塔以外的其他类目标所占像素范围基本处于1 400×1 000 像素之内,占整幅图像的比例不足10%,因此在检测时需要更多关注到图像的细节特征。
图10 目标框特征分布统计Fig.10 Ground truth box feature distribution statistics
图10(b)所示为PLAD数据集中目标框的形状分布情况,框线颜色及部件类别的对应关系同图10(a)。可以看到不同种类的部件形状差异较大,红色所代表的电线杆塔类别的尺寸明显大于其他类别部件的尺寸,并且各类目标的长宽比不固定,也为检测增加了难度。
本文在结合观察图10(a)以及图10(b)之后,将电线杆塔归类于大尺度目标,将绝缘子、间隔棒归类于中等尺度目标,将塔号牌、防震锤归类于小尺度目标。
3 实验设计与分析
3.1 实验环境
本文实验均在CPU 为Intel®Core ™i5-10400F@2.90 GHz、内存为16 GB、GPU为NVIDIA GeForce RTX 2080 Ti 的硬件配置下进行;软件配置为Windows10 操作系统,深度学习框架采用Pytorch 1.6.0,并行计算架构版本为CUDA 10.1。
3.2 模型训练
为加快模型收敛速度,缩短训练时间,使用在Pascal VOC数据集上的预训练权重初始化网络参数。将图像输入尺寸设置为640×640 像素,采用随机梯度下降法,将batch-size设置为8,动量参数设置为0.937,权值衰减设置为0.000 5,初始学习率设置为0.01,之后采用余弦衰减策略自适应调整学习率。
3.3 评价指标
本文采用目标检测领域常用的平均精度均值(mean average precision,mAP)、查准率(Precision)以及查全率(Recall)作为模型性能的评价指标。mAP 由平均精度(average precision,AP)求平均所得:
其中,Num_Classes表示检测部件类别数,AP是用积分的方式来计算查准率-查全率(Precision-Recall,P-R)曲线与坐标轴围成的面积,具体计算方式如公式(6)所示:
其中,p表示Precision,r表示Recall,p(r) 表示当前Recall所对应的Precision。p和r的定义如下:
其中,TP为预测为正的正样本,表示预测正确;FP表示预测为正的负样本,表示误检;FN表示预测为负的正样本,表示漏检。
3.4 实验结果与分析
3.4.1 模型参数灵敏度分析
在搭建多尺度输电线路部件检测模型的过程中,涉及较多的静态参数,因此,本小节就切片以及拼合时所选取的重要参数进行灵敏度分析,提供参数选取依据。具体实验数据如表2、表3所示。
表2 滑窗切片参数灵敏度分析Table 2 Sensitivity analysis of sliding window slicing parameters
表3 切片检测结果拼合参数灵敏度分析Table 3 Sensitivity analysis of parameters for collocation of slicing test results
表2 展示了滑窗切片参数的灵敏度分析。实验过程中,依次对滑动窗口大小、横向滑动重叠率、纵向滑动重叠率、目标保留比例阈值等参数按照控制变量法进行设置并测试检测效果。通过比较7 组不同设置下的mAP值,可以得出将滑动窗口大小设置为1 400×1 000,将横向滑动重叠率设置为20%、纵向滑动重叠率设置为15%,目标保留比例阈值设置为1/3时检测效果最佳。
表3 展示了切片检测结果拼合参数的灵敏度分析。在统一使用表2 中选出的滑窗切片参数进行前期切片检测后,对拼合时如何选取像素阈值以及交并比阈值的灵敏度进行探讨。此步骤共设置了5 组不同对照组,通过比较不同设置下的mAP值,可以得出将像素阈值设为150、交并比阈值设置为0.5时能够达到最佳检测效果。
3.4.2 检测效果对比
为评估融合高效注意力的多尺度部件检测算法(以下简称本文算法)性能,在相同实验条件下,分别使用SSD512[2]、RetinaNet[3]、Faster RCNN[11]、YOLO v5[8]四种经典的目标检测算法与本文算法一同对PLAD 数据集进行测试,将实验结果记录在表4中。
表4 不同模型检测效果对比Table 4 Comparison of detection effects of different models 单位:%
另外,表4 也给出了PLAD 数据集作者所提MSPAD 算法[22]的实验结果数据。MS-PAD 同样采用了切片思想来提升对高分辨率图像中小尺度目标的检测精度。但与本文算法不同的是,MS-PAD只是单纯的将图像以2×2的形式平均切分为4块来检测最小尺度的防震锤目标,而对其余种类的目标直接采用SSD算法进行检测,整体检测结构设计较为简单。
通过纵向观察表4中的Precision、Recall、mAP三个指标值并结合公式(5)、(6)可以较为直观地看出,mAP值受Precision与Recall两个值的综合影响,直接将高分辨率图像不做任何处理就放入现有目标检测模型中进行检测,Pricision 平均水平不足50%,Recall 值均在25%以下,mAP 值也均未达到40%。使用切片思想后,MS-PAD 算法对塔号牌、防震锤的检测性能提升显著,相应的mAP值的提升也有了质的飞跃。本文算法更是在MS-PAD算法的基础上进一步将mAP值提升了1.6个百分点,使其达到了90.8%,对应Precision值可达83.2%,Recall值可达92.8%。
再对表4中不同模型对于5类输电线路部件的检测效果进行细致的横向观察,可以发现直接使用SSD512[2]、RetinaNet[3]、Faster RCNN[11]、YOLO v5[8]四个现有目标检测模型仅能检测出电线杆塔、绝缘子、间隔棒等一些稍大尺寸的目标,而对于塔号牌、防震锤这两类小尺度目标的检测效果不佳。综合观察四个模型的表现,可以发现YOLO v5在检测中等尺度以及大尺度目标时性能更加稳定。MS-PAD算法在SSD512算法的基础上加入图像切分策略单独放大最小尺度的防震锤目标特征,较好地平衡了其与其他4类不同尺度目标的检测精度,使综合mAP 值达到了89.2%。本文算法在针对PLAD 数据集中的待检测目标特征进行统计分析后,采用特定的滑动窗口对高分辨率图像进行切片,并对YOLO v5 算法做出改进,运用改进后的算法同时对切片前后的图像进行全类别目标不做区分的检测,而后再将结果进行集成,相比MS-PAD 单独检测小尺度种类目标而言,更符合常规目标检测流程。又由于YOLO v5与SSD算法本身的检测原理不同,加之本文算法针对PLAD数据集进行了特定处理,最终实现了比MS-PAD算法更好的检测效果。
3.4.3 消融实验
本小节设置了三组消融实验,以进一步验证在本文算法中加入高效注意力ECBAM 以及使用集成策略的有效性。
首先,为判断加入高效注意力ECBAM之后对于算法性能是否有提升,设计了两组消融实验。分别使用YOLO v5、YOLO v5+CBAM、YOLO v5+ECBAM三个算法对切片前后的数据集进行训练测试。
表5 展示了对切片前图像使用三个算法训练模型的效果对比,表6展示了对切片后图像使用三个算法训练模型的效果对比。
表5 加入注意力前后的模型效果对比ITable 5 Comparison I of effect of model before and after adding attention 单位:%
表6 加入注意力前后的模型效果对比ⅡTable 6 Comparison Ⅱof effect of model before and after adding attention 单位:%
两表中的指标趋势变化相似,对于Precision 值,使用YOLO v5、YOLO v5+CBAM、YOLO v5+ECBAM三个算法,测出的结果数值依次提升,说明加入注意力机制后确实能够提取到更多的图像特征,减小错误检测的概率,有效提高YOLO v5算法的预测准确程度,并且优化了通道注意力模块之后得到的ECBAM 性能相比CBAM 而言更胜一筹;对于Recall 值,使用三个算法测出的结果数值接近,相差不大,说明加入注意力机制前后,漏检率并没有受到太大的影响,能够保持相对稳定;对于mAP 值,由于Precision 值依次提升,Recall 值相对不变,因此在Precision、Recall 两个指标的综合影响下,mAP值的变化呈现与Precision值相同的趋势。总之,使用三个算法测出的结果数值依次提升,均在加入高效注意力机制ECBAM之后达到了最佳值,并因此证明了在算法中加入高效注意力ECBAM的有效性。
其次,为了便于观察使用滑动窗口将高分辨率图像进行切片训练,并将切片前后分别训练得到的模型结果进行集成这一做法对于提升检测效果的有效性,设计了第三组消融实验。在同样使用YOLO v5+ECBAM模型的情况下,分别测试切片前后两个未经集成的模型以及集成模型的检测效果,将结果记录在了表7中。
表7 集成策略的有效性对比Table 7 Comparison of ettectiveness of integration strategy 单位:%
由于在2.2 节中已将电线杆塔归类于大尺度目标,将绝缘子、间隔棒归类于中等尺度目标,将塔号牌、防震锤归类于小尺度目标,结合表7 中数据可以看出,在对图像切片前使用YOLO v5+ECBAM 模型,能够较好地检测出中等尺度以及大尺度目标。在对图像切片后使用YOLO v5+ECBAM模型,大尺度目标检测效果变差,但对于中等尺度目标检测效果有了近30个百分点的提升,对小尺度目标能够从检测不到提升到有80%以上的检测精度。集成之后两个单独训练的模型优势均被保留,最终对于多尺度目标检测,Precision 可达83.2%,Recall可达92.8%,mAP可达90.8%。
3.4.4 检测结果展示
图11 所示为不同模型对PLAD 数据集进行检测后得到的结果对比,图中红色标签代表电线杆塔目标、黄色标签代表绝缘子目标、绿色标签代表间隔棒目标、紫色标签代表塔号牌目标、蓝色标签代表防震锤目标。
图11 检测结果比较Fig.11 Comparison of detection results
图11(a)~(e)分别给出了SSD512、RetinaNet、Faster RCNN、YOLO v5以及本文算法的结果,MS-PAD模型因未公开官方代码,具有不可复现性,故其结果未在图中展示,图11(f)给出了标注数据。
整体比较来看,使用SSD512模型检测,误检概率较大,且完全无法检测出小尺度的防震锤目标以及稍微大一些尺度的塔号牌目标;使用RetinaNet模型,对于能够检测到的目标,定位较为准确,但同样无法检测出小尺度的防震锤目标,漏检情况较为严重;使用Faster RCNN模型能够发挥一定双阶段模型检测的优势,检测出更多种类的目标,也包括了其中一些小尺度防震锤目标,但依然存在一定的误检及漏检情况;使用YOLO v5模型的检测结果与使用RetinaNet 模型的检测结果相似,只在大尺度目标的检测方面效果略优于RetinaNet;使用本文所提出的模型,基本可以检测出所有标注数据,甚至可以检测出多种多个在原图中未经标注的目标,漏检率小,定位精准。
4 结束语
本文以目标检测中应用广泛的单阶段目标检测算法YOLO v5为基础,针对高分辨率输电线路图像中,不同种类部件尺度跨越大,难以均衡检测的问题进行改进。融合高效注意力机制ECBAM 综合提升了YOLO v5算法的特征提取能力,增强了模型检测性能。使用滑动窗口将高分辨率图像切片,放大了其中中小尺度目标特征。使用改进后的目标检测算法分别对切片前后图像进行训练,并集成两个模型检测结果,实现了多尺度目标检测。不同模型的对比结果表明:本文算法检测效果较现有目标检测算法提升显著,Precision 达到了83.2%,Recall达到了92.8%,且mAP值比数据集原作者提出的方法提升了1.6 个百分点,达到了90.8%,漏检少,可检测出较为隐蔽的目标,定位更加准确。在下一步的研究中,将结合知识蒸馏方法,对模型进行轻量化改进,提升部件检测效率。