改进YOLOv5的光伏组件热斑及遮挡小目标检测

2024-01-18林正文宋思瑜范钧玮刘广臣

计算机工程与应用 2024年1期

林正文，宋思瑜，范钧玮，赵薇，刘广臣

1.鲁东大学数学与统计科学学院，山东烟台 264025

2.鲁东大学信息与电气工程学院，山东烟台 264025

电力行业是国民经济的重要支柱，面对化石燃料发电引起的环境污染问题，党的二十大报告指出要深入推进能源革命，尽快实现向低碳、清洁的能源结构转变。“十四五”是我国推进“碳达峰、碳中和”战略的关键时期，国家及各省份相继发布支持光伏发电的政策，助力构建以新能源为主体的新型电力系统[1]。新能源发电已成为全球共识，光伏市场将迎来更加广阔的发展前景[2]。

光伏组件能否健康高效运行将直接影响企业效益，热斑是光伏组件发生的最为频繁的故障之一。热斑是指光伏组件由于外部灰尘、树叶和鸟粪等异物遮挡或者出现裂纹、短路等内部器件损坏导致部分电池片功能异常，进而消耗正常运行电池片所产生的能量而持续发热的现象[3]。热斑状态的持续会严重影响光伏电池的发电效率，甚至会引发火灾；此外，光伏场站的选址通常在偏远地区或者是大型建筑顶部，周边环境较为复杂，利用人工检测排查不仅耗时费力，而且存在一定的安全隐患。

目前，光伏组件热斑检测方法可分为基于电气输出特性的检测方法和基于红外图像的检测方法两类。基于电气输出特性的检测方法，通过测量和比较正常运行与故障状态下光伏组件电压、电流、功率等电气特性的差异来判断其是否存在热斑故障[4-5]。这一类检测方法可以对故障状态进行有效的判断，但是较难实现故障电池片的定位工作，且实施过程通常需要搭建外部电路、部署传感器等，导致在大型光电场站实施复杂、检测成本较高。

随着无人机技术的普及和深度学习领域的迅速发展，基于红外图像分析的热斑检测方法受到了更多关注。车曦[6]通过分离红外图像中的亮度信息，将热斑导致光伏电池温度递增的现象重新编码，并基于脉冲神经网络实现对光伏组件运行状态的准确判断；Pierdicca等人[7]通过对数据集红外图像进行翻转、旋转等操作实现数据扩充，增强了VGG-16 网络模型的鲁棒性；王奇等人[8]利用灰度化、去噪、栅线过滤等图像处理方法，提升了红外图像下热斑检测的精度；郭梦浩等人[9]从调整预设锚框尺寸、降低特征提取网络深度方面，调整Faster R-CNN网络结构以提升检测精度；贾帅康等人[10]在残差网络中插入注意力模块，有效地增强了热斑红外图像的特征提取效果；Di Tommaso 等人[11]基于YOLOv3 实现对光伏电池正常、升温、热斑、极端热斑四个阶段的有效检测。依据红外图像热斑区域的特征差异，结合目标检测技术实现对故障电池块的精确定位，在降低故障检测难度、提升企业发电效益等方面具有重要意义。

红外图像可以实现对现存热斑的有效检测，但是对于电池表面的小型异物遮挡情况辨别效果不佳，难以避免电池因受到持续的遮挡而引发的热斑故障。图1 为光伏组件相同区域下的红外图像与可见光图像，蓝色方框内为热斑和小型异物遮挡的存在区域。图像显示：红外图像根据其成像原理，热斑故障电池片由于温度较高呈现高亮区域，与正常状态的电池片特征差异明显；但是图像中目标轮廓模糊、细节丢失、图像质量较差，难以观察小型异物遮挡情况。可见光图像视角更广，图像分辨率更高，保留了更多的例如色彩、轮廓、形状等细节特征，更加适用于光伏组件表面存在的遮挡物检测。两种图像在分辨率、色彩、纹理等特征上表现出显著差距，不宜放置于同一数据集中进行检测任务。合理利用可见光图像数据及时检测并清理电池片表面存在的遮挡物体，可以有效避免后续因受到持续遮挡而引起的热斑，进而延长光伏电池的使用寿命并提高发电效率。

图1 红外与可见光对比图像Fig.1 Contrast image of infrared and visible light

综上所述，本文利用无人机搭载高清摄像机对光伏组件进行第一次巡检，基于可见光视频数据，建立遮挡小目标检测模型，指导光伏电池表面异物清理工作以防止后续热斑产生。在此基础上，使用无人机搭载红外热成像摄像机进行第二次巡检，建立热斑故障检测模型，指导故障电池的维修以及更换，具体检测流程如图2所示。目前，多种无人机具备携带高清摄像机和红外热成像摄像机的能力，可以获取可见光和红外光场景下光伏板表面状态，实现上述过程。通过无人机两次巡检过程，实现对光伏热斑更加全面的识别和处理，助力光伏企业健康发展。

图2 检测流程图Fig.2 Detection flow chart

1 光伏数据集锚框设定

1.1 YOLOv5系列网络模型

目标检测是计算机视觉的关键分支之一，主要处理图像中物体的识别和定位工作。目前，目标检测技术已广泛地应用于工业、农业、医疗等诸多行业[12-14]。You only look once（YOLO）系列目标检测算法[15-17]将检测问题简化为回归过程，其核心思想是将图像作为网络的输入，进行网格划分并生成锚框，结合损失函数，网络最终输出检测框的位置、所属类别和置信度信息，完成检测任务。YOLO系列算法有效地降低了计算量、检测速度快且满足实时性要求，方便部署在无人机等资源有限的移动设备，具有很强的实用性。

经过算法多次迭代和更新，该算法的第五代版本（YOLOv5）更加轻量化、推理速度更快。6.1 版本的YOLOv5源码中共包含n、s、m、l、x五种不同检测性能的P5 系列模型；同时，为了提升高分辨率图像的检测效果，也提供了相应的P6 系列网络模型：n6、s6、m6、l6、x6。通常，P5系列模型在分辨率接近640×640的图像上表现出较好的检测效果；对于图像分辨率为1 280×1 280或更高的数据，P6系列模型具有更高的检测精度。

以2.1节中s型号模型为例，带有红色边框标注的模块为YOLOv5s6相较于YOLOv5s增加的结构。P6系列模型结构更深，在主干网络部分进行6 次特征下采样，因此对高分辨率图像可以表现出更佳的特征处理效果；同时P6 系列模型在预测端新增了一个检测模块，可以应用在目标尺寸变化较大的检测任务。

1.2 锚框设定方案

YOLO 系列算法的实现需要遍历图像中的预设像素框，保留最佳像素框并进行微调。上述预设像素框称为锚框。

YOLOv5 使用K-means 算法结合欧式距离，基于COCO 数据集[18]（common objects in context，COCO），给出了目标检测任务通用的锚框。COCO数据集（https：//cocodataset.org）是由微软公司出资标注的主要用于目标检测、图像分割等计算机视觉任务的公开数据集，共包含33万张图片以及80个目标类别。光伏组件表面存在的异物遮挡和热斑区域均与上述锚框的尺寸之间存在较大差距，直接使用预设锚框进行光伏组件故障检测将会影响模型性能；此外，K-means 算法中聚类中心的选择具有很强的随机性，距离度量使用欧氏距离容易受到预测框尺寸的影响。

基于以上分析，本文利用K-means++算法[19]结合交并比指标（intersection over union，IoU）对可见光数据集Data1、红外光数据集Data2（见4.1 节）分别进行锚框设定，以此来改善聚类中心选取过程的随机性；使用IoU建立距离度量指标可以避免标注框尺寸的影响，相较于欧氏距离更加科学有效。

本文锚框设定方案的具体步骤：

（1）随机选取一个标注框作为聚类中心Center1。

（2）计算其他标注框与当前所有聚类中心的最短距离D(i)，根据最短距离结果，计算每一个标注框被选为下一个聚类中心的概率p(i)，依据概率选取下一个聚类中心。迭代该过程，直到选取了x个聚类中心。

（3）聚类中心确定后，计算各标注框与每个聚类中心的距离Distance(i,j)，并将其分别归属于距离最近的聚类中心，在此基础上，计算各聚类中心包含的所有标注框在各维度上的均值，将其更新为新的聚类中心。迭代该过程，直至达到迭代次数或者聚类中心不再改变，输出x个聚类中心属性。

上述过程中，最短距离D(i)、距离Distance(i,j)、概率p(i)的计算公式如下：

式（1）～（3）中，i∈[1,N]，其中i代表标注框，N为数据集中标注框总数；j为聚类中心，取值范围为[1，x]；IoU(i,j)表示标注框i与聚类中心j的交并比。

2 基于可见光图像的遮挡小目标检测模型

YOLO系列网络模型凭借优秀的检测性能，在诸多领域均有良好表现，但是模型追求检测效率的同时牺牲了部分精度，导致在进行小型目标检测任务中容易出现召回率较低的问题[20-21]。目前，对于检测任务中小目标的定义还没有形成统一标准，现阶段最为通用的界定方法是将分辨率小于32×32像素的目标定义为小目标[22]。

如图3所示，高清摄像机拍摄的光伏组件表面图像通常分辨率较高，且遮挡目标尺寸较小符合小目标判断标准，因此本文遮挡物检测应属于小目标检测任务。

图3 光伏组件表面可见光图像Fig.3 Visible light image of photovoltaic module surface

综合考虑检测精度、待检测目标尺寸等因素，选择YOLOv5s6 作为本研究的基础模型；在此基础上，在模型的主干网络中嵌入坐标注意力机制（coordinate attention，CA）[23]以提高网络对小型异物遮挡的检测能力，使其更好地应用于光伏组件表面遮挡小目标检测。坐标注意力[23]是一种将位置信息嵌入到通道中的轻量级注意力机制，可以有效增强网络提取特征的表达效果，本文将建立的可见光背景遮挡小目标检测模型命名CA-YOLOv5s6。

2.1 YOLOv5s6模型

YOLOv5s6 由Input、Backbone、Neck、Head 四部分组成，模型的整体结构如图4所示。网络的输入端对输入图像进行尺寸调整和数据增强处理；主干网络利用多个Conv 模块、C3 模块和SPPF 模块的组合完成特征提取任务；颈部网络采用特征金字塔网络（feature pyramid networks，FPN）[24]结合路径聚合网络（path aggregation network，PAN）[25]的结构，实现了低维特征和高维特征的融合，极大地丰富了特征的表达能力；预测端对颈部网络输出的四个不同尺寸的特征图分别划分网格，然后结合锚框机制生成预测框，通过设定置信度阈值和非极大值抑制算法（non-maximum suppression，NMS）对冗余的预测框信息进行剔除，最终完成目标检测任务。

图4 YOLOv5s6网络结构Fig.4 Structure of YOLOv5s6

2.2 CA-YOLOv5s6模型

在计算机视觉领域，注意力机制可以对特征图的各个位置赋予相应的权重，使得网络模型更关注有效特征，增强特征的表达能力，诸多研究显示添加注意力模块可以提升神经网络模型对小目标的检测效果[26-28]。

坐标注意力（CA）通过将位置信息嵌入到通道注意力中，为移动网络带来性能提升。CA 的具体计算过程如图5所示：

图5 坐标注意力机制计算过程Fig.5 Calculation process of coordinate attention

（1）如式（4）、（5）所示，对于输入的特征图X（尺寸为C×H×W，C、H和W对应通道数、高度和宽度），分别使用大小为H×1 和1×W的池化核遍历二维特征图的两个坐标方向，依次获得各个通道的坐标特征图。这种特征聚合方式可以在保存位置信息的同时建立长程特征依赖关系，上述计算过程可表示为：

（2）将获得的特征图y1、y2进行拼接，并依次进行卷积（通道数压缩以降低计算量）和非线性函数激活，得到包含两个方向特征编码信息的特征图Z（维度：，r为通道数缩减比率）。

式中，α表示非线性激活函数，f1代表卷积操作，Concat表示拼接操作。

（3）结合split 函数，以特征图的通道维度方向将Z切分为z1（维度分别进行卷积操作（将通道数调整至与输入特征图的通道数C相同）、Sigmoid激活函数处理，最终获得坐标注意力权重v1（维度：C×H×1）、v2（维度：C×1×W）。上述计算过程可表示为：

（4）如式（9）所示，使用坐标注意力权重对输入特征图进行加权，得到输出P。

本文在C3模块的最上方支路，卷积过程后嵌入CA权重计算，并将模块命名为C3s，其结构如图6（a）所示。通过结合卷积进行通道数缩减，上述CA嵌入方法避免了给模型带来复杂计算量；同时结合后续特征图的融合与拼接过程，有效地提高了特征的表达能力。

图6 模块及网络结构Fig.6 Module and network structure

C3s模块对输入的特征图进行划分，分别进行卷积提取特征（经卷积后通道数缩减至原来的1/2）。CA 对所在支路的输入赋予注意力权重并实现特征融合，以增强特征的表达效果。将两支路结果拼接并将通道数扩充至与输入一致后，输出至下一网络模块。上述计算过程可表示为：

式（10）～（13）中，x、z表示模块的输入与输出；k、l、y代表各中间变量；用来表示结构图中不同卷积模块，如代表最下方支路右侧卷积模块代表最上方支路左侧卷积模块；CA代表使用坐标注意力对特征图进行权重调整；Add、Concat分别表示特征图的相加、拼接操作。

通过对比多次实验的检测结果，本文将C3s模块嵌入至YOLOv5s6主干网络中的相应位置，建立遮挡小目标检测模型CA-YOLOv5s6，其主干网络结构如图6（b）所示。小目标检测任务难点在于小型目标包含的像素点较少，难以提取目标区域有效特征。在模型的主干网络添加坐标注意力机制，可以在特征提取阶段减少背景区域的无效特征的提取，增强目标区域位置信息特征的重要性；其次利用主干网络中多个坐标注意力机制的嵌入，提高特征图的上下文关联程度，进一步实现关键特征的有效表达，提升模型对小目标的检测性能。

3 基于红外光图像的热斑故障检测模型

在红外场景下，可以根据温度特性发现热斑故障。如图7 所示，相较于遮挡小目标检测任务，红外图像中热斑故障区域尺寸较大，且与周围正常运行状态电池片的特征差异明显，特征信息更加充分，有效地降低了检测难度。鉴于红外热斑的上述易识别性，红外图像热斑检测任务可不需要复杂的网络结构进行特征采样。根据上述红外图像热斑检测任务特点，本文选取更加轻量化的网络YOLOv5n作为热斑故障检测模型。

图7 光伏组件表面红外图像Fig.7 Infrared image of photovoltaic module surface

在YOLOv5 的6.1 版本中，YOLOv5n 是所有P5 系列模型里面深度和宽度最小的网络，具有体积小、计算量小、检测速度快的优势，更加方便部署于计算资源有限的移动设备（如无人机）。YOLOv5n整体网络结构如图8 所示，网络同样由Input、Backbone、Neck、Head 组成，各部分的功能与YOLOv5s6 相同。不同之处在于YOLOv5n只进行5次特征下采样，网络层输出特征图的通道数更少，因此整体结构更加精简，同时网络在宽度上更窄，大幅度减少了模型参数和计算量。

图8 YOLOv5n网络结构Fig.8 Structure of YOLOv5n

4 实验与结果分析

4.1 数据准备

如图9（a）、（b）所示，本文利用无人机巡检所得的可见光视频数据（分辨率为3 840×2 160），每30 帧抽取一张图片，并对重复、目标模糊图像进行剔除，最终保留有效图像1 343张存放于可见光数据集Data1；对于红外光视频数据（分辨率为640×512）同样进行上述处理，共保留有效图像1 006张存放于红外光数据集Data2。

图9 数据处理Fig.9 Dataprocessing

在此基础上，借助标注软件LabelImg（Tzutalin，2015），对数据集Data1、Data2分别标注光伏组件表面存在的异物遮挡和由内部元器件损坏造成的热斑。其中，可见光场景下共标记异物遮挡5 601个；红外光数据集中共标记热斑区域1 340个。数据标注工作完成后，将各数据集中的图像与标注文件按照对应关系以9∶1的比例随机划分训练集和测试集，实验数据的具体情况如表1所示。

表1 实验数据Table 1 Experimental data

4.2 实验环境与参数设置

本文实验环境配置如表2所示，YOLO系列模型训练过程中参数的设置情况如下：迭代次数设置为200 epoch，学习率大小设置为0.001，动量大小设置为0.937，平均精度均值的IoU 阈值设置为0.5，边界框损失函数选择CIoU Loss，优化器选择AdamW。

表2 实验环境配置Table 2 Experimental environment configuration

4.3 评价指标

本文使用查准率（precision）、查全率（recall）、平均精度（average precision，AP）、平均精度均值（mean average precision，mAP）、每秒检测帧数（frames per second，FPS）、参数量（Parameters）作为模型检测性能的评价指标。其中，查准率（precision）、查全率（precision）计算公式如下：

式（14）和（15）中，TP表示真实热斑或异物遮挡样例中被正确检测出的数量；FN表示真实热斑或异物遮挡样例中未被正确检测出的数量；FP表示背景区域被误检为热斑或异物的数量。因此，查准率可以表示检测的正确率，查全率则表示所有热斑故障或异物遮挡样例中被正确检测出来的比例。

理论上，查准率和查全率越高越好，但实际中这两个指标相互矛盾，为了综合考虑查准率与查全率以衡量模型检测性能，故引入平均精度（AP）和平均精度均值（mAP）两项评价指标。其中，平均精度用来计算单个待检测类别的平均精度，平均精度均值用来计算所有待检测类别平均精度的平均值。

平均精度（AP）、平均精度均值（mAP）的具体计算公式如下所示：

式（16）、式（17）中，p(r)为查准率相对查全率的变化函数，N表示目标检测任务中待检测目标的类别数量。

每秒检测帧数（FPS）即每秒可以处理多少张图片，用来衡量网络模型的检测速度。

参数量（Parameters），即模型共含多少参数，用来衡量模型的内存占用情况及响应速度，参数量越小越利于模型在移动端的部署。

4.4 锚框设定方案实验结果

结合本文锚框设定方案，对于图像分辨率640×640和1 280×1 280的光伏数据集（Data1与Data2）分别设置3 组共9 个锚框（适用于P5 系列模型）、4 组共12 个锚框（适用于P6 系列模型）。本次实验过程中，输入数据为数据集Data1、Data2 相应训练集中所有标注框（标注框数量分别为5 021、1 209），迭代次数设置为1 000。

锚框设定结果如表3 所示（COCO 数据集对应YOLOv5 算法的预设锚框）。表3 中每组数字分别表示该锚框尺寸的宽度和高度；较小尺寸的锚框应用在包含低级特征的浅层特征图以进行小型目标检测，大尺寸锚框部署在带有更多语义信息的深层特征图上检测大型目标。

锚框设定结果显示，由于光伏图像数据集与COCO数据集存在图像分辨率、目标尺寸等属性差异，导致锚框尺寸显著不同；其中，数据集Data1图像中异物遮挡区域包含的像素点普遍较少，中、浅层特征图对应的锚框尺寸均小于32×32 像素，符合小目标的判断标准，印证本文遮挡物检测属于小目标检测任务。

选取数据集Data2的训练集中所有标注框（共1 209个）作为该部分实验数据（数据详情见4.1节），并将迭代次数、聚类中心个数分别设置为1 000 和9，对本文方案的有效性进行测试验证。图10为上述标注框设定结果的可视化情况，图中横、纵坐标分别表示标注框归一化后的宽和高，红色菱形代表各聚类中心，不同颜色代表各标注框归属的类别。实验结果显示，本文的锚框设定方法可以有效改善随机选取聚类中心对最终锚框尺寸的影响。

图10 锚框设定效果对比Fig.10 Anchor frame setting effect comparison

基于数据集Data1，实验选取YOLOv5s、YOLOv5s6，测试锚框设定方案对模型性能的影响。具体实验结果如表4、图11 所示，表4 中，YOLOv5s+和YOLOv5s6+代表以本文方案对相应模型进行锚框设定，图11 为上述模型对相同目标的实际检测效果。结果显示，更换锚框设定方案前后模型各项精度指标基本持平，但在实际检测效果中，本文方案可以有效提高结果的置信度得分，证明了其科学性。后续实验中YOLO 系列模型均采用本文方案设定的锚框尺寸。

表4 锚框方案实验结果Table 4 Experimental results of anchor frame scheme 单位：%

图11 实际检测效果Fig.11 Actual detection effect

4.5 可见光图像遮挡小目标检测实验结果

基于数据集Data1，以YOLOv5s 和YOLOv5s6 作为基础模型，进行坐标注意力不同嵌入方案的对比实验，测试本文遮挡小目标检测模型的有效性。

本文尝试了三种不同的CA 嵌入方案：嵌入主干网络（记作CA1）、嵌入颈部网络（记作CA2）、嵌入主干网络及颈部网络（记作CA3）。实验过程中，YOLOv5s 与YOLOv5s6 的输入图像分辨率分别设置为640×640、1 280×1 280。

实验结果如表5 所示，YOLOv5s6 拥有更深层次的网络结构，可以更好利用高分辨率图像中小型目标的像素信息，在数据集Data1 上检测精度更高：查全率达到84.48%，减少了部分遮挡小目标的漏检情况；平均精度均值达到80.81%，相比YOLOv5s提高3.84个百分点。

表5 CA嵌入方案实验结果Table 5 Experimental results of CA embedding scheme 单位：%

不同的CA 嵌入方案作用在两种模型上存在差异。就YOLOv5s 而言，仅有在主干网络嵌入坐标注意力能够改善YOLOv5s 检测效果，在颈部网络嵌入坐标注意力甚至会造成检测精度的降低。造成这种现象的原因可能是数据集Data1 中图像分辨率过高，YOLOv5s 以640×640的输入分辨率导致目标区域像素较少，造成了特征提取相对困难，难以保证提取特征的正确性，在此基础上，在颈部网络嵌入CA，进一步造成了特征“失真”。

将YOLOv5s6作为基础模型时，三种嵌入方案均能明显提高检测精度。其中，在主干网络嵌入坐标注意力的效果最佳，查准率、查全率、平均精度均值分别达到85.81%、84.48%、83.78%，相较于基础版YOLOv5s6 分别提高0.84、1.55、2.97 个百分点；表明在主干网络部分嵌入CA，可以最大程度地改善检测过程中由于遮挡物体较小导致的漏检、错检情况。

基于以上结论，本文建立的遮挡小目标检测模型（CA-YOLOv5s6）将坐标注意力机制嵌入至YOLOv5s6的主干网络部分（见2.2节）。

CA-YOLOv5s6与基础版YOLOv5s6在训练过程中的查准率、查全率及平均精度均值的曲线变化情况如图12 所示。对于光伏组件表面存在的异物遮挡情况，CA-YOLOv5s6模型经200次迭代后平均精度均值明显高于YOLOv5s6；同时，在150次迭代后CA-YOLOv5s6各项曲线变化更加平稳、波动幅度更小、鲁棒性更强，进一步验证了CA-YOLOv5s6遮挡小目标检测模型的有效性。

图12 变化曲线对比图Fig.12 Comparison of change curves

为进一步讨论CA-YOLOv5s6 的有效性，将其与主流目标检测模型Faster RCNN[29]、SSD[30]、YOLOv3、YOLOv5s、YOLOv5s6进行对比实验。上述模型在数据集Data1 的性能结果如表6 所示。实验结果显示：对于光伏组件表面存在的小型异物遮挡，CA-YOLOv5s6 的检测精度最高，mAP达到了83.78%，相较于YOLOv5s6、YOLOv5s 分别提高2.97 和6.81 个百分点，有效地提升了检测精度。在单阶段检测算法中，SSD 的mAP 为50.89%，与YOLO 系列算法相比精度较低。YOLOv5s6（输入分辨率1 280×1 280）比YOLOv5s（输入分辨率640×640）的mAP 提升了3.84 个百分点，可见更高的分辨率将有效改善遮挡小目标的检测效果。

表6 主流算法对比Table 6 Comparison of indicators

对无人机巡检回传可见光视频进行截取，利用截取图像数据（分辨率为3 840×2 160）对模型的检测速度进行比较测试。经实验计算，在本文实验环境下，YOLOv5s 表现出优异的检测速度，FPS 达到68.03。除此之外，YOLOv5s6 与CA-YOLOv5s6 的FPS 实验结果分别为59.17、39.37，模型结构的改变在一定程度上降低了网络的推理速度，但是仍然满足在计算资源有限的移动设备上进行实时检测的要求，验证了CA-YOLOv5s6的可行性。在参数量方面，除两阶段检测算法Faster RCNN模型参数量较大之外，其余模型均在7×107以内，同时，CA-YOLOv5s6 凭借CA 的嵌入Parameters 比YOLOv5s6减少了4.8×105。

图13中展示了不同场景下光伏组件表面遮挡物体的实际检测效果，图像截取于测试视频数据；左、右两列图像分别对应YOLOv5s6、CA-YOLOv5s6 的检测结果。由于图像分辨率较高，为方便展示检测效果，对图中紫色矩形框区域进行放大处理，并用黄色方框及箭头对差异结果进行标注。结果显示：CA-YOLOv5s6 可以有效善YOLOv5s6存在不同程度的漏检情况，实现可见光背景下小型异物遮挡的精确检测，检测性能更高。

图13 遮挡小目标检测效果Fig.13 Occlusion small target detection effect

4.6 红外光图像热斑故障检测实验结果

图14 为YOLOv5n 训练过程中查准率、查全率、平均精度均值可视化情况（数据集Data2）。红外图像热斑故障特征较为明显，模型收敛速度较快，并在50次迭代后趋于平稳，各项指标均接近1，检测精度较高。

图14 曲线变化Fig.14 Curve change

实验选择Faster RCNN、SSD、YOLOv3、YOLOv5s、YOLOv5n 目标检测算法在数据集Data2 上进行对比实验，实验结果如表7 所示。结果显示：各算法在热斑检测任务中均表现出较好的检测精度，mAP指标均在99%附近。Faster RCNN检测精度最高，mAP结果为99.89%，不过模型的参数量很大，且检测速度比较慢，FPS 为9.35。YOLOv5n 的mAP 值为99.31%，虽然检测精度相较于Faster RCNN、SSD、YOLOv5s略低一些，不过模型在检测速度与参数量方面表现出巨大的优势，YOLOv5n的Parameters 仅1.76×106，且FPS 达到了83.3，表现出极佳的性能，大幅度节省了无人机等移动设备的存储及计算资源。通过各项指标的综合对比，将YOLOv5n 作为红外图像热斑检测模型。

表7 性能比较Table 7 Performance comparison

光伏组件由于受到阳光反射的影响，部分区域会呈现出亮度较高现象，模型容易将其误判为热斑故障。YOLOv5n 对红外图像数据的热斑检测效果如图15 所示，借助锚框机制YOLOv5n 可以很好地利用阳光反射区域与热斑在尺寸、形状上的差异，精确识别无人机巡检拍摄的红外图像数据中存在的热斑故障，有效避免因阳光反射造成的模型错误判别。

图15 热斑检测效果Fig.15 Heat spot detection effect

5 结束语

基于YOLOv5 系列模型，开展光伏组件表面热斑以及异物遮挡问题的研究，以实现光伏热斑更加全面的处理。

首先，结合K-means++算法与IoU 指标调整了YOLOv5算法的锚框设定方案，根据可见光与红外光图像特点进行锚框设定，并通过实验验证了该设定方案的有效性。

其次，针对光伏组件可见光视频数据中遮挡物体较小的问题，以YOLOv5s6 作为基础模型，在主干网络部分嵌入坐标注意力，设计了遮挡小目标检测模型（CA-YOLOv5s6）。实验结果显示，相较于YOLOv5s6，CA-YOLOv5s6的mAP提高2.97个百分点，Parameters减少4.8×105，针对遮挡小目标表现出更高的检测性能。

最后，选择主流目标检测算法基于光伏组件红外光数据进行对比实验，结果显示，YOLOv5n 模型的mAP、FPS、Parameters 分别为93.31%、83.3、1.76×106。相较于其他算法，YOLOv5n在保证检测精度同时，具有更强的部署便利性，更加契合红外图像热斑检测任务。