基于YOLOv5算法的无人值守智能变电站异物入侵识别方法

2024-05-07周仲波王大力陈家辉

电气技术与经济 2024年4期

周仲波王大力肖力陈家辉田地

（贵州电网有限责任公司遵义供电局）

0 引言

变电站作为电力系统的重要环节，一旦出现异物入侵，可能导致设备损坏、电网短路、电压波动等问题，甚至可能引发火灾、爆炸、停电等严重后果。为此，诸多学者对该方面进行研究。如：肖曾翔通过卷积神经网络研究变电站异物入侵识别［1］。庞瑾利用图像模式识别变电站异物入侵［2］。变电站异物入侵场景具有多样性，包括异物的形状、材质、尺寸等。但是上述方法由于特征不具备足够的灵活性和泛化能力，导致对于不同类型的异物可能无法提供良好的识别效果。对此，本文研究基于YOLOv5算法的无人值守智能变电站异物入侵识别方法。

1 基于双目视觉的无人值守智能变电站数据采集

双目相机是双目视觉系统最关键的硬件设备，它主要由两个相同的影像传感器组成，在双目相机内部的同步模块的控制下，两个传感器能够保证对某个场景完成同步拍摄，并将所得视频或图像输出。通过得到二维图像数据，摄像头成像模型实质上是找出三维空间内的点与二维图像上的像素点的一一对应关系［3］。

（1）相机坐标系与图像坐标系的变摄像头成像变换模型，如图1所示。

图1 变换关系图像

图中的几何关系表达式如下：

将其表示为矩阵形式的齐次坐标变换关系为：

（2）图像坐标系与像素坐标系的变换，此变换为二维平面内的坐标变换，涉及坐标原点的平移与坐标系度量单位的改变，如下图2所示［4］。

图2 坐标系变换图像

图3 数据增强方法效果图

假设每一个像素在u、v轴方向上的物理尺寸为dx和dy，则图中的几何关系为：

将其表示为矩阵形式的齐次坐标变换关系为：

综上所述，可将四个坐标系之间通过矩阵变换联系起来，联合式（2）、（4），得到：

2 基于YOLOv5算法的变电站异物入侵识别

YOLOv5是一种流行的目标识别算法，它是YOLO（You Only Look Oncе）系列算法的最新版本。与其前身相比，YOLOv5具有更高的性能和更快的运行速度。YOLOv5在目标识别任务中表现出色，能够实现高精度的目标识别和定位［5］。

输入端主要包括对输人的图像进行的数据增强以及图片缩放；主干网络主要包括CA模块与CBAM通道注意力模块，用于图像的特征提取；颈部采用FPN+PAN结构，加强对携带信息不同特征层的融合能力；输出端作为网络的识别部分，利用所提取的特征识别变电站异物。具体识别流程如下。

2.1 输入端

YOLOv5输入端的主要作用是为了对输入图片进行预处理，将输入图片转化为合适的尺寸，以便模型进行更好的训练。输入端所用的方法主要有各种数据增强方法和自适应图片缩放。

（1）图像增强

Mosаic法对所选取图片经过数据增广操作后，将四张图片进行最大外接矩形的方式进行裁剪拼接，之后就获得了一张新的图片。每一张图也都有其对应的目标框，同时也获得了新图片的目标框。其具体方法如下图所示。

（2）自适应图片缩放

自适应图片缩放的方法是将不同尺寸的图片之间动态调整输入图像的尺寸，使目标识别算法能适应不同尺寸的图像，并保证识别准确性。采用自适应图片缩放的方法，在YOLOv5框架中将显著提高识别效率。该方法将使得算法在处理不同尺寸的图片时更加有效，并减少信息冗余，提高了识别的速度和准确性。自适应缩放填充过程如图4所示。

图4 自适应图片缩放

图5 CBAM通道注意力模块结构

图6 FPN+PAN结构示意图

2.2 结合注意力机制的主干网络设计

在YOLOv5的主干网络中增加注意力机制，这种机制的作用是让算法更加关注图像中重要的特征，同时忽略那些不太重要的信息。主要结构包括CA模块与CBAM通道注意力模块。

（1）CA模块

CA模块通过对不同通道之间的特征响应进行动态的自适应加权，使模型能够更加关注重要的特征信息。CA模块通过嵌入位置信息，避免在二维全局池化中位置信息的损失。

CA采用逐通道进行平均池化的方式，使用（H，1）和（1，W）的池化核按X和Y轴方向进行池化编码。由此得到了一个C×H×1或C×1×W的特征图。

坐标注意力生成为了得到与输入相同形状的输出，将按空间维度提取到的特征图f进行拼接，形状为并使用控制减小率的参数r进行SE操作，公式如下：

接着，将f拆分为f h和f w，形状分别为和然后分别进行1×1卷积变换函数Fh和Fw以及Sigmoid激活函数σ得到gh和gw坐标注意力，公式如下：

最后，将gh和gw相乘，得到与输入相同形状的输出，公式如下：

（2）CBAM通道注意力模块

该模块在CA模块的基础上进一步引入了空间注意力机制，以更细粒度地调整特征图的响应。CBAM注意力机制将输入特征图的每个通道作为一个特征识别块，通过特征的通道间相关性输出通道注意图，对于F∈R(C×H×W)层的特征图，通道注意模块首先计算每个通道MC∈R(C×1×1)的权重，计算公式如下：

其次，将池化后的特征图送入到多层感知机中，得到属于通道域的特征图Mc。最后，将Mc与原始特征图F相乘并发送到空间注意力模块。CBAM结构如下。

2.3 颈部设计

在YOLOv5的颈部使用了FPN+PAN）的结构。FPN是一种用于创建输入图像的多尺度表示的结构。它旨在通过生成特征金字塔来有效地识别不同尺度的对象，每个特征金字塔都具有不同的尺度。FPN的左半部分采用上采样的方式从网络主干中提取特征，向特征图中插值，使得特征图的尺度变大，以便和Bаckbonе中的特征图进行融合，对特征进行向上融合，让特征图尺寸不断变大。右半部分是对特征图进行下采样，主要目的是为了获取不同尺度下的特征图，使浅层的图形特征与深层的语义特征做更好的融合。

PAN用于聚合来自FPN不同分支的信息，以预测图像中物体的存在和位置。PAN采用FPN生成的特征图，并使用它们对图像中的对象进行预测。PAN分支成多个并行分支，每个分支负责预测不同尺度的对象。然后聚合来自不同分支的预测以生成图像的最终预测集。FPN+PAN结构如下所示。