基于改进YoloV4的电网变压器油液渗漏检测方法

2024-02-29陆志欣田涵宁郭国伟

计算机测量与控制 2024年2期

陆志欣，田涵宁，郭国伟

(广东电网佛山供电局，广东佛山 528000)

0 引言

变压器作为电网“变电”和“配电”环节的核心电器设备，保证其安全稳定运行意义重大[1]。当前变压器主要分两种：干式变压器[2]和油浸式变压器[3]，油浸式变压器因制作工艺简单、造价成本低、环境适应性强、寿命长等优点，而被广泛应用，尤其是在特高压线路和低压户外场景。油浸式变压器相较于干式变压器，最大的区别就是油浸式变压器为实现散热和绝缘功能，内部含有大量的介质液体“油”，俗称变压油，是变压器的重要工作介质，能起到冷却和灭弧等保护作用。

而在变压器的工作过程中因质量、安装运输、工作环境和负荷多方面原因会造成电网变压器油液渗漏[4]，不仅影响了变压器散热效率，而且导致水分进入、绝缘强度下降，从而引起绝缘击穿、绕组烧毁等事故，将严重威胁电网的正常运行。

为减少电网变压器油液渗漏情况的出现，电网工作人员会定期对变压器进行巡检，但因人力成本的原因，巡检频率较低，一般为月检或季检，无法实现全天候地对变压器进行监测。

近年来，电网的重要设备周边都部署了监控摄像头，如何利用计算机视觉技术实时监测设备运行状态，减少巡检人力资源的消耗和保障巡检人员的安全成为电网的迫切需求。

目前常用于电网设备监测的计算机视觉方法主要分为两种：一是基于机器学习的图像处理方法，通过分析应用场景下图像的自有属性特征如颜色、轮廓、大小、纹理形状等人为设计特征[5-7]，分析出图像的标志性的信息，标记和识别出图像内容，最后通过分类器分类。此类方法特征提取简单，计算量较小，在某些单一场景下表现优秀，但也受限于人工设计特征提取方法的局限性，在现实复杂场景下，易受复杂背景、光照亮度等影响和干扰，方法的鲁棒性较差，可用性不强；二是基于深度学习的目标检测算法，通过迁移当前广泛应用于通用领域具有优异性能的目标检测算法，如SSD(Single Shot multi-boxes Detector)[8]、YOLO(You Only Look Once)[9-13]、Retina Net[14]、Faster RCNN(Region Convolution Neural Network)[15-16]、Mask RCNN[17-18]等主流目标检测方法，将电网设备正常运行状态和异常状态作为两个不同目标来检测，但这类目标检测算法都采用卷积网络模型作为主干网络如VGG[19]、Residual Net[20]、Dense Net[21]等分类模型实现特征提取，其出发点是卷积结构在视觉图像处理中拥有较好的空间局部偏置归纳性，可以帮助模型较好地提取局部特征和模型学习，但是局部偏置归纳的特性也限制了模型的全局感知能力和性能。

随着Transformer[22]的提出，Transformer结构在自然语言处理领域有着广泛的应用，且表现非凡。ViT[23]将Transformer引入到图像处理领域，并取得了超越卷积神经网络的性能。Transformer结构可以实现长距离跨度的相似度或关联度学习，实现全局的信息感知，可以有效地提升模型的表现。但图像的数据维度较高，进行高分辨率下的推理计算复杂度高，且优化较不稳定。为了加快推理速度，且进一步提升模型的性能，Mehta等人[24]提出了Mobile-ViT提出一种轻量级的ViT分类网络模型，保证了较低计算量的同时也兼顾了卷积和Transformer的特性。

为了进一步实现对电网变压器油液渗漏快速且准确的检测，本文提出了一种改进YoloV4的电网变压器油液渗漏检测方法。本文贡献主要有以下几点：

1)本文提出了一种改进YoloV4的网络模型，使用Mobile-ViT作为模型的骨干结构，利用卷积和Transformer有效地提取目标的局部和全局信息特征，降低了计算量。

2)本文在改进YoloV4模型的基础上，针对性地提出了一种多尺度特征融合方法，实现了局部和全局信息的多尺度特征融合，增强了上下文语义表达，有效提升算法的检测精度。

3)本文提出一种改进YoloV4的电网油液渗漏检测方法及整体系统架构，同时构建了电网油液渗漏相关数据集。

1 电网变压器油液渗漏检测系统及方法

1.1 系统总体结构

针对电网变压器油液渗漏实际应用需求，本文设计了一种油液渗漏检测系统，系统的总体结构如图1所示。主要包含有摄像终端，边缘推理，云端数据和运维中心等4个部分。

其中摄像终端一般指包含有高清摄像头，通过摄像头实现对目标24小时的监控成像，获取高分辨率图像数据。

边缘推理设备包含有硬件部分和软件部分。其中硬件采用Atlas 200DK，主板芯片为昇腾310，内存规格为LPDDR4X 8G，支持16路H.264硬件解码，功耗为20 W。软件部分包含有Linux-18.04操作系统，Mind Spore推理框架。通过将图像进行模型处理后得到输出结果，将输出结果与图像通过网络同时输入到云端。

云端服务器包含有两个方向的信息处理：一方面为接收边缘设备的数据和预测结果。将获取的图像数据进行存储和进一步标注后的模型训练。云端服务器也可以将数据和指令传输给边缘服务器实现模型的远程部署和更新等相关任务。另一方面服务器可以接收和反馈运维中心的指令，运维中心通过下达指令可以调控和管理云端的数据存储、标注、模型训练及模型远程部署等相关任务。此外，云端服务器会将检测结果直接反馈给运维中心，并进行相应的处理结果提示。

通过基于深度学习的智能监控系统可以有效地实现变压器油液渗漏的24小时的远程全天候的监管、训练和升级，这大大地提升了电网的智能化水平，有效地降低工作量，降低人力成本，提高系统的工作效率。本系统的核心部分为基于深度学习的模型检测算法。

1.2 YoloV4算法模型

YoloV4目标检测算法结构主要可分为3部分，主干网络、颈部结构和预测层3部分构成，如图2所示。

图2 YOLOV4模型结构

其主干网络采用CSPdarknet-53网络模型作为特征提取模型；从主干网络中获取3个特征尺度经过颈部层进行信息的整合，预测层在整合后的特征上进行目标预测。CSPdarknet-53是一个纯卷积的网络结构，其提取的特征信息具备较强的空间归纳偏置；此外，CSPdarknet-53在深层尾部结构中增加了SPP(spatial pyramid pooling)结构，一方面，有利于扩大对全局信息的感知。尽管如此，但卷积结构缺乏足够的全局信息获取以及不同位置之间的相似关联度感知用以目标预测，导致基于YoloV4的目标检测算法对液面和阴影的检测效果不佳。此外，CSPdarknet-53网络结构的计算复杂度相对较高，在边缘设备上推理速度较慢。

颈部结构采用PA Net结构，通过多尺度聚合不同尺度的特征用以融合多尺度上下文信息，对增强特征表达具有一定的效果。但是此结构特征层次串联度严重，耦合程度较高，浅层的特征需深层网络依次上采样后融合处理。再将获取到的融合特征送入预测层进行特征预测。此结构不利于并行计算，拖慢了检测推理速度。

预测层包含了分类、坐标回归和置信度3种预测分支用于颈部结构输出特征的检测与分类。

1.3 改进的YoloV4算法模型

针对上述问题和实际需求，为进一步提升YoloV4算法在电网变压器油液渗漏的检测性能。本文设计了一种改进YoloV4的油液检测模型，其结构如图3所示。本部分将从主干网络、颈部结构、预测层3部分详细介绍其结构。

图3 改进YOLOV4模型结构。

1.3.1 主干网络

为了改善原有CSPdarknet-53卷积模型对全局信息感知的不足和加快推理速度。改进的YoloV4模型引入Mobile-ViT结构代替原有CSPdarknet-53作为主干网络。Mobile-ViT模型由MobileNetV2区块和Mobile-ViT区块堆叠构成，去除分类任务带有的1×1卷积层、全局平均池化层和全连接层。其具体结构如表1所示。

表1 主干网络(Mobile-ViT)结构表

其中：MV2表示MobileNetV2区块，S1、S2表示Stride为1和2，MViTBlock表示Mobile-ViT区块，LX表示Transformer的层数为x层。

此外，由于Transformer结构计算复杂度高，基于低分辨率下的特征处理有利于提升模型的运算速度。下面将详细介绍MobileNetV2区块和Mobile-ViT区块结构。

1)MobileNetV2区块：

MobileNetV2区块采用深度可分离卷积有效地降低了卷积的运算复杂度和可训练参数数量，极大地提高了模型的推理速度。

通过1×1的卷积实现特征维度的升维，缓解狭窄维度会降低信息流形特征传递的问题，采用3×3的深度可分离卷积提取表达特征，再采用1×1的卷积还原其输入维度。在本网络中包含有两种类型的MobileNetV2区块结构，如图4所示。步长S取值为1的区块结构如图4(a)所示，采用残差连接，防止反向传播时梯度消失，其输入输出特征尺度保持不变；步长S取值为2的区块结构如图4(b)所示，用于降低特征尺度，实现特征下采样。

2)Mobile-ViT区块：

受限于Transformer处理需要二维线性数据流，因此，需将输入的三维特征转换为二维数据进行Transformer处理，将处理后输出进行维度还原回复空间维度。因此，Mobile-ViT区块包含了展开、Transformer层和折叠等三部分组成。其具体结构如图5所示。

图5 Mobile-ViT区块结构

展开部分，输入特征先后经过3×3和1×1的卷积，得到尺度为特征F将F划分成N块patches，每块为Fs，其具体表达如公式(1)所示：

(1)

将Fs∈(h×w×d)按照h，w维度进行压平，得到Fp∈(p×d)，其具体表达式如式(2)所示：

(2)

式中，p=w×h；FP表示展开后的特征；FS表示split后的特征。

然后，经过Transformer层部分的处理，FS(N，h，w，d)转变为FP(N，p，d)，此部分展开处理与原有的不同，会将h，w，d三个特征维度进行压缩，得到二维的特征。然而本区块展开后的特征Fp为三维特征。在本区块中，将得到的特征输入FP进行按n次拆分输入Transformer的处理结构中，其结构如图6所示。

图6 Transformer结构

输入特征拆分为p1…pn，Fpi∈(N×1×d)，其中1≤i≤n；Fpi经过线性层得到FQ，FK，FV∈(nxd)共3个特征，将d分成j组，每组为dk个进行多个注意力处理。其表达式如公式(3)所示：

(3)

式中，Z表示元素个数，×表示矩阵乘法，σ表示Softmax函数；Ft∈(NxN)。

将得到的Ft与Fv矩阵相乘得到Fa′，再将特征联合其它多头得到Fa。其表达如公式(4)、(5)所示：

Fa′ =Ft×Fv

(4)

Fa=Concat(Fa′)

(5)

式中，Ft∈(NxN)表示Q特征，Fv∈(Nxdk)为V特征，表示分组特征分为j组，每组数量为dk，Fa∈(N，d)表示注意力特征，Concat表示融合层；

将Fa通过激活层和两层线性层得到Fout，其具体表达式如式(6)和式(7)所示，通过聚合n层输入折叠层。

Fpi=FFN(GeLU(Fa))

(6)

FP=Concat(Fpi)

(7)

式中，Fpi∈(Nxd)表示；FFN(·)表示两层线性层，GeLU表示高斯误差线性激活层。

在原有的Tran sformer自注意力结构需要与0特征图里面每个区域进行相似关联度计算，如图7(a)所示。但在本文中，Transformer中每个patch采用了p=w×h分块操作，并分别进行注意力特征计算，由于patch在输入之前进行了3×3的卷积核计算，而每个patch的w和h的选取都为2，小于3。如图7(c)所示。patch中的元素可以选择只与相同位置的元素进行相似度计算。而不需要像Transformer一样对所有的位置进行计算，一定程度上提升了Transformer推理的速率，如图7(b)所示。

图7 Transformer自注意力机制对比

折叠层部分与展开层刚好相反，将展开的部分还原成三维特征，如图5所示。其具体的表达式如式(8)和式(9)所示：

(8)

(9)

式中，符号表达与式(1)和式(2)中的一致，并先后经过1×1卷积和3×3卷积得到输出特征，其表达如式(10)所示：

F=Conv3×3(Conv1×1(F))

(10)

式中，F表示特征，Conv3×3表示3×3卷积，Conv1×1表示1×1卷积操作。

1.3.2 颈部结构

颈部结构可分为特征融合层和特征金字塔层两个模块。特征融合层分别从主干网络中多个特征尺度上获取卷积特征和Transformer自注意力特征；特征金字塔层通过采用并行的双层金字塔结构实现特征多尺度运算，如图2所示。

特征融合层分别从主干网络的3个特征尺度上引出一组卷积特征和Transformer自注意力特征，将提取的特征分别经过1x1的卷积层进行特征联合得到多尺度特征。

特征金字塔层可分为两层：第一层是上采样过渡层，第二层为下采样过渡层。在上采样过渡层中，将输入的多尺度特征并行通过上采样与浅层特征进行相加融合，其融合的过程为：深层特征采用双线性插值的方式实现2x上采样后，结合1×1的卷积与浅层特征实现通道维度对齐；浅层特征通过1×1的卷积层与上采样后的深层特征通过对应元素相加的方式融合。

在下采样过渡层中，将浅层特征通过下采样与深层特征进行融合，下采样过渡层中的浅层特征采用2×2的不重叠平均池化层实现特征下采样。其余操作与上采样过渡层基本相同。

与原有算法相比，特征融合层整合了卷积特征和Transformer自注意力特征，有利于整合局部偏置归纳信息和全局注意力特征信息。金字塔层通过采用并行的双层金字塔结构实现多尺度信息融合和运算解耦，有利于提升模型精度和提高模型推理速度。

1.3.3 预测层

预测层包含有3个检测分支，分别为置信度、分类和坐标回归3种。将输入的3个尺度的预测特征分别采用3×3的卷积层进行目标预测。本置信度表示为目标预测类别的概率值，置信度预测范围为[0，1]，由Pr(Object)*IOU(Pred，Groundtruth)组成，其中Pr(Object)包含物体则表示Pr(Object)取1，否则取值为0。判断是否包含该类物体，IOU(Intersection over Union)表示预测框与目标框的重叠区域占总覆盖区域占比，这有利于筛选出背景和前景目标区域。类别预测是对包含有目标的框进行概率预测，其值范围为[0，1]，判断该目标框的概率匹配某类别的概率，总共包含C个类。回归框预测包含有4个值(x，y，w，h)其中x表示横坐标，y表示纵坐标，w表示宽度，h表示高度。Anchor的个数和尺寸由数据集由聚类统计得到。因此，每次需要预测K*(4+1+C)个值，K为Anchor个数。

1.4 优化目标

对应预测层的3个检测分支，对应的优化目标损失包含有置信、分类、坐标回归3类损失。其中置信损失采用MSE损失计算，其如式(11)所示：

(11)

分类损失采用交叉熵损失计算，其具体表达式如公式(12)所示：

(12)

坐标回归损失主要衡量预测真实值与anchor之间的偏移值的区间，这样可以有效地降低坐标预测的不稳定性。采用MSE作为其损失如公式(13)所示：

(13)

txi=Gxi-Cxi；tyi=Gyi-Cyi

(14)

twi=log(Gwi/Cwi)；thi=log(Ghi/Chi)

(15)

式中，G表示真实框，C表示anchor的坐标，x，y，w，h表示中心点的坐标、宽度和高度。

总体的损失为置信、分类和坐标回归3类损失之和。其表达如公式(16)所示：

L=λLloc+βLclass+ηLconf

(16)

式中，L表示总体损失，λ、β和η为系数常数，分别取值为1、1和0.5。

1.5 电网变压器油液渗漏检测算法模型实现流程

电网变压器油液渗漏检测算法模型具体实现的流程如图8所示。首先将输入图像进行尺寸缩放，将图像固定在256×256的输入大小，再将图像均值化，采用训练样本的均值和方差作为图像均值化的估计参数。

图8 电网变压器油液渗漏检测算法模型流程

然后，将图像输入到Mobile ViT主干网络中进行多尺度特征提取，将提取的特征实现多尺度特征融合，进而构建出多尺度的特征金字塔层特征；在多尺度特征上进行目标预测，得到大量的不同置信度和目标区域重叠的目标候选框，需要进一步进行筛选，主要由置信度阈值和重叠区域非极大抑制两方面构成。一方面，通过设定置信度阈值排除一部分低置信度的目标候选区域；另一方面将筛选出高置信度区域进行目标框非极大抑制操作(Non-Max Suppression)，将挑选出置信度最高的目标框作为正样本和标准，依次计算与同类别其它目标框的交并比。最后，将交并比高的目标框进行去除，再继续从剩下的低交并比目标框中重复此操作，直到筛选完所有的目标框，此操作进一步去除了高置信度且重叠的目标框，得到最后的目标预测框。

2 实验和结果分析

2.1 数据采集及增广

目前，针对电网中电网变压器油液渗漏领域内，没有通用的开源数据集。通过整理配电日常工作中变压器出现油液渗漏异常时的视频数据，对其进行了筛选，截取电网变压器油液渗漏图像，同时结合网络上开源的电网变压器油液渗漏图像，总共获得了4 000张电网变压器油液渗漏图像，形成了电网变压器油液渗漏数据集。图9为本文构建数据集的部分数据示例。

图9 电网变压器油液渗漏样本示例

再根据4：1的原则做训练集测试集划分。训练集的图片数据为3 200张，测试集的图片数据为800张。

同时本文在训练算法模型前，采用了旋转、翻转、明暗度调整、旋转、随机擦除和Mosaic等方式对训练集进行了数据增广。其示例如图10所示。

图10 数据集增广图像

2.2 实验环境及参数

本文实验固定输入图片尺寸为256×256，采用在Image Net上预训练的模型作为主干网络。在训练中将固定主干模型的参数，同时，新增层参数采用Kaiming初始化方式进行初始化。在检测训练中，本文设定学习率为0.001，终止学习率为1×10-7，采用步进学习率(Step_lr)的方式训练35个周期，分别在10，20，25，30上逐次降低0.1，批尺度为64。采用自适应随机梯度下降的方式进行权重优化，其中衰减权重系数设置为0.95。锚定框尺寸采用Yolov4的聚类策略进行设定，其长宽尺寸比为1∶1，1∶2，2∶1，1∶5。本文实验设备为NVIDIA RTX2080ti GPU计算平台，在UBUNTU18.04操作系统下，使用Pytorch2.0深度学习框架训练算法模型。

2.3 模型评估指标

为了评估检测模型的检测效果，本文统一采用目标检测常用的精度评价指标，值越大表示检测模型的总体识别准确率越高。同时，为了准确测试出目标检测模型检测的速度，本文统一采用速度评价指标FPS(frame per second)，即模型每秒处理图像的张数，其值越大，证明模型检测速度越快。

2.4 消融实验

为了验证本文方法各部分的有效性，本文对提出的改进的方法(MViT-YoloV4)各组成部分进行消融实验，消融实验的结果如表2所示。消融结果表明：直接结合MobileNet ViT和YoloV4的目标检测方式相对原有YoloV4目标检测方法有着一定差距，单纯引入注意力网络结构并不能带来性能上的提升。数据增广对模型性能有一定的提升；增加特征融合层提升了2.7个百分点，有效地说明了全局信息特征和局部信息特征的有效融合有利于提升模型的检测效果；增加特征金字塔层可以提升了3.2个百分点；特征融合层与特征金字塔层的增加对模型的表现效果最佳，二者总共提升了5.2个百分点。此外，本文尝试引入原有YoloV4模型的SPP(Spatial pyramid pooling)结构用于特征维度的对齐，发现其并不能较好提升模型的表现能力。本文推测可能是SPP层可能会破坏原有的全局感知特征，导致造成信息的丢失和特征不对齐等问题，这与纯卷积结构的作用效果并不完全一致。

表2 消融实验结果

2.5 对比实验结果与分析

为了验证本文方法整体的有效性，在相同实验环境下，训练和测试了Faster R-CNN、SSD、YoloV3、YoloV4、MV2-YoloV4等模型，与本文设计的模型进行了精度、速度和参数量进行全方位对比。实验结果如表3所示。

表3 模型精度、速度对比

如表3所示，本文方法为MViT-YoloV4，在精度上远高于Faster R-CNN、SSD、YoloV3等方法，同时比原有的YoloV4模型提升了2.6个百分点，相比MV2-YoloV4(MobileNetV2-YoloV4)模型提升4.2个百分点。同时，在模型速度对比中，本文方法仅低于MV2-YoloV4，高于对比的其他方法，说明轻量化模型比基线模型上存在着一定的速度优势。此外，本实验发现推理速度与参数量之间的关系并不存在着对应的近似线性的关系。YoloV4模型参数量比Yolov3要多，但是其推理速度反而要略快些，MV2-YoloV4参数量是YoloV4的1/6，但速度却快了不到1倍。

从实验结果表明本文的方法在电网变压器油液渗漏检测任务中检测精度和速度均取得了较好的效果。相对于YoloV4模型，本文方法在电网变压器油液渗漏检测精度由92.7%提高到95.3%。此外，在边缘设备上进行测试对比发现，MViT-Yolo V4在Atlas NPU的基础上其推理速度可以达到43FPS。图11为电网变压器油液渗漏实际检测效果图。

图11 测试效果示例图

3 结束语

如何快速并准确发现设备异常是保障电网安全与稳定的前提之一。针对电网变压器油液渗漏检测问题，本文提出一种改进YoloV4的电网变压器油液渗漏检测方法。该方法使用Mobile-ViT作为模型的骨干结构，利用卷积和Transformer有效地提取目标的局部和全局信息特征，降低了计算量。同时本文在改进YoloV4模型的基础上，针对性地提出了一种多尺度特征融合方法，实现了局部和全局信息的多尺度特征融合，增强了上下文语义表达。本文方法有效地增强了检测模型的泛化能力和适用性，提高了电网变压器油液渗漏准确率和速度。但是Transformer结构的计算复杂度依旧相对较高，下一步将继续在提高模型检测准确率和速度的基础上，研究进一步降低模型的计算量和误检率的可能性方案。