基于改进U-Net的输电线路绝缘子图像分割方法研究
2022-04-12韩谷静雷宇航
韩谷静,何 敏,雷宇航,张 敏,赵 柳,秦 亮
(1.武汉纺织大学电子与电气工程学院,湖北武汉 430200;2.武汉大学电气与自动化学院,湖北武汉 430072)
0 引言
绝缘子作为输电线路中电气绝缘和机械固定的关键部件,对架空线路的可靠运行起到重要作用,需要定期巡检。传统的人工巡线方式效率低下,巡查质量难以得到保证。近年来,无人机巡线技术以其高效、经济等特点获得了广泛应用。而准确地从航拍图像中分割出绝缘子串、实现绝缘子目标的高精检测,是对其状态感知与故障诊断的重要前提。
对图像进行分割的方法主要有两类,第一类是传统的利用数字图像处理、拓扑学、数学等知识进行图像分割,主要方法有:阈值分割法、区域分割法、分水岭算法、边缘检测算法等,这些方法不仅分割速度较慢,而且容易受到环境影响,分割精度较低[1-4]。
第二类是基于深度学习技术的分割方法,该方法通过深度神经网络的多级非线性变换提取并组合低层次的特征,形成数据的高级抽象特征表示,以达到较高的准确率和较强的泛化能力。文献[5]使用实时目标检测算法(FasterRegions with Convolutional Neural Network Features,Faster RCNN)与101 层残差神经网络(Residual Neural Network,ResNet)结合定位绝缘子,然后使用全连接网络(Fully Convolutional Networks,FCN)进行复杂背景的绝缘子分割。文献[6]以特征金字塔网络(Feature Pyramid Networks,FPN)ResNet 结合提取特征,而后利用全卷积网络FCN 进行绝缘子的分割。文献[7]改进单位链接脉冲耦合神经网络(Unit-linking Pulse Coupled Neural Network,UL-PCNN)中的连接输入和耦合系数后,对绝缘子图像进行分割。这些方法存在着语义信息和细节信息相对较少,网络结构复杂,参数冗余、训练时间过长等缺点。文献[8]采用U-Net 网络,并进行优化器调整、批规范化处理、添加丢弃机制等适应性的优化。文献[9]在U-Net 网络中还添加了残差网络,它们都在一定程度上提供了较为丰富的细节信息和语义信息,提高了绝缘子分割的精度。但以上方法的特征层对目标特征与干扰特征赋予相同的重要性,不利于背景复杂、对比度不明显等的绝缘子图像分割。
本文提出一种改进型U-Net 模型[10-11],即在UNet 网络的主干特征提取网络中引入注意力模型,增强网络对绝缘子的识别能力,使分割结果更加精确[12-13]。实验结果表明:在U-Net 网络中嵌入注意力模型确能提高绝缘子分割的准确性,其中CBAM注意力模型与U-Net 网络相结合的方式最好,平均重合度(Intersection over Union,IoU)由原始U-Net网络的94.36%提升到96.57%,明显提高了绝缘子分割的精确度。
1 U-Net网络
U-Net 网络于2015 年5 月由Ronneberger 等提出,最初广泛应用于医学图像分割领域[14-15]。作为一种经典的全卷积网络,U-Net 在端对端的处理中,同时使用全局位置和上下文信息,以图片为整体进行分割,直接生成分割图;且只需要少量的训练样本就可以实现较好的分割效果。
图1 给出了U-Net 网络结构。由图1 可知,UNet 网络整体呈现U 形对称结构,左侧用于精确定位的压缩路径(主干特征提取网络)逐步压缩图像尺寸、抽象特征、提取边缘信息、获取图像的深层语义特征。右侧拓展路径(加强特征提取网络)逐步恢复尺寸。中间的跳跃连接部分则是将压缩路径的特征图复制、裁剪到与对应层扩展路径特征图尺寸相同,然后进行拼接操作,得到包含不同层次特征的特征图,实现了更加精细的语义分割。
图1 U-Net网络结构图Fig.1 U-Net network structure
原始U-Net 网络主要用于小目标精细分割,其主干特征提取网络的感受野较小。而绝缘子图片目标占比较高,较小的感受野获得的局部信息过多,会导致全局信息的丢失,不利于绝缘子的高精度分割。为了改善特征层中局部信息与全局信息的失衡比例,采用以多个连续的小卷积核代替单个大卷积核来增大网络感受野的VGG16(结构如图2所示)替换主干特征提取网络。这样不仅可以大大减少网络参数,加快训练速度;还使得网络深度与学习能力兼得[16-17]。
图2 VGG16网络结构图Fig.2 VGG16 network structure
增大网络感受野后,主干特征提取网络已经可以获取绝缘子较为丰富的语义信息和细节信息,但此时特征层中的背景干扰特征具有与目标特征相同的权重,对精确分割背景复杂等的绝缘子依旧存在较大的干扰,且当绝缘子目标被遮挡时,更会造成绝缘子特征信息缺失的问题。为了增加特征图对特定区域和特定通道的目标识别能力,减少复杂背景、遮挡等对绝缘子分割的影响,需要增强特征图在不同维度上对目标特征的关注度,降低干扰特征信息对绝缘子分割的影响,将网络注意力放在绝缘子自身上。
2 注意力模型
注意力机制起源于对人类注意力的研究,由于信息处理能力有限,人类会选择性地关注所接收信息的重要部分,而这也是我们希望模型在接收和学习大量信息时所能具备的能力。用数学上的语言来说,就是通过模型自主学习出一组权重系数,并将这一系列权重分配到模型所收到信息的各个区域中。使得目标信息权重变大,无关信息权重变小,实现目标的关注[18]。
为了实现特征层在不同维度对目标特征的关注,引入基于通道注意力与空间注意力机制不同应用方式的多种注意力模型,降低特征层中干扰信息的影响,使得网络能够关注绝缘子目标。本文根据通道、空间注意力的不同使用方式选取了两种典型的单维度注意力模型和两种典型的多维度注意力模型进行对比分析。
2.1 单维注意力模型
1)SENet 注意力模型。通道激励与压缩注意力模型(Squeeze-and-Excitation Networks,SENet),主要通过增强特征提取层的感受野来提升网络性能[19]。图3给出了SENet网络结构。由图3可知,SENet首先对输入特征进行全局平均池化(Global Average Pooling,GAP),使每个特征图都具有全局的感受野,让感受野尺寸较小的低层网络也能够利用全局信息。然后通过两个全连接层激活、映射得到每个通道对应的权重并加权,得到更新后的特征。如此一来,网络将具有更高的非线性关系,可以更好的拟合通道的相关性,实现绝缘子的特征关注。图3中,Input为输入特征,Output为注意力机制更新后的输出特征,H为特征图高度,W为特征图宽度,C为特征图通道数,r为全连接过程中通道数缩减系数。
图3 SENet结构图Fig.3 SENet structure
2)ECA-Net 注意力模型。高效的通道注意力模型(Efficient Channel Attention Neural Networks,ECA-Net)是基于SENet 改进的,可以在不增加模型复杂度的情况下,获得较为明显的性能增益[20]。图4给出了ECA-Net 网络结构。由图4 可知,ECA-Net采用不降维的卷积核(Kernel_size)大小为k的快速一维卷积代替SENet 全连接的方式产生权重,获取各个通道之间的相关性。通过k近邻的捕获跨通道性交互,实现局部交叉、通道交互的目的,有效减少了跨所有通道进行交互的计算量和复杂度。使得特征Output的不同位置表现出不同的特征信息,从而提取出表征绝缘子目标的关键信息。即:
图4 ECA-Net结构图Fig.4 ECA-Net structure
式中:C为输入特征通道数。
2.2 多维注意力模型
多维注意力模型由通道注意力与空间注意力机制构成。通道注意力机制通过对特征图中的通道权重进行重分配,提高与绝缘子相关通道的权重,降低其余通道的权重,结构图如图5 所示[21-22],outputCA表示通道注意力模块中的特征更新权重;空间注意力机制对空间权重进行重新赋予,提高特征图中绝缘子区域的权重,降低其余区域权重,结构图如图6 所示[23-24],outputSA表示空间注意力模块中的特征更新权重。将两种维度的注意力机制结合使用以获得更具互补性的特征[25]。
图5 通道注意力机制结构图Fig.5 Structure of channel attention mechanism
图6 空间注意力机制结构图Fig.6 Structure of spatial attention mechanism
1)CBAM 注意力模型。卷积注意力模型(Convolutional Block Attention Module,CBAM)是通道注意力和空间注意力级联而成的双重注意力选择模块,可以从多维角度增强特征信息,在一定程度上增强重要特征的表达能力,从而取得更好的特征关注[26-27]。CBAM 模型首先通过通道注意力模块,对每个通道的权重进行重新标定,使得表达小目标和遮挡目标区域的特征通道对最终特征有更大的贡献;再利用空间注意力模块来突出目标区域,引导网络关注目标区域并抑制背景干扰。CBAM 结构如图7 所示。
图7 CBAM结构图Fig.7 CBAM structure
2)CSAR 注意力模型。通道与空间的残差注意力模型(Channel-wise and Spatial Attention Residual,CSAR)与CBAM 不同之处在于其将通道与空间注意力机制并联起来,在不同维度上对输入特征不同位置的重要性进行重新标定,将不同维度更新后的特征叠加,实现多维特征关注,捕获不同维度的重要信息[28-29]。更新后的特征同时包含通道与空间双重并行特征关注,丰富了特征信息,增强模型表示能力。CSAR 结构如图8 所示。
图8 CSAR结构图Fig.8 CSAR structure
3 改进的模型框架
改进后的网络结构如图9 所示。本文对于U-Net 的改进点在于:(1)在网络编码阶段引入了注意力模型(Attention),将其嵌入到U-Net 的下采样模块,提高网络的特征提取能力;同时,将经过注意力机制更新的特征经过跳跃连接部分传送到解码阶段进行拼接、上采样操作,使网络在训练过程中能够全程关注目标特征;(2)在加强特征提取网络中直接进行2 倍上采样再进行特征融合,使得最终获得的特征层与输入图片的尺寸相同,避免下采样获得的特征层在跳跃连接后进行融合过程中的裁剪产生的信息丢失问题,增强了网络的通用性。
图9 改进的网络结构图Fig.9 Improved network structure
4 实验结果与分析
4.1 实验环境
本文使用的是基于Keras2.5.1 环境下的深度学习框架,Ubuntu18.08 系统、python 为3.8.0、CUDA=11.2,其中训练的显卡配置为1 块RTX A6000/48G显存的显卡。
实验数据集来自于无人机现场作业采集,通过数据预处理,进行筛选打标签,图片共计750 张。然后进行旋转、镜像翻转、对比度以及亮度调整等方式进行了数据增强、扩充数据集,部分数据集展示如图10 所示。模型训练过程中训练集、验证集与测试集的比例为8:1:1。
图10 背景复杂、对比度不明显等绝缘子图像Fig.10 Insulator images under the conditions of complex background and inconspicuous contrast
4.2 实验过程
训练过程中,对公开U-net 模型采用迁移学习的思想,冻结层的训练epoch 轮次为50 轮,解冻训练为200 轮,使用早停算法,以使模型的训练损失达到最优。对于改进的模型采取重新训练,同样设置200 轮并使用早停算法。模型的初始学习率为0.000 1,动量为0.9,权重衰减为0.000 5。图11 为原始模型及改进的各个模型的训练损失的收敛情况。由图11 可知,在U-Net 网络中嵌入CBAM 注意力模型的损失波动与损失值都最小。
图11 训练集损失收敛整体及局部示意图Fig.11 Overall and partial schematics of training set loss convergence
4.3 分割效果对比
图12 为原始模型及所提出的改进模型对绝缘子航拍图像的分割效果对比图。图12 中①-⑦分为原图、标签、CBAM+U-Net、CSAR+U-Net、ECA-Net+U-Net、SENet+U-Net 及U-Net 的分割示意图。由图12 可知,无论图像质量好坏、图像背景如何复杂、绝缘子是否被遮挡、绝缘子自身是否重叠,在U-Net 网络中嵌入CBAM 注意力模型的整体及局部分割效果都能达到最好,实现更加准确、精细的分割。
图12 绝缘子分割效果对比Fig.12 Comparison of insulator segmentation effect
4.4 统计分析比较
为了更好对比不同算法之间的性能,实验采取以混淆矩阵中的参数指标进行衡量,如表1 所示。
表1 混淆矩阵Table 1 Confusion matrix
表1 中,数值1 为像素点在实际图片与预测图片中对应区域,数值0 表示像素点不在对应区域。即TP 为标签是绝缘子,且预测为绝缘子的像素点数;FP 为标签是背景但预测为绝缘子的像素点数;TN 为标签是背景,且预测为背景的像素点数;FN 为标签是绝缘子,但预测为背景的像素点数。
通过表1 中的参数可以衍生出以下评价指标:
1)Precision指在被所有预测为正的样本中实际为正样本的概率,即模型认为是绝缘子并且确实是绝缘子的部分占模型认为是绝缘子的比例。计算公式如式(2)所示:
2)Recall指在实际为正的样本中被预测为正样本的概率,即模型认为是绝缘子并且确实是绝缘子的部分占所有确实是绝缘子的比例。计算公式如式(3)所示:
3)IoU表示分割结果与标签的交集同分割结果与标签之间并集的比值,IoU越接近1 表示预测结果越接近正确结果。计算公式如式(4)所示:
4)重合率(Dice similarity coefficient,Dice)Dice是交并比的另一种表达形式。是统计学用来衡量二分类任务模型精确度的指标,它表示分割结果与标记之间的重叠相似度。计算公式如式(5)所示:
U-Net 模型与改进模型测试集分类结果对比如表2 所示。由表2 可知,嵌入注意力机制后,模型的Precision、Recall、IoU和Dice等指标均有不同程度提高。特别是CBAM 注意力模型与U-Net 相结合的方式,其IoU提升达2.21%。
表2 U-Net及改进模型对比Table 2 Comparison of U-Net and improved model
表中,改进1 为U-Net+CBAM 注意力模型的改进方式;改进2 为U-Net+CSAR 注意力模型的改进方式;改进3 为U-Net+ECA-Net 注意力模型的改进方式;改进4 为U-Net+SENet 注意力模型的改进方式。
5 结语
本文针对无人机采集图片存在的各种问题导致绝缘子分割精度不高的问题,采用U-Net 网络并分别嵌入不同的注意力模型进行改进。实验结果表明,改进U-Net 模型通过增强骨干特征提取网络的特征提取能力从而提高图像分割精度的优化策略是有效的。相较于原始U-Net 模型,改进U-Net模型的IoU值均有提升,且CBAM 注意力模型与U-Net 结合的方式效果最好,提升率达到2.21%。