基于改进DeepLabv3+模型的电力线语义分割方法
2023-02-18左安全秦伦明边后琴陈思林
左安全,秦伦明*,王 悉,边后琴,陈思林
(1.上海电力大学 电子与信息工程学院,上海 201306; 2.北京交通大学 电子信息工程学院,北京 100044)
0 引言
输电线路巡检是电网日常维护的重要组成部分,对保障电力系统稳定运行具有重要作用。由于输电线路架设环境复杂多变,人工巡检效率低且具有危险性,已不能满足巡检需求[1]。近年来,随着无人机和高分辨率相机技术的飞速发展,基于无人机的智能电力巡检得到广泛应用。但无人机在巡检过程中易与电力线发生碰撞、缠绕等事故,给输电线路的稳定运行带来极大的安全隐患。电力线分割是实现无人机自动避障、保障无人机低空飞行安全的关键技术,因此开发一种精度高、实时性好的电力线分割算法具有十分重要的意义。
现有电力线分割方法可分为传统图像处理方法和基于深度学习的语义分割方法[2]。传统方法又可分为基于边缘检测算子的提取算法和基于联合特征的提取算法2类。前者通常用引入先验知识的边缘检测算子和线检测器结合来提取电力线;后者用线检测器结合全局辅助物或上下文信息对电力线进行提取[3]。文献[4]通过设定不同方向Ratio算子并结合Hough变换来提取电力线。该算法计算量小,但在背景复杂时先验知识难以匹配。文献[5]通过结合辅助物特征获得了较高的提取精度,但存在对辅助物过于依赖的局限性。传统方法对电力线的提取精度受先验知识和辅助物的影响较大,在复杂背景下容易出现错检和漏检,因此只适用于一些特定的场景。
现有基于深度学习的语义分割模型主要包括FCN[6]、DeepLab系列、U-Net[7]、SegNet[8]和PSPNet[9]等算法。在电力线提取方面,文献[10]设计了多个电力线提取的网络结构,通过网格搜索得到最优的网络结构,获得了较高的分割精度,但该算法没有进行下采样操作,预测速度较低。文献[11]以VGG16作为主干网络通过自行设计解码器对电力线实现了较为准确和快速的分割,但该算法使用的数据集数量较少,难以适用于不同场景。文献[12]在编码器部分使用DeepLabv3的结构并在解码器引入多层浅层特征,在分割精度和预测速度上均优于传统方法,但仍存在上升空间。文献[13]对DeepLabv3+模型进行改进,通过引入更为复杂的解码器结构,在已有基于深度学习的电力线分割算法中取得了最优的分割精度,但该算法预测速度较慢,无法满足实时性的需求,在复杂场景下依然存在一定程度的错分割、漏分割问题。
为解决DeepLabv3+模型对电力线分割存在的上述问题,本文对DeepLabv3+模型进行改进,提出了PBB-DeepLabv3+(Paddle LCNet, Bottleneck Cascade Atrous Spatial Pyramid Pooling, and Bottleneck Attention Module Based DeepLabv3+)算法,具体如下:
① 针对DeepLabv3+模型预测速度慢的问题,在编码器部分用轻量级PP-LCNet替换原始主干网络Xception,从而提升预测速度并降低参数量,进一步提高电力线分割的实时性。
② 为加强对细长电力线的特征提取,对空洞空间金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)模块进行改进,增加空洞卷积分支和级联卷积,获取具有更大感受野的多尺度特征,从而减少漏分割现象。此外,将空洞卷积分支进一步采用先降维再升维的瓶颈结构来减小计算量。
③ 为进一步提升分割精度,在解码器部分引入3层浅层特征,更充分地利用主干网络提取到的不同层次特征以恢复降采样过程中丢失的细节特征和空间信息。
④ 针对电力线分割易受背景物干扰的问题,在编码器和解码器分别引入瓶颈注意力模块(Bottleneck Attention Module, BAM)加强对电力线特征的提取,减少对背景物的错误分割。
1 DeepLabv3+模型
DeepLabv3+模型[14]的结构如图1所示,在编码器部分,首先利用深度卷积神经网络(Deep Convolutional Neural Network, DCNN)对原始图像进行特征提取。接着将这些特征输入空洞率[15]组合为6,12,18的ASPP模块,进一步提取多尺度特征。最后,将不同尺度特征进行融合并通过1×1卷积将通道数调整为256。
图1 DeepLabv3+模型结构Fig.1 Structure of DeepLabv3+ model
在解码器部分[16],先将编码器输出特征进行4倍上采样,然后与DCNN模块中提取的浅层特征进行融合,最后将融合后的特征通过3×3卷积和4倍上采样得到预测图像,其大小与原始图像相同。
DeepLabv3+模型通过编码器结构、解码器结构和ASPP模块能够获取丰富的边界信息和多尺度特征[17],实现较高的分割精度。但DeepLabv3+模型的参数量大、预测速度较慢,且在电力线分割中易产生漏分割和错分割问题。针对这些问题,本文对DeepLabv3+模型进行改进,使其更适用于电力线分割。
2 改进的DeepLabv3+模型
为解决DeepLabv3+模型参数量大、预测速度慢,且对电力线易产生漏分割和错分割的问题,本文通过对DeepLabv3+模型主干网络进行替换、对ASPP模块进行改进、在解码器引入3层浅层特征及添加BAM,使预测速度和分割精度得到有效提升。
2.1 PP-LCNet网络模型
DeepLabv3+模型以Xception作为主干网络,Xception模型较复杂、参数量大,无法满足电力线分割对实时性的需求。因此本文使用预测速度更快的轻量级网络——PP-LCNet[18]对其进行替换,有效减少参数量并提升预测速度。
PP-LCNet是百度提出的轻量级网络,在目标检测、语义分割等任务中都取得很好的效果,其结构如图2所示。PP-LCNet的核心部分是利用深度可分离卷积代替标准卷积,没有短路连接等操作,有效减小参数量并加快运行速度。在PP-LCNet中将深度可分离卷积块中的激活函数ReLU替换为H-Swish,使性能得到进一步提升。
图2 PP-LCNet结构Fig.2 PP-LCNet structure
在平衡速度和精度的条件下,PP-LCNet在网络尾部用5×5卷积代替3×3卷积,有效提升了网络的特征提取能力。在最后2个深度可分离卷积块中添加了压缩和激励网络(Squeeze and Excitation Network, SENet)模块对网络通道进行加权,加强对重要信息的特征提取,在不影响速度的情况下提升网络的性能。
2.2 瓶颈级联空洞空间金字塔池化
DeepLabv3+模型利用空洞率组合为6,12,18的ASPP模块来提取多尺度特征。空洞率越大可获得更大的感受野,但也会带来细节特征提取不足、小目标提取效果差等问题。因此本文对ASPP模块进行改进,提出瓶颈级联空洞空间金字塔池化(Bottleneck Cascade Atrous Spatial Pyramid Pooling, BC-ASPP)模块,通过增加空洞卷积分支和级联空洞卷积加强对电力线细节特征的提取,减少漏分割现象。
BC-ASPP模块结构如图3所示。增加一个空洞卷积分支,并将空洞率组合修改为3,6,9,12,更有助于小目标和细节特征的提取。对中间4个卷积分支进行2次3×3卷积级联运算[19],提取具有更大感受野的多尺度特征,有效减少了漏分割问题。当空洞卷积的空洞率为r,卷积核大小为k时,感受野大小为:
图3 BC-ASPP模块结构Fig.3 BC-ASPP module structure
R=(r-1)×(k-1)+k,
(1)
而2层空洞卷积级联时感受野大小为:
R=R1+R2-1,
(2)
式中,R1,R2为2层空洞卷积分别提供的感受野,可见2层空洞卷积级联时感受野增加近1倍。对BC-ASPP模块参数进行精简,将中间4个卷积分支先使用1×1卷积降维至64通道,然后进行2次3×3卷积处理,再利用1×1卷积升维到256通道,这种瓶颈结构有效减小了参数量。
2.3 多尺度特征融合
DeepLabv3+模型将主干网络产生的降采样系数为1/4大小的特征图与编码器输出特征图进行融合,这种单一尺度的特征融合方式容易造成细节缺失。为了更充分利用主干网络提取到的不同层次特征,恢复降采样过程中丢失的细节特征和空间信息。本文在解码器部分引入PP-LCNet中降采样系数为1/4,1/8以及1/16大小的部分浅层特征图[20]。这3层浅层特征图利用1×1卷积将通道数分别调整为48,32,16,防止过量的浅层语义信息影响编码器输出深层语义信息的表达。这样的多尺度融合过程仅增加了2次1×1卷积操作,比原DeepLabv3+网络的特征融合方式增加很少的参数量,但分割精度得到有效提升。
2.4 瓶颈注意力模块
注意力机制能够模拟人类视觉机制,对重要的特征信息给予更多的关注度,有利于捕捉上下文信息,提高特征学习的针对性。BAM[21]是一种混合的注意力机制网络,由并行的通道注意力网络和空间注意力网络构成,其结构示意如图4所示。输入特征图F分别经2个并行的网络处理后得到特征图M(F)。然后将M(F)与F通过逐点相乘以突出重要特征,将得到的特征图与F相加后输出注意力特征图F′。特征图M(F)和F′的表达式为:
图4 BAM结构Fig.4 BAM structure
M(F)=σ(Mc(F)+Ms(F)) ,
(3)
F′=F+F⊗M(F) ,
(4)
式中,σ为Sigmoid函数;⊗为逐点相乘;Mc(F)和Ms(F)分别表示通道注意力网络和空间注意力网络输出特征图。
在通道注意力网络中,首先用全局平均池化对每个通道中的特征进行聚合[22],生成通道向量Fc。然后利用多层感知器评估来自Fc的注意力网络,经全连接层获得通道注意力特征图。在空间注意力[23]网络中,首先用1×1卷积压缩特征图维度,然后利用2个空洞率为4的3×3卷积获取上下文信息,最后用1×1卷积进一步压缩维度后输出空间注意力网络特征图。
本文在编码器和解码器分别引入BAM,能够获取更多感兴趣的通道和空间特征信息,有效减少背景及其他因素干扰,更有助于电力线特征提取。
2.5 PBB-DeepLabv3+模型
本文提出的PBB-DeepLabv3+模型总体结构如图5所示。
图5 PBB-DeepLabv3+模型结构Fig.5 Structure of the PBB-DeepLabv3+ model
在编码器部分,首先用PP-LCNet替换原始主干网络Xception,减少模型参数量并加快预测速度,进一步提高电力线分割的实时性。然后对ASPP模块增加一个空洞卷积分支,将空洞率组合由原来的6,12,18改为3,6,9,12,更有效地对细长的电力线进行特征提取。对中间4个卷积分支增加1次3×3卷积,获取具有更大感受野的密集多尺度特征,减少对电力线的漏分割。并进一步将空洞卷积分支采用先降维后升维的瓶颈结构来减小计算量。
在解码器部分引入降采样系数为1/4,1/8及1/16大小的部分浅层特征,更充分利用主干网络提取到的不同层次特征以恢复降采样过程中丢失的细节特征和空间信息,提高了电力线边界的分割精度。最后在编码器和解码器分别引入BAM,对电力线特征给予更高的关注度,减少对背景物的错误分割。
3 实验与结果分析
3.1 参数设置和评价标准
本文使用的实验环境和训练参数设置如表1所示。
表1 实验环境和训练参数Tab.1 Experimental environment and training parameters
本文以平均像素精度(Mean Pixel Accuracy, MPA)和平均交并比(Mean Intersection over Union, MIoU)作为分割精度的评价标准。MPA表示每种类别被正确分类的像素比例求平均值,表达式如下:
(5)
MIoU表示真实值和预测值的交集与并集之比,表达式如下:
(6)
式中,k+1为类别数;pii为正确分类的像素数;pij为i类被预测为j类的像素数;pji为j类被预测为i类的像素数。
3.2 数据集和数据增强
本文所使用的数据集从公开的电力线数据集TTPLA和WireDataset获取。TTPLA数据集由1 100张图像构成,包含8 987个输电塔和电力线标签,从无人机在不同背景下拍摄的80个视频中提取。WireDataset数据集由500张包含电力线的图像构成,图像由无人机在不同背景下距电力线10 m内航拍得到。本文从TTPLA数据集和WireDataset数据集分别选取415张和437张包含电力线的图像,并将这852张图片经过旋转、左右翻转、放大、缩小、裁剪以及改变亮度的方式扩充至5 000张图片作为本文的数据集,图6(a)~(d)分别展示了数据集中背景为树林、路面、草地以及复杂背景下的电力线图片。将数据集的10%作为测试集,其余按照9∶1的比例划分为训练集和验证集。
图6 不同背景的数据集样本Fig.6 Dataset samples with different backgrounds
3.3 损失函数的选取
由于电力线像素点在图像中占有的比例较低,当用交叉熵损失函数(Cross Entropy Loss, CE Loss)进行训练时,损失函数会偏向占比高的背景,将电力线的损失掩盖,使网络难以学习到电力线的特征。Dice Loss损失函数衡量不同类别样本之间的重合部分,更倾向于挖掘前景区域,适用于样本不平衡的数据集,但其在误差反向传播过程中振荡幅度较大,训练损失值不稳定。因此本文将CE Loss和Dice Loss两种损失函数结合作为损失函数,其表达式如下:
Loss=LossCE+λLossDice=
(7)
式中,N和T分别表示像素个数和类别数量;yic表示像素i的指示变量;pic表示像素i预测为类别T的概率;X和Y分别表示真实分割像素与预测分割像素的集合;λ表示权重系数,设置为0.8。
将PBB-DeepLabv3+模型分别使用CE Loss+Dice Loss混合损失函数和CE Loss损失函数进行训练,对PBB-DeepLabv3+模型分割精度影响的对比如表2所示。可以看出,使用CE Loss+Dice Loss混合损失函数时分割精度高于CE Loss损失函数,说明CE Loss+Dice Loss混合损失函数对处理样本不平衡问题有明显效果。
表2 本文损失函数与CE Loss损失函数对PBB-DeepLabv3+ 模型分割精度影响的对比Tab.2 Comparison of the impact of the proposed loss func- tion and the CE Loss loss function on the segmentation accuracy of the PBB-DeepLabv3+ model 单位:%
3.4 不同改进策略对于模型的影响
为验证本文改进策略在电力线分割中的优化作用,本文设置了一组消融实验,实验结果如表3所示。本文在DeepLabv3+模型的基础上依次进行主干网络替换、解码器引入3层浅层特征、对ASPP模块进行改进及添加BAM,将这4种模型与DeepLabv3+模型进行对比实验,分别比较了分割精度、预测速度以及参数量。
表3 PBB-DeepLabv3+模型消融实验结果Tab.3 PBB-DeepLabv3+ model ablation experiment results
由表3可知,为满足电力线分割实时性的需求,用PP-LCNet替换主干网络Xception以后,参数量较原来减少89%,预测速度增加1倍,达到76.67帧/秒。但轻量化的PP-LCNet特征提取能力相对于深度值更高的Xception要低一些,这也使得模型分割精度较原来有所下降。为弥补更换主干网络后对分割精度造成的损失,在解码器部分引入3层浅层特征,更充分利用主干网络提取到的不同层次特征以恢复降采样过程中丢失的细节特征和空间信息,使得MPA和MIoU分别提高2.48%和1.56%。
将ASPP模块替换为BC-ASPP模块后,通过增加空洞卷积分支和级联卷积,以及对空洞率组合进行修改,加强了对电力线细节特征的提取,有效减少了漏分割现象,MPA和MIoU分别提升1.28%和1.46%。进一步将BC-ASPP模块中的空洞卷积分支改为瓶颈结构以后,模型变得更加轻量化,参数量减小到13.32 MB。通过添加BAM更多的关注电力线特征,减少了背景的干扰,使分割精度得到进一步提升,MPA和MIoU分别达到91.90%和82.07%。
3.5 与其他模型的分割效果对比
为进一步验证本文改进算法对电力线分割的有效性,图7展示了PBB-DeepLabv3+模型与PSPNet,U-Net,SegNet,DeepLabv3+,以MobileNetV3为主干网络的DeepLabv3+这5种分割模型在4张电力线图像上的预测结果。图7(a)和(b)分别为4张电力线图像的原始图像和标记图像。由图7(c)~(e)可知,PSPNet模型对电力线出现大量断续分割,且对电力线边界分割过于粗糙。U-Net模型在与电力线特征较接近的窗户边缘出现了错分割,在电力线和石块重合位置和较细的电力线处有漏分割现象。SegNet模型也对背景物产生了错分割,对电力线边界分割精度有所欠缺。以上3种模型对电力线均存在明显的错分割、漏分割问题,无法满足分割精度的要求。
图7 PBB-DeepLabv3+与其他5种模型预测效果对比Fig.7 Comparison of prediction effects between PBB-DeepLabv3+ and other five models
由图7(f)~(g)可知,DeepLabv3+模型对第1,2张图出现了一些误分割的噪点和断续分割,对第3,4张图出现了较明显的错分割,说明DeepLabv3+模型对于细节的分割能力不足且易受到背景物的干扰。当用MobileNetV3作为DeepLabv3+模型主干网络时,出现分割不连续的现象和明显的错分割,可见用MobileNetV3作为主干网络的DeepLabv3+模型特征提取能力不足,分割精度有待提高。由图7(h)可知,本文提出的PBB-DeepLabv3+模型能够将电力线完整地分割出来,基本没有出现错分割、漏分割问题,具有较高的分割精度。
通过横向对比第1,2行图片可知,对ASPP模块进行改进和在解码器引入3层浅层特征使得漏分割问题得到明显改善,电力线边界分割精度也得到提升。通过横向对比第3,4行图片可知,改进算法的错分割问题明显减少,主要原因在于引入的BAM能有效减少背景和其他因素的干扰。综合来看,PBB-DeepLabv3+模型能够明显减少错分割、漏分割现象,取得了最好的分割效果。
PBB-DeepLabv3+模型与PSPNet,U-Net,SegNet,DeepLabv3+,以MobileNetV3为主干网络的DeepLabv3+这5种分割模型在分割精度、预测速度以及参数量上进行对比,如表4所示。
由表4可知,DeepLabv3+模型对电力线分割的精度优于前3组对比模型,但模型参数量很大,预测速度有待提升。将DeepLabv3+模型的主干网络用MobileNetV3代替后,有效减小参数量并提升预测速度,但MPA和MIoU下降明显,无法满足分割精度的要求。本文提出的PBB-DeepLabv3+模型在评价指标MPA和MIoU均优于其他对比模型,相对于DeepLabv3+模型分别提升1.18%和3.50%,预测速度也有了54.39%的提升,模型的参数量远小于其他模型,仅为13.32 MB,证明本文提出算法在分割精度和预测速度均具有很好的效果,可以有效适用于电力线分割。
表4 PBB-DeepLabv3+与其他5种模型实验结果对比Tab.4 Comparison of experimental results between PBB-DeepLabv3+ and other five models
4 结束语
本文提出一种基于改进DeepLabv3+算法的电力线分割模型——PBB-DeepLabv3+。结合电力线特点和实际应用中对分割速度和精度的需求,首先用轻量级PP-LCNet替换原始主干网络Xception,有效减少参数量并提高预测速度。然后对ASPP模块增加空洞卷积分支和级联卷积减少漏分割现象,并将空洞卷积分支改为瓶颈结构减少参数量。在解码器部分融合3层浅层特征提高电力线边界分割精度。最后引入BAM减少对背景物的错误分割。通过进行消融实验验证了本文改进策略的有效性,将PBB-DeepLabv3+模型与其他5种分割模型进行对比实验,PBB-DeepLabv3+模型在预测速度和分割精度的平衡性上表现更优。实验结果表明,与DeepLabv3+模型相比,本文算法预测速度提升54.39%,MPA和MIoU分别提升1.18%和3.50%,兼顾了分割速度和精度,可以有效应用于电力线分割。后续研究任务是在嵌入式设备上进行实验,检验模型的实际应用能力。