APP下载

基于改进Deeplabv3+的烟雾区域分割识别算法

2021-01-26刘志赢谢春思李进军

系统工程与电子技术 2021年2期
关键词:烟雾空洞卷积

刘志赢, 谢春思, 李进军, 桑 雨

(1. 海军大连舰艇学院学员五大队, 辽宁 大连 116018; 2. 海军大连舰艇学院导弹与舰炮系, 辽宁 大连 116018)

0 引 言

随着计算机视觉技术的不断发展,基于图像识别的寻的制导技术取得了广泛应用[1],常用成像方式有电视和红外成像。复杂背景下,烟雾遮挡导致目标识别系统容易出现漏、错识别[2],为了提高检测能力,学者们提出串行和并行等方法规避遮挡干扰,无论哪种方法都需要对图像中遮挡物进行识别。因此,烟雾区域检测对于图像寻的制导技术具有重要现实意义。传统烟雾检测技术采用模式识别的方法,通过人工提取目标场景下烟雾的颜色、纹理、空间关系等特征,经数据处理后利用阈值法、分类器等进行判别,存在计算冗余量大、时间复杂度高的缺陷,且难以适应复杂场景和异源成像机制,算法鲁棒性差[3-6]。常见算法有K-means聚类分析、差分盒维数分析、动态阈值聚类分析等[7-9]。

近年来,基于深度学习的烟雾检测技术得到迅速发展,以深度卷积神经网络代替人工操作提取目标特征,按照输出形式可分为两类:一是通过目标检测的方法,输出矩形框实现对烟雾区域识别和标注,如Zhang等[10]利用模拟的森林背景烟雾对Faster R-CNN网络训练,实现了对真实森林火灾场景的识别;梁杰等[11]改进了YOLOv2深度学习模型,较好地实现了对导引头视场中烟幕和遮挡物的识别,且能适应多种成像体制。目标检测法对刚性目标具备优异的识别能力,但烟雾形态变化多样,标准矩形框容易框入非烟雾区域[12-13]。二是通过语义分割的方法,针对图像中所有像素点类别判定并输出分割图,如Xu等[14]设计了像素级和对象级相结合的深度显著性网络,通过提取包含丰富细节特征和语义特征的特征图,实现对视频中烟雾的精细化分割;Yuan等[15]将跳跃结构加入改进全卷积网络(fully convolutional network, FCN)模型,设计了包含粗路径和细路径的端到端语义分割网络,实现对烟雾细节的精细化分割。语义分割法能更好地提取烟雾的本质特征,以检测对象边缘为界限区分不同目标区域,实现精细化识别分割[16-18]。

2014年,Long等提出的FCN模型成为语义分割的开山之作[19],该模型通过逆卷积层对最后的特征图层上采样,实现分辨率复原和像素级目标分类和预测。在此基础上,U-Net网络[20]采用编码器-解码器(encoder-decoder, ED)结构,在提取特征阶段通过路径收缩融合不同深度的信息,在预测阶段通过路径扩张实现对分割出的不同尺度目标准确定位,有效解决了由于特征图分辨率变小导致的分割边界精度降低的问题。Deeplab语义分割系列模型提出基于空洞卷积的金字塔构型(atrous spatial pyramid pooling,ASPP)[21],在不改变分辨率的条件下实现扩大感受野,同时对不同层级的特征融合,有利于解决多尺度分割问题。Deeplabv3+结合了ED结构和ASPP构型的优点[22],成为当前综合性能优异的语义分割算法。

结合烟雾形态特点和工程应用的现实要求,本文提出了基于改进Deeplabv3+的烟雾区域分割识别算法,通过创新异感受野融合的ASPP结构,提高了对不同层级特征图的信息使用率,进一步扩大了空洞卷积的感受野,有利于联系上下文特征信息;受到残差网络的启发,对骨干网络使用残差结构优化设计,同时剔除部分冗余通道,降低了网络计算量;增加多尺度融合模块,增强了模型对目标尺度变化的适应能力;引入通道注意力模块,通过分配通道权重实现对包含重点特征信息的通道重点训练,提高了模型的学习效率。实验结果表明,改进算法具备更好的全场景理解能力,能对烟雾边界进行精细化处理,在工程应用方面平衡兼顾了分割精度和检测效率,可移植性更优,具有重要的应用价值。

1 Deeplabv3+基础模型

Deeplabv3+基础模型的网络结构如图1所示。文献[22]中以改进Xception为骨干网络,初始图像输入到Encoder模块,经输入流、中间流和输出流卷积运算,生成分辨率为原始图像1/16的特征张量;将提取的特征张量传入ASPP结构,该结构包含一个全域池化特征层和3种不同扩张率的并行空洞卷积层,经拼接处理后通过1×1卷积实现通道压缩;Decoder模块中,对来自ASPP结构的特征张量通过双线性插值4倍上采样,然后与来自骨干网络的同分辨率特征图拼接,再次经3×3卷积和4倍上采样操作后输出分割结果。模型使用大量深度分离卷积代替常规卷积,降低了参数量和计算量,有利于模型轻量化;构建特征金字塔时使用空洞卷积代替下采样来扩大卷积核感受野,改善输出分辨率,避免图像细节特征丢失;通过一次上采样将高级特征与低级特征融合,兼顾图像的语义信息和细节信息,减少了直接对高级特征空间维度恢复造成的误差。

图1 Deeplabv3+基础模型的网络结构Fig.1 Network structure of Deeplabv3+basic model

利用Deeplabv3+基础模型分别对可见光和红外条件下的烟雾图像分割,其结果如图2所示。该模型虽然能较好地分割烟雾内部区域,但烟雾边缘分割精度较差,细节损失严重;与烟雾真实分布相比存在错分割区域,整体分割精度较低。由于烟雾这类非刚性目标空间形态和尺度变化较大,基础模型ASPP结构不能很好地适应烟雾形变;参与预测的特征张量中包含的细节信息较少,烟雾边缘和小尺度烟团存在漏分割。因此,本文提出改进Deeplabv3+烟雾分割模型。

图2 Deeplabv3+基础模型烟雾分割结果Fig.2 Smoke segmentation results of Deeplabv3+basic model

2 改进Deeplabv3+网络模型

以Deeplabv3+基础模型为主体,从以下3个方面进行改进。首先,通过异感受野融合的方式改进ASPP结构,提高信息利用率;其次,优化骨干网络中间流结构,将多尺度特征张量拼接传入Decoder模块;最后,特征融合中融入通道注意力模块(channel attention module, CAM),优化网络通道权重配置。改进Deeplabv3+模型的网络结构如图3所示。

图3 改进Deeplabv3+模型的网络结构Fig.3 Network structure of the improved Deeplabv3+model

2.1 异感受野融合的ASPP

原网络ASPP结构使用扩张率分别为6、12和18的空洞卷积扩大感受野,空洞卷积是通过卷积核补零的方式实现的,最终输出非零采样点的卷积结果。随着扩张率的增大,非零采样点占比快速下降,在同等计算量条件下空洞卷积获取的信息量丢失严重,信息利用率低,学习到的特征相关性差,不利于网络训练[14]。此外,ASPP结构单一扩张率卷积层的输出结果为骨干网络生成的特征张量的线性运算,相对原特征图,卷积核感受野扩张有限,且忽略了不同扩张率空洞卷积间的相关性。

基于以上分析,创新异感受野融合的ASPP结构如图4所示,以扩张率r=12的卷积层说明这个过程。图4(a)为通道拼接,将原始特征图与r=6卷积层处理过的特征图拼接后传入r=12卷积层;图4(b)为r=12卷积层对原始特征图的采样点分布,感受野大小为width=25,参与有效运算的元素数量为num=9;图4(c)为r=12卷积层对r=6特征图的采样点分布。r=6特征图上各元素在原始特种图中也有对应的采样点分布,级联的空洞卷积导致在原始特征图上感受野扩大(width=37),参与有效运算的元素数量增多(num=49)。

定义信息利用率η为原始特征图中参与有效运算的元素量与感受野内元素总量的比值,则异感受野融合前后空洞卷积在原始特征图中表现如表1所示。融合后,扩张率为12和18的空洞卷积感受野分别从25和37扩大至37和61,信息利用率分别从1.44%和0.66%增长至3.58%和2.18%。该方法通过增强不同感受野信息间的相关性,从更大区域内判别单一像素的类别属性,有效降低信息损失。

图4 异感受野融合的空洞卷积Fig.4 Empty convolution of different-sensory field fusion

表1 异感受野融合对空洞卷积的影响

异感受野融合将增加大量网络运算,对此通过通道删减减少ASPP模块参数量。原ASPP模块各空洞卷积的输入特征图为2 048通道,输出为256通道,前后分辨率一致,参数量为

N1=2 048×32×256×3=14 155 776

对于改进ASPP中r=6的空洞卷积层,先采用1×1的卷积将原始特征图缩减为1 280通道,再进行卷积运算;对于r=12和r=18的空洞卷积层,先采用1×1的卷积将原始特征图缩减为1 024通道,再与上级卷积层的输出拼接为1 280通道的特征张量,最后进行卷积运算。此时参数量为

N2=2 048×1 280+1 280×32×256+
(2 048×1 024+1 280×32×256)×2=15 663 104

与原ASPP结构相比,异感受野融合的ASPP结构参数量增加了10.65%,以较小的网络复杂度扩大感受野并提高信息利用率。

2.2 骨干网络优化与多尺度融合

骨干网络Xception的中间流是主要特征学习模块,结构如图5(a)所示,由8个重复的分离卷积模块(depthwise separable convolutions module, DSCM)直连组成,每个分离卷积模块由3个728通道的深度分离卷积以残差结构连接。文献[23]指出,该中间层存在冗余计算和特征利用不充分的问题,给出了密集连接的中间流结构加以解决。分析认为,密集连接导致网络过于复杂,通道拼接引入的大量计算不利于模型轻量化,由此提出残差连接的中间流结构,如图5(b)所示。直连的分离卷积模块构成直接映射关系,残差理论指出[24],网络的直接映射不利于特征学习。对此用1×1卷积把输入通道数降为600后,将8个模块均分成4组,每组以残差连接,再次使用1×1卷积把通道数恢复为728。该方法增强了模块间信息的相关性,有利于网络的特征学习,同时降低网络运算量。

图5 骨干网络中间流结构优化Fig.5 Structure optimization of backbone network middle flow

为提高分割精度,降低细节损失,在Decoder模块参与预测的特征图中引入更低层特征,经多尺度特征融合后形成新的特征图。如图3所示,将ASPP输出的特征图经4倍上采样后,与输入流降采样率为4的特征图拼接;合成的特征图再次经2倍上采样,与输入流降采样率为2的特征图拼接,利用1×1卷积将通道数调整与先前一致;经3×3卷积后2倍上采样处理,恢复特征图分辨率与原图一致。

2.3 通道注意力模块

Deeplabv3+网络中涉及多处通道融合操作,融合前不同通道携带的特征经历不同卷积运算,随着卷积深度的增加,所获取的语义特征愈加抽象,其对后续特征学习过程的影响不同。因此,根据不同特征通道对目标预测的影响力大小设置权重系数,突出对网络有重大影响的通道信息的学习,抑制冗余通道信息,加强特征学习的针对性,增强网络学习能力和泛化能力。

文献[25]中压缩奖励网络(squeeze and excitation networks, SENet)采用的通道注意力模块较好地实现了通道权重的自学习。CAM原理如图6所示,分为压缩和奖励两部分。

图6 通道注意力模块构型Fig.6 Structure of channel attention module

压缩过程通过一个全局平均池化层产生对应通道的统计信息,对第i个通道有:

(1)

式中,W×H表示原特征图分辨率;ui(p,q)表示第i个通道层坐标为(p,q)位置的元素,总通道数为C;zi为该通道的特征映射量。至此压缩过程得到1×1×C的一维向量z∈RC。奖励过程如下所示:

s=σ(g(z,W))=σ(W2δ(W1z))

(2)

首先通过一个权重为W1的全连接层降低通道数为原来的1/h,经ReLU函数(δ)激活后输入第二个全连接层(权重为W2)恢复通道数,最后用Sigmoid函数(σ)生成归一化通道权重s∈RC,其尺度为1×1×C。将归一化通道权重与原特征图对应通道相乘,即得到通道注意力特征图Scale。

如图3所示,改进Deeplabv3+模型中,ASPP多感受野特征融合和Decoder模块两处多尺度融合部分采用通道减少率为h=16的通道注意力模块;骨干网络中间流共包含12处基于残差构型的网络连接,采用通道减少率为h=15的通道注意力模块。

3 实验结果与分析

3.1 数据集与预处理

为使训练出的烟雾分割模型对可见光和红外条件下的目标都具备良好的适应能力,原则上数据集应包括该两种成像体制下的烟雾样本。目前尚未有开源烟雾语义分割数据集,使用不同成像体制的拍摄设备自建成本过高。为解决数据短缺的问题,借鉴文献[2]采用的烟雾仿真的方法,将实拍烟雾和模拟烟雾相结合,按照PASCALVOC数据集格式自建数据库。

训练集包括实拍和模拟两种数据类型。实拍烟雾通过在室外设置油盆实验,利用DSC-WX700相机获取723张可见光图像;模拟烟雾采用OSG粒子仿真系统描述烟雾特性,初始静态参数设置如表2所示,将生成的烟雾粒子图加入不同的红外场景中,共生成683张模拟红外烟雾图像。实拍可见光烟雾图像、红外原始图像、模拟红外烟雾图像和实拍红外烟雾图像对比如图7所示,模拟红外烟雾图像与实拍红外烟雾图像视觉效果上相近。获取的烟雾图像经灰度反转、水平翻转、拉伸、放缩、旋转等数据增广处理后扩充成 16 438张,如图8所示。测试集为从互联网获取的实拍烟雾图像,包括830张可见光图像和186张红外图像。正式训练前,将上述图像统一为单通道320×240分辨率。

表2 粒子初始静态属性

图7 实拍图像与模拟图像效果对比Fig.7 Comparison between real image and simulated image

图8 数据增广Fig.8 Data augmentation

3.2 实验配置与网络训练

为加速网络收敛,将训练集的20%设定为验证集。循环次数设置为200 000,初始学习率设置为1×10-4,终止学习率设置为1×10-5,随训练次数线性递减;根据计算机配置batchsize设置为4;ASPP空洞卷积速率设置为[6,12,18]。

Deeplabv3+基础网络和本文改进Deeplabv3+网络的训练过程如图9所示,总体来看二者损失函数值都随训练次数增加逐渐稳定,但改进Deeplabv3+网络收敛速度更快,后期波动更小。这是由于CAM 模块对特征图通道合理分配权重,强化对重点通道特征信息的学习,降低一般通道的冗余计算,使网络学习能力和排除干扰信息的能力得到加强。

图9 网络的训练过程曲线Fig.9 Training process curve of network

3.3 分割效果与性能评估

以平均交并比(mean intorsection over unin,MIoU)和每秒检测帧数(frames per second, FPS)为量化指标,评估模型的分割精度和检测效率;依据生成的权重文件的内存大小判断模型的工程实用性。MIoU计算方法如下:

(3)

式中,TP表示被正确分割为烟雾区域的像素数量;FN表示被错误标记为背景的烟雾区域的像素数量;FP表示被错误分割为烟雾的背景像素数量。改进Deeoplabv3+模型与Deeplabv3+基础模型,以及传统基于差分盒维数膨胀的模式识别算法的烟雾分割量化结果对比如表3所示。

表3 改进Deeplabv3+模型烟雾分割量化结果对比

由表3可知,两个深度学习烟雾分割模型的分割精度远远优于传统的基于差分盒维数膨胀的烟雾分割算法,且检测效率高于传统算法近百倍,说明深度学习算法具有极强的优越性。深度学习模型对可见光和红外图像的分割精度相近,改进Deeplabv3+模型总体平均交并比和每秒检测帧数分别为91.03%和12.51,与Deeplabv3+基础模型相比分别提升3.24%和-1.04%,以较小的检测效率损失为代价取得了更高的分割精度;改进模型权重文件占用计算机内存更低,提升了工程实用性。

表4所示为改进Deeplabv3+模型与基础模型、传统差分盒维数膨胀算法的烟雾分割效果对比。从上至下,前3组为可见光成像,第4组为红外成像;从左至右依次为测试样本原图、标注图和差分盒维数膨胀算法分割图,Deeplabv3+基础模型分割图和改进Deeplabv3+模型分割图。由表4可知,传统差分盒维数膨胀算法仅能对烟雾边缘灰度粗糙区域有较好的分割效果,对于烟雾内部灰度均一区域分割效果不理想,说明算法的全场景理解能力差;对于红外图像几乎失去分割作用,难以应对异源成像体制;处理结果存在严重的错分割,算法鲁棒性差。与传统算法相比,Deeplabv3+基础模型具备优异地分割效果,能将烟雾区域完整地识别和分割,但将烟雾边缘处理的更为平滑,将标注图中曲折的烟雾边缘分割为直线线条,细节丢失严重;在烟雾和背景对比度较低的区域,基础模型存在漏分割现象。Deeplabv3+改进模型在不同场景下均较好地保留了烟雾细节特征,边缘识别更加清晰准确,具备较强的鲁棒性;对可见光图像和红外图像均具备较好的分割性能,表现出良好的泛化能力。

表4 改进Deeplabv3+模型与基础模型分割结果对比

为验证异感受野融合的ASPP、骨干网络优化与多尺度融合、通道注意力模块等措施的有效性,以MIoU和FPS为指标,采用控制变量法对比分析各个改进点对模型的影响,实验结果分析如表5所示。

表5 不同改进措施的分割效果对比

组别1和组别2对比可知,异感受野融合的ASPP结构使MIoU提升1.67%,提高了分割精度,该方法可有效扩大空洞卷积的感受野,提高信息使用率,降低信息损失带来的不良影响;但每秒传输帧数下降0.6,新增参数量和计算量降低了模型检测效率。对比组别2和3可知,骨干优化与多尺度融合操作使每秒传输帧数提高1.18,说明减少中间流通道数有利于模型轻量化,检测实时性有明显提升;通道数减少会导致模型检测精度的降低,但组别3的MIoU值较组别2正增长,说明多尺度融合对分割精度有积极作用。组别3和4对比可知,通道注意力模块进一步提高了分割精度,MIoU值超过91%;但FPS下降超过5.3%,说明优化通道权重增加了较多的计算量,检测效率下降严重。综合分析表5数据可知,模型的分割精度和检测效率难以同时取得大幅提升,改进Deeplabv3+模型在二者之间取得了较好的权衡。

为测试骨干网络对语义分割算法的影响,将本文改进模型与基于不同特征提取网络的Deeplabv3+模型进行对比,结果如表6所示。

表6 不同骨干网络的Deeplabv3+模型分割性能对比

对比发现,本文改进模型的分割精度最好,模型大小适中;以MobileNet-v2系列为骨干网络,具备优异的处理效率和工程实用性,但分割精度损失太大;ResNet系列骨干网络兼顾检测实时性和准确性,但与本文改进模型相比分割精度仍有一定差距,且模型文件过大,不利于工程应用。总之,改进Deeplabv3+模型综合考虑了任务需求和工程应用因素,在分割精度和检测效率之间取得较好权衡;实验数据表明,该模型对可见光和红外图像中烟雾区域均具备良好的识别分割能力,全场景理解能力和细节分割能力突出,具有一定的现实应用价值。

4 结 论

针对基于图像的寻的制导系统烟雾遮挡问题,提出了改进Deeplabv3+烟雾区域分割模型,通过改进异感受野融合的ASPP、骨干网络优化与多尺度融合、添加通道注意力模块等措施,提高了算法的烟雾分割能力。实验数据表明,改进Deeplabv3+模型在测试集中平均交并比为91.03%,分割效率为12.64帧/秒,分割效果远超传统的模式识别算法;改进模型在分割精度和检测实时性之间取得良好的权衡,相对基础模型具备更好的工程实用性,对提高图像寻的制导系统抗烟雾干扰能力具有重要的现实价值。

猜你喜欢

烟雾空洞卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
薄如蝉翼轻若烟雾
影视剧“烟雾缭绕”就该取消评优
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
咸阳锁紧烟雾与尘土
空洞的眼神
用事实说话胜过空洞的说教——以教育类报道为例
会下沉的烟雾
一种基于卷积神经网络的性别识别方法