APP下载

结合超像素分割的多尺度特征融合图像语义分割算法

2021-07-06官申珂郑晓妹朱媛媛马利庄

图学学报 2021年3期
关键词:语义卷积像素

官申珂,林 晓,郑晓妹,朱媛媛,马利庄

结合超像素分割的多尺度特征融合图像语义分割算法

官申珂1,林 晓1,郑晓妹1,朱媛媛1,马利庄2

(1. 上海师范大学信息与机电工程学院,上海 200234;2.上海交通大学电子信息与电气工程学院,上海 200240)

深度学习的发展加快了图像语义分割的研究。目前,最有效的图像语义分割研究方法大部分都是基于全卷积神经网络(FCNN),尽管现有的语义分割方法能有效地对图像进行整体分割,但对于图像中的重叠遮挡物体不能清晰地识别出边缘信息,也不能有效地融合图像高低层的特征信息。针对以上问题,在采用FCNN来解决图像语义分割问题的基础上,利用超像素分割对物体边缘的特殊优势作为辅助优化,对粗糙分割结果进行优化。同时在FCNN中利用空洞卷积设计了一个联合局部跨阶段的多尺度特征融合模块,其能有效地利用图像的空间信息。此外还在网络的上采样模块中加入跳跃连接结构,用来增强网络的学习能力,在训练过程中采用2个损失函数来保证网络稳定收敛和提升网络的性能,图像语义分割网络在公开的数据集PASCAL VOC 2012上进行训练测试。实验结果表明,该改进算法在像素精度和分割准确率方面均有提升,且具有较强的鲁棒性。

全卷积神经网络;多尺度特征融合;超像素分割

1 相关介绍

近年来,图像语义分割已成为计算机视觉领域中研究最为广泛的问题之一。随着场景理解[1-2]、自动驾驶[3]、医学图像处理[4-5]、图像分割[6]等计算机视觉问题研究的深入,图像语义分割作为上述研究的基础,也变得越来越重要。随着图像数据的增长和人工智能的普及,本文提出一种准确且高效的图像语义分割算法,不仅能帮助计算机更好地理解图像信息,还能更加方便人们的生活[7]。

图像语义分割的研究发展大致可以分为2个阶段。第一个阶段是传统图像语义分割方法,其方法多种多样,其中基于图划分的Normalized Cut[8]和Grab Cut[9]算法最为常用。随着深度学习的发展和图像数据的增长,传统的图像语义分割方法已经不能满足实际需求,研究者们在深度学习中找到了新的研究方向。图像语义分割研究进入了第二阶段,文献[10]提出的全卷积神经网络(fully convolutional neural network,FCNN)开辟了深度学习在图像语义分割中的应用,其利用卷积层替换了卷积神经网络VGG[11]中传统的全连接层,并提出一种跳跃结构(skip)用来结合高层和低层信息,让预测结果图有更好的细节表现。文献[12]在FCNN的基础上提出了一种具有对称结构的编码器-解码器网络Segnet,其利用编码器去提取图像特征,通过记住池化操作中的位置信息利用解码器通过上采样操作将特征图还原为输入图像大小。文献[13-16]在FCNN和编码器-解码器结构的基础上提出了DeepLab系列网络,其通过空洞卷积(atrous convolution)[17]操作扩大感受野,再结合空洞卷积和空间金字塔池化[18]提出空洞空间金字塔池化方法(atous spatial pyramid pooling,ASPP),利用ASPP融合多尺度特征信息,设计了一个解码器结构去恢复空间信息得到一个清晰的边界信息。与传统方法相比,基于深度学习的图像语义分割方法在准确性和速度性能上有了很大地提高。

尽管现有的语义分割方法在图像整体分割准确率上已经达到相当的水平,但是仍面临着许多挑战,如物体之间的重叠和遮挡使得物体的边缘不能清晰辨认、低层特征包含丰富的空间信息,高层的图像特征包含丰富的语义信息,两者应该如何融合等。

为了解决物体边缘分割不清晰的问题,本文采用结合超像素分割的辅助方法。超像素分割[19]能将图像中颜色、纹理等属性相似的像素集合成一个超像素,不仅能提供丰富准确的图像边缘信息,还能大大提高分割算法的运行效率。目前常用的超像素分割算法有SLIC[20],SEEDS[21]和GMMSP[22]等。

为了能有效地融合低层和高层的图像特征,本文在研究现有深度学习模型的基础上,提出了一种结合超像素分割和多尺度特征融合方法的改进图像语义分割算法。联合多层特征图利用不同空洞率的空洞卷积对图像进行局部跨阶段特征提取,并融合多尺度特征,可得到包含丰富语义信息的特征图。首先通过解码器结构对特征进行上采样操作,得到粗糙的分割结果图,然后利用超像素分割图对粗糙结果图进行边缘优化,最终得到完整的分割结果图。在训练时,本文在解码器结构中采用DiceLoss和交叉熵相结合的损失函数,DiceLoss用来计算2个样本间的像素相似度,交叉熵损失用来计算真实概率分布与预测概率分布间的差异,每一个损失函数对应一个尺度的真值图,使网络充分地学习全局信息,增强算法的鲁棒性。

2 本文算法

本文提出用一个端到端的结合超像素分割的多尺度FCNN来训练图像语义分割图。本文的网络结构如图1所示。处理过程大致可以分为2个阶段,第一阶段首先将原始图像送入一个有监督训练的FCNN,该网络包含有10个模块,包括5个下采样模块、1个多尺度特征融合模块和4个上采样模块。通过对原始图像进行5次下采样操作得到语义信息丰富的特征图,但是过度的下采样操作会严重损失图像的空间信息,本文设计了一个联合多层特征图的局部跨阶段多尺度特征融合模块,在模块中具有多个不同空洞因子的3×3并行空洞卷积模块,对图像特征进行多尺度提取并进行融合,空洞卷积能增大感受野并降低空间特征的损失。然后将得到的图像特征送入上采样模块逐渐将特征还原到原始图像大小。本文还分别在2个上采样模块中设有损失函数,目的是让网络在训练时能够更好地收敛。在第二阶段通过对原始图像进行超像素分割,利用分割图对网络预测图进行边缘优化,得到最终的结果图。

图1 本文算法流程图

2.1 有监督训练的全卷积神经网络

2.1.1 全卷积网络结构

本文的第一阶段是有监督训练的FCNN,其任务是对原始图像进行特征提取后最终得到一个粗糙的语义分割结果图。如图1所示,该网络共有10个卷积子模块,每个模块都包含卷积层、BN层和激活层,激活函数采用ReLU。其中前5个卷积模块为下采样模块,利用卷积操作对图像进行特征提取,每经过一个下采样操作后图像尺寸会减小,这样能让网络提取出更高维的语义信息。下采样操作虽然能提取出高维的语义信息,但是过度下采样操作会严重损失图像的空间信息,因此本文在下采样模块之后设计了一个多尺度特征融合模块,受文献[23]的启发,在此模块中,首先联合3层特征图进行卷积操作降低维度,然后将特征图进行分块分阶段进行处理,并利用空洞因子为2,4,8的空洞卷积对图像特征进行多尺度提取并融合,可以有效提取出图像的空间信息,并扩大了感受野,降低了计算复杂度。在特征融合过程中采用Concat操作将不同空洞率卷积产生的特征图进行融合。然后是上采样操作模块,通过上采样操作逐渐增大特征图尺寸,将特征图还原到原始图像大小,通过类别颜色对应就能得到一个粗糙的语义分割结果。为了防止在上采样过程中损失高维特征,本文加入了类似残差网络[24]的跳跃连接结构,在上采样操作中除了接收上一个模块的输出以外,还接收下采样模块中与其大小对应的输出特征,利用Concat操作将特征进行融合,既可以保证网络学习到充分的特征,又能逐渐将特征还原到原始图像大小。

如图1所示,其中每层网络所接收的特征图输入为上一层网络的输出特征图,激活函数ReLU为

其中,为输入特征图的大小;为输入特征图的第个值;为对应的输出。另外,激活函数Softmax为

其中变量符号与式(1)类似。

图2在下采样模块之后设计了一个多尺度特征融合模块。首先对前3层特征图进行卷积降维处理并进行结合,然后对得到的特征图利用CSPNet[25]方法进行分块分阶段处理,将特征图分为2块,第一阶段利用空洞率为2,4,8的3个3×3空洞卷积对第1块特征图进行处理,扩大感受野,有效提取图像空间信息;第二阶段将第2块特征图与第一阶段得到的结果进行结合再进行卷积计算。在多尺度特征融合模块中,联合部分计算式为

其中,x为输入第层特征图;( )为卷积操作;[ ]为Concat操作;为输出结果。

局部跨阶段部分计算式为

其中,d为空洞率为的空洞卷积操作;1为联合部分结果的第1分块;2为第2分块;为结果输出,其余与式(3)类似。

由于本文在空洞卷积模块中采用了分块分阶段的处理方式,则可知该模块的计算复杂度由原来的3×3×in×out×变为现在的3×3×(in/2)×out×。其中in,out和分别代表输入维度、输出维度和空洞卷积数量。

最后,本文在上采样模块中加入了跳跃连接结构用来结合上层卷积的结果,修复还原的图像,增强网络的精确度和鲁棒性。

图2 联合局部跨阶段多尺度特征融合

2.1.2 多级损失函数

本文采用多级损失函数的方式来进行训练,如图1所示,在上采样模块中设有2个损失函数,并期望在第2和第4上采样模块的输出可以还原与真值图接近的语义分割图,所以对第2上采样模块的输出特征图进行4倍卷积上采样操作得到预测结果图,因此第一个损失函数采用DiceLoss可表达为

由于第4上采样模块最后采用的激活函数是Softmax函数,输出的结果为一个概率图,因此第二个损失函数可以利用交叉熵作为度量,即

最后将2个损失函数进行融合训练,最终损失函数为

本文卷积神经网络采用多级损失函数进行优化,不仅增加了网络的精确度,而且还提高了网络的泛化能力。

2.2 超像素分割

本文在第二阶段利用超像素分割图对粗糙语义预测结果图进行边缘优化。超像素分割能有效地提取出物体的边缘信息,对预测结果进行优化,如图3所示,由于SLIC算法运行速度快所以本文采用其对图像进行超像素分割,选择合适的参数(为预生成超像素块数量,为图像每个维度的预处理的高斯平滑核的宽度)可以利用超像素分割提取出丰富准确的边缘信息。本文利用超像素分割图对粗糙语义分割图进行边缘优化,首先对原始图像进行超像素分割,然后利用超像素分割图中的每块超像素做掩膜(mask),最后通过每块掩膜对粗糙语义分割图进行边缘优化。优化效果如图4所示。利用掩膜进行优化时总体可以分为2种情况,即标签像素在掩膜内和不在掩膜内。当标签像素不在掩膜内可以直接忽略,当标签像素在掩膜内则可以分为2种情况,即包含单标签像素和包含多标签像素。只包含单标签像素时,可以计算标签像素的覆盖率若标签像素覆盖率大于设置参数(超像素块中的类别标签像素所占比例),则将掩膜内所有像素设置为标签像素;若小于设置参数,则直接忽略。包含多标签像素时,首先计算每种标签像素的覆盖率,若总覆盖率小于设置参数,则直接忽略;若总覆盖率大于设置参数,则利用覆盖率最大的标签像素填充掩膜内像素。具体实现的算法如下:

图3 M=40时SLIC超像素分割结果

图4 超像素块掩膜

算法1.超像素掩膜优化算法

1. 输入图像为I,粗糙语义分割图为L。 2. 对图像I进行SLIC超像素分割,得到K个超像素块,S(S1,S2,S3,···,SK),其中Si为第i个超像素块。 3. 外循环for i=1:K(1) 利用每个超像素块掩膜对L进行优化,使用P=(p1,p2,p3, ···,pl)表示Si中的每个像素,统计每个像素的所属类别,并统计每种类别的像素总数C=(c1,c2,c3, ···,cn)。(2) if C==0:continue下一超像素块。(3) if C==1:计算类别像素所占比例。if: 用类别像素填充该超像素块。else:continue下一超像素块。(4) else:内循环for j=1:n计算每种类别像素的所占比例q=(q1,q2,q3, ···,qn)。if qSUM>=80%:用所占比例最大的类别像素填充该像素块。else:continue下一超像素块。结束。 4. 输出优化后的结果。

3 实验结果与对比分析

本文的网络模型是基于Pytorch框架进行开发的,在Intel(R) Core i7 3.4 GHz CPU,16 GB RAM, 12 GB Titan X的设备上进行网络的训练和测试。在训练中,本网络以梯度下降法训练300轮,批处理大小设置为12张图片。初始学习率为1e-4,然后每10轮衰减10%,动量设置为0.9,基础网络为ResNet101。本文提出的算法在公开数据集PASCAL VOC 2012[26]上进行训练和测试。PASCAL VOC是一个国际计算机视觉挑战赛,其数据集涉及物体共21类,包含人类、动物、交通工具、室内场景等,其中包含1 416张训练图片和1 449张验证图片,且图片大小不固定。本文从定性和定量2个方面对本文提出的算法进行分析对比。

3.1 语义分割的评价标准

本文采用像素准确率(pixel accuracy,PA)和平均交并比(mean inetersection over union,mIoU)对实验结果进行衡量。PA用来计算正确分割的像素数量与图像像素总量的比值,即

其中,为图像像素的类别数量;p为预测和实际类型为的像素;T为第类像素总数,一般PA值越大,说明算法准确率越高。

mIoU是表示分割结果与原始图像真值的重合程度,即

其中,为实际类型为,预测类型为的像素总数,其余符号与式(8)中的类似,一般mIoU值越大,说明算法分割结果越符合真值图像。

3.2 实验结果对比

3.2.1 实验结果定性分析

图5为本文算法在PASCAL VOC 2012数据集上的实验结果,图5(a)~(f)分别代表输入图像、SLIC超像素分割图、真实(ground truth)语义标签、FCN-8s分割结果、添加多尺度特征融合模块后的分割结果、结合超像素分割后的结果即本文算法分割结果。由图5可知,本文算法实现的分割效果更好,分割结果最接近真实语义标签。

图5 分割效果对比((a)原始图像;(b)超像素分割图;(c)真值图;(d)FCN-8s;(e)多尺度特征融合;(f)本文算法)

逐行对比图5中的结果可知,FCNN中FCN-8s对于单一大目标的类别均能准确地识别并且分割效果良好,但对于有遮挡的复杂场景,就不能有效地进行分割,通过添加多尺度特征融合模块后分割效果得到提升,之后再利用超像素分割对分割结果边缘进行优化,所以本文算法在边缘处理上有更好的效果。

3.2.2 实验结果定量分析

为了确定超像素分割的参数和验证超像素优化模块的有效性,本文选取了不同的超像素分割数量进行验证,如图6所示。

为了进一步验证超像素优化模块对算法性能的提升,本文对比了不同取值的参数(超像素块中的类别标签像素所占比例)对算法性能的影响,见表1。

图6 超像素数量对分割效果的影响

表1 不同参数取值对比

本文使用公认的评价标准对FCN-8s、添加超像素优化模块后的算法和本文算法进行定量对比分析。图7为各个算法在PASCAL VOC 2012数据集中的21个类别的IoU评分柱状图,图中横坐标表示类别,纵坐标表示IoU评分。

本文还与语义分割的主流算法进行对比,各个算法在PASCAL VOC 2012数据集上的PA评分、mIoU评分和网络参数量见表2。从表2可以看出,本文算法的PA评分和mIoU评分有一定提升。

图7 PASCAL VOC 2012各类别评分

表2 不同算法定量对比

表2中,虽然本文算法在mIoU评分上与先进算法还有差距,但是在PA评分上达到先进。由于本文算法的基础网络采用的是ResNet101,与其他先进算法最优结果采用的基础网络有所不同,所以在结果上会有差距,但是本文算法在网络参数量评价上有一定优势。

3.3 实验失败样例分析

图8显示了一些失败样例,其中本文算法对于背景复杂或包含众多小目标的图片不能有效分割。在图8(b)中本文算法能识别出物体类别,但对于人腿和马腿这样细小的目标不能有效地分割。图8(c)对于复杂的背景图像也不能有效地分割。因此后期需考虑对细小物体和复杂背景进行优化。

由实验可知,本文算法在PA和mIoU上均有提升,说明结合超像素分割图对图像语义分割进行边缘优化方法是提高图像语义分割准确率的有效方法之一。

图8 失败样例((a)原始图像;(b)真值图;(c)分割结果)

4 结束语

本文提出了一种2阶段端到端的结合超像素分割的多尺度FCCN来解决图像语义分割问题。相比之前的基于深度学习的研究方法,本算法有3点创新。首先是在FCCN中加入联合局部跨阶段特征融合模块对特征图进行多尺度特征融合,有效利用图像空间信息降低计算复杂度,在上采样模块中加入对应尺寸的下采样特征,充分利用特征信息。其次是在上采样模块中融合了2个损失函数进行训练,不仅能保证网络稳定收敛还能提高网络的准确率。最后利用超像素分割对物体边缘敏感的性质对原始图像进行分割,利用超像素分割图对网络预测图进行边缘优化。本文还在公开的数据集PASCAL VOC 2012上进行测试,实验结果证明本文提出的网络算法在像素精度和分割准确率方面都有提升。

[1] WANG J L, LU Y H, LIU J B, et al. A robust three-stage approach to large-scale urban scene recognition[J]. Science China Information Sciences, 2017, 60(10): 235-247.

[2] CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 3213-3223.

[3] GEIGER A, LENZ P, URTASUN R. Are we ready for autonomous driving? The KITTI vision benchmark suite[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2012: 3354-3361.

[4] MOON N, BULLITT E, VAN LEEMPUT K, et al. Automatic brain and tumor segmentation[M]//Medical Image Computing and Computer-Assisted Intervention — MICCAI 2002. Heidelberg: Springer, 2002: 372-379.

[5] 段杰, 崔志明, 沈艺, 等. 一种改进FCN的肝脏肿瘤CT图像分割方法[J]. 图学学报, 2020, 41(1): 100-107.

DUAN J, CUI Z M, SHEN Y, et al. A CT image segmentation method for liver tumor by an improved FCN[J]. Journal of Graphics, 2020, 41(1): 100-107 (in Chinese).

[6] GARCIA-GARCIA A, ORTS-ESCOLANO S, OPREA S, et al. A survey on deep learning techniques for image and video semantic segmentation[J]. Applied Soft Computing, 2018, 70: 41-65.

[7] 田萱, 王亮, 丁琪. 基于深度学习的图像语义分割方法综述[J]. 软件学报, 2019, 30(2): 440-468.

TIAN X, WANG L, DING Q. Review of image semantic segmentation based on deep learning[J]. Journal of Software, 2019, 30(2): 440-468 (in Chinese).

[8] SHI J B, MALIK J. Normalized cuts and image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8): 888-905.

[9] ROTHER C, KOLMOGOROV V, BLAKE A. “GrabCut”: interactive fore-ground extraction using iterated graph cuts[J]. ACM Transactions on Graphics, 2004, 23(3): 309-314.

[10] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. New York: IEEE Press, 2015: 640-651.

[11] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-06-24]. https://arxiv.org/abs/1409.1556.

[12] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.

[13] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[EB/OL]. [2020-06-12]. http://de.arxiv.org/ pdf/1412.7062.

[14] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.

[15] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[EB/OL]. [2020-06-11]. http://arxiv.org/abs/1706.05587.

[16] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]//Computer Vision – ECCV 2018. Heidelberg: Springer, 2018: 833-851.

[17] YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions[EB/OL]. [2020-06-10]. https://arxiv.org/pdf/1511. 07122.

[18] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.

[19] REN X, MALIK J. Learning a classification model for segmentation[C]//The 9th IEEE International Conference on Computer Vision. New York: IEEE Press, 2003: 10-17.

[20] ACHANTA R, SHAJI A, SMITH K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2274-2282.

[21] VAN DEN BERGH M, BOIX X, ROIG G, et al. SEEDS: superpixels extracted via energy-driven sampling[M]// Computer Vision – ECCV 2012. Heidelberg: Springe, 2012: 13-26.

[22] BAN Z H, LIU J G, CAO L. Superpixel segmentation using Gaussian mixture model[J]. IEEE Transactions on Image Processing, 2018, 27(8): 4105-4117.

[23] WU H K, ZHANG J G, HUANG K Q, et al. FastFCN: rethinking dilated convolution in the backbone for semantic segmentation[EB/OL]. [2021-04-09]. https://www.researchgate. net/publication/332070826_FastFCN_Rethinking_Dilated_Convolution_in_the_Backbone_for_Semantic_Segmentation.

[24] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.

[25] WANG C Y, LIAO H Y, MARK Y, et al. CSPNet: a new backbone that can enhance learning capability of CNN[EB/OL]. [2021-04-09]. https://www.researchgate.net/ publication/332070826_FastFCN_Rethinking_Dilated_Convolution_in_the_Backbone_for_Semantic_Segmentation.

[26] EVERINGHAM M, GOOL L, WILLIAMS C K I, et al. The pascal visual object classes (VOC) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.

[27] ZHAO H S, SHI J P, QI X J. Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and pattern Rewgnition (CVPR). New York: IEEE Press, 2017: 2881-2890.

[28] TIAN Z, HE T, SHEN C, et al. Decoders matter for semantic segmentation: data-dependent decoding enables flexible feature aggregation[EB/OL]. [2021-04-09]. https://www. researchgate.net/publication/331562072_Decoders_Matter_for_Semantic_Segmentation_Data-Dependent_Decoding_Enables_Flexible_Feature_Aggregation.

[29] OLUWASANMI A, AFTAB M U, SHOKANBI A, et al. Attentively conditioned generative adversarial network for semantic segmentation[J]. IEEE Access, 2020(99): 1-1.

[30] KRAPAC J, SEGVIC I. Ladder-style DenseNets for semantic segmentation of large natural images[EB/OL]. [2021-04-09]. https://www.researchgate.net/publication/322646439_Ladder-Style_DenseNets_for_Semantic_Segmentation_of_Large_Natural_Images.

A semantic segmentation algorithm using multi-scale feature fusion with combination of superpixel segmentation

GUAN Shen-ke1, LIN Xiao1, ZHENG Xiao-mei1, ZHU Yuan-yuan1, MA Li-zhuang2

(1. College of Information, Mechanical and Electrical Engineering, Shanghai Normal University, Shanghai 200234, China;2. College of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China)

The advancement of deep learning has boosted the research on image semantic segmentation. At present, most effective methods for this research are based on the fully convolutional neural networks. Although the existing semantic segmentation methods can effectively segment the image as a whole, they cannot clearly identify the edge information of the overlapped objects in the image, and cannot effectively fuse the high- and low-layer feature information of the image. To address the above problems, superpixel segmentation was employed as an auxiliary optimization to optimize the segmentation results of object edges based on the fully convolutional neural network. At the same time, the design of a joint cross-stage partial multiscale feature fusion module can enable the utilization of image spatial information. In addition, a skip structure was added to the upsampling module to enhance the learning ability of the network, and two loss functions were adopted to ensure network convergence and improve network performance. The network was trained and tested on the public datasets PASCAL VOC 2012. Compared with other image semantic segmentation methods, the proposed network can improve the accuracies in pixel and segmentation, and displays strong robustness.

fully convolutional neural network; multiscale feature fusion; superpixel segmentation

TP 391

10.11996/JG.j.2095-302X.2021030406

A

2095-302X(2021)03-0406-08

2020-09-30;

2020-11-21

30 September,2020;

21 November,2020

国家自然科学基金项目(61872242)

National Natural Science Foundation of China (61872242)

官申珂(1994-),男,云南曲靖人,硕士研究生。主要研究方向为图像语义分割。E-mail:guan-shenke@qq.com

GUAN Shen-ke (1994-), male, master student. His main research interest covers image semantic segmentation processing. E-mail:guan-shenke@qq.com

林 晓(1978-),女,河南南阳人,教授,博士。主要研究方向为视频图像处理。E-mail:lin6008@shnu.edu.cn

LIN Xiao (1978-), female, professor, Ph.D. Her main research interests cover video and digital image processing. E-mail:lin6008@shnu.edu.cn

猜你喜欢

语义卷积像素
真实场景水下语义分割方法及数据集
像素前线之“幻影”2000
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络的分析与设计
“像素”仙人掌
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“吃+NP”的语义生成机制研究
高像素不是全部
情感形容词‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的语义分析