基于全卷积神经网络的图像语义分割技术的发展及应用综述
2019-09-16郭亚男
郭亚男
摘要:近年来,随着信息技术的不断发展,图像越来越成为信息传播的重要载体,对图像的的分析处理技术更是飞速发展,影像设备的不断更新使图像不管是数量还是质量都呈现上涨趋势,这就需要我们快速且准确的提取图像中的有用信息,语义分割技术应运而生。本文主要论述了深度学习中卷积神经网络的理论模型及其衍生模型,介绍了不同模型在实际中的应用及发展情况,并对未来图像的语义分割领域发展进行展望。
关键词:深度学习 全卷积神经网络模型 图像语义分割及应用
引言
在近几年深度学习的快速发展,使其在图像的语义分割方面发展迅速,从而加快了语义分割在不同领域的实际应用。卷积神经网络是深度学习的代表算法之一,自卷积神经网络问世以来,网络深度越来越深,架构越来越复杂,解决反向传播时梯度消失的方法也越来越巧妙,在图像的语义分割领域发挥着不可代替的作用。本文主要论述了深度学习中卷积神经网络的理论模型及其衍生模型、简要说明数据在不同卷积神经网络中的训练过程、介绍了不同模型在实际中的应用情况,并对未来图像的语义分割领域发展进行展望。
1 全卷积神经网络模型
1.1 模型架构
全卷积神经网络自2015年提出以来,基本的架构都是一致的:输入、卷积、池化、输出。在卷积层,利用不同尺寸的卷积核,以一定的步长进行卷积,由浅到深提取出特征,经过多层的池化,从而提取出不同深度的特征,完成最终的分割。
1.2 全卷积神经网络模型的发展过程
经过卷积池化后,图像的分辨率降低,从而影响分割结果的准确性。在最近的几年中,为了提高分割精度,恢复分割图像的分辨率,许多学者基于全卷积神经网络提出不同的改善模型。
1.2.1 FCN模型
在2015年,UC Berkeley的Jonathan Long等人提出了全卷积神经网络(FCN)[1],它与传统的全卷积神经网络相比,优点首先在于加入了上采样的过程,其次引入了跳级结构,对图像分割有精化作用。
原图像经过五次池化后,图像尺寸变为原图像的1/32,将conv7后输出的图像32倍上采样,得到原图像相同尺寸的特征图,FCN32的分割结果非常粗糙,作者为了改善结果,将此conv7后的图像2倍上采样与pool4后剪切的特征图做融合,将融合后的图像进行16倍上采样,得到FCN-16的分割结果,为了使结果更精细,将conv7后输出的图像4倍上采样,将pool4后输出的图像2倍上采样,得到原图像的1/8的图像,将此图像与经pool3后剪切的特征图做融合;这样最终的特征图FCN-8既包含了深层的高级别语义信息也包含了浅层的空间信息,提高分割结果的鲁棒性和精确性。
1.2.2 U-net模型
在2015年,Philipp Fischer等人在Kaggle挑战赛中第一次使用了U-net网络,U-net同样只有卷积层和池化层,没有全连接层,在卷积池化之后也有上采样过程。与FCN网络不同的是,U-net的卷积过程与反卷积过程采用了相同数量层次的卷积操作,且使用skip connection结构将卷积池化层与反卷积层相连,使得下采样提取到的特征可以直接传递到反卷积层,这使得U-net网络的像素定位比起FCN网络更加准确,分割精度更高。
1.2.3其他模型
最近两年,许多学者在FCN网络和U-net网络的基础上进行改善,并实验后得到了更好的分割效果。在2018年,中国科学技术大学的张一恒等人提出了用于語义分割的全卷积自适应网络,它将外观自适应网络(AAN)和表达自适应网络(RAN)相结合,AAN模块用来在像素空间里学习从一个域向另一个域的转换,得到源域和目标域相结合的自适应图像,RAN模块以对抗性学习方式进行优化,最后用ASPP模块并行提取不同尺度上的特征,最后得到分割结果。另外,今年提出的基于随机推理的弱半监督语义图像分割、快速语义分割网络在语义分割方面也有着不俗的表现。
2不同模型的实际应用
2.1全卷积神经网络在地理信息系统的应用
卫星遥感技术的发展,使其逐渐深入到国民经济、社会生活与国家安全的各个方面,计算机输入卫星遥感影像,通过神经网络自动识别道路,河流,庄稼,建筑物等,并且对图像中每个像素进行标注。凭借分割结果完成一系列分析工作极大的提高了工作人员的工作效率,且比传统分割算法的准确度高。在2017年ISPRS竞赛中,ResNet的FCN模型被用来实现对航空图像进行分割并取得了不错的成绩。
o.o全卷积神经网络在智能交通领域的应用
在智能交通领域,语义分割最突出的应用是在无人驾驶技术当中,它是无人驾驶众多算法中的核心算法,车载摄像头将街道的实时视频分桢传递给神经网络,后台计算机可以自动将图像分割归类,以避让行人和车辆等障碍。
LinkNet网络在街道图像中良好的分割能力可以辅助无人驾驶技术,通过语义分割,开车过程中能够自动且准确的识别视线范围能的目标,从而做出停车或绕过目标的动作,在智能交通领域发挥作用。
2.j全卷积神经网络在医疗影像分析领域的应用
U-net网络适于医学图像的分割。Wang等人提出一种伤口图像分析系统,先用U-net网络对伤口图像进行分割,再用SVM分类器对分割出的伤口图像进行分类,判断伤口是否感染,最后用GP回归算法对伤口愈合时间进行预测。Brosch等人使用U-net网络对脑部MRI中的脑白质病灶进行分割,并在U-net网络的第一层卷积和最后一层反卷积之间加入跳跃连接结构,使得该网络结构在训练数据较少的情况下仍得到了很好的分割结果。此外,语义分割还应用在肿瘤图像分割等。
2.4全卷积神经网络在智能机器人领域的应用
全卷积神经网络在智能机器人领域的主要应用是穿戴式机器人,如谷歌智能眼镜,用眼镜上的摄像机对视线中的物体拍照传输给计算机,计算机通过全卷积神经网络进行语义分割,从而完成对不同目标的自动识别,再将结果以不同形式输出,若输出形式是语音,就会对盲人买东西、逛街等提供实质性帮助。
3结束与展望
全卷积神经网络凭借自身强大的特征提取能力和准确的分割预测功能,在各个领域中得到越来越广泛的应用。但不同的神经网络适用的领域不同,如Deeplab网络、Linknet网络适用于街道交通图像的分割,但U-net及其衍生网络虽然也能实现多分类,但分割效果并不尽人意,它们更适用于医疗图像的分割,因此设计一个通用的深度学习网络使它能适应所有类型的数据集训练,依旧是研究者们今后的研究重点。
参考文献
[1]Jonathan Long, Evan Shelhamer. and Trevor Darrell. Fullyconvolutional networks for semantic segmentation. In Proceedingsof the IEEE conference on conLputer visionand patternrecognition, pages 3431 3440. 2015.
[2]Ronneberger O, Fischer P, Brox T. UNet: ConvolutionalNetworks for Bionledical Image Segnlentation[M]// Medical IiuageConLputing and ConlputerAssisted InterventionMICCAI 2015.Springer International Publishing,2015: 234241.
[3]Zongwei Zhou. Md Mahfuzur Rahman Siddiquee, NinLaTajbakhsh, and Jianming Liang.U-net++: A Nested UNetArchitecture for Medical Image Segnlentation. arXiv preprintarXiv:1807.10165.2018.