APP下载

基于卷积神经网络的图像语义分割技术

2019-01-30朱明君

电子技术与软件工程 2019年1期
关键词:池化语义像素

文/朱明君

1 引言

作为图像理解和计算机视觉领域的重要的环节,图像分割一直受到人们的关注。在深度学习迅速发展之后,基于卷积神经网络的全卷积神经网络(Fully convolutional networks,FCN)等网络的提出使得图像分割进入了新的阶段,像素不仅能够按照物体类别进行分类,图像分割精度也得以提升。

2 卷积神经网络的工作原理

卷积神经网络的意义在于训练出能够识别图像特征的卷积核。当卷积核在整个图像上滑动之后,输出特征图中的相应位置就被赋予了高低不一的数值,特定曲线及周边区域所对应的位置数值高,其他区域数值低。也就是说,特定的卷积核能够将特定的特征检测出来。而卷积神经网络的目的就在于训练出能够识别出事物不同的特征的不同卷积核,从而实现对图片上信息的分类。

2.1 图像的卷积

对图像卷积即卷积核在输入图像上从左到右,从上到下滑动,卷积核的每个系数和输入图像对应的像素值相乘再累加,作为新的像素值赋值给输出特征图的相应位置。输出特征图的尺寸o与卷积核的大小k、输入图像的尺寸n、步长s、填充(padding)p有关。

2.2 激活函数

输入图像经过卷积核作用之后得到的特征图还要经过激活函数的作用,将输出的数值回归至一定范围内,从而实现将非线性可分的数据进行分类。

2.3 池化层

在卷积神经网络中,当特征图经过激活函数作用之后得到的激活图还要经过池化层。

池化,也叫下采样,就是将图片尺寸缩小。一般采用最大池化和平均池化。最大池化就是在特定n×n的区域选出该区域内最大的数值,赋予输出的相应位置。而平均池化就是在特定n×n的区域将这n2个数值取平均,赋予输出的相应位置。

图1:语义分割示例

图2

图3

2.4 全连接层softmax

在卷积神经网络中,当卷积层的滤波器尺寸与待处理的特征图的尺寸相同时,一个卷积核输出一个值,这样的卷积层便是全连接层。在网络的最后通过加上全连接层能够输出一组向量,即大小不同的数值,个数为卷积核的数量。这些数值最终经过softmax函数作用,输出一组大小在0到1间的概率值,代表这张图片输于各个类别的可能性。

2.5 训练过程

图4:出自论文

卷积神经网络的目的是训练出能够识别图像特征的卷积核,也就是要确定这些卷积核的系数。输入训练集的图像,经过特定的卷积神经网络,输出一组概率,通过与标签比对,计算误差值,通过反向传播算法更新权重,直至最终整个网络损失函数达到最小。

2.5.1 损失函数

2.5.2 反向传播算法

3 图像语义分割

3.1 概念

图像语义分割就是对图像进行分割并识别出相应的内容,比如图1中一个人骑着摩托车,那么图像语义分割的任务就是将这张图片的人和摩托车以及背景(background)分割开并识别出他们相应的类别。

3.2 FCN全卷积网络

全卷积网络和传统的卷积神经网络相比,区别在于最终输出的不是一组向量,而仍然是一张图片,主要是通过将CNN中的全连接层当作是卷积层。在FCN论文中,作者通过5层卷积层和5层池化层将输入图片的尺寸缩小到了原图的1/32,最后加的卷积层是21通道,故最终是21张尺寸为原图的1/32的热图。接下来FCN做的是反卷积,将图像尺寸还原成输入图像,输出21张由heatmap经过upsampling变为原图大小的图片;为了对每个像素进行分类预测label,对像素逐个求其在21张图像中位置的最大概率作为该像素的分类,这便是即语义分割的核心所在。

3.2.1 反卷积

什么是反卷积呢,简单说就是卷积对应的反过来的操作,具体含义可以通过以下例子理解。如图2,3×3的卷积核在4×4的特征图上以步长为1进行滑动,输出2×2的特征图,其对应的反卷积如图3所示,即3×3的卷积核在尺寸为2×2的特征图上以步长为1进行滑动(padding=2),输出4×4的特征图。

图5:来自论文

图6

3.2.2 融合

由于较深层的图像感受野较大,对于局部细节的感受能力不足,故在反卷积还原图像尺寸时可以将加入较浅层的图像信息。比如图4中进行16倍上采样时,是先将第四个池化层的结果和第五个池化层的输出特征图上采样两倍的结果融合之后,再进行16倍上采样,这样输出的图片即FCN-16s。

3.2.3 结果

图5即为经过训练的卷积网络所测试的结果,可以看出随着上采样倍数的降低,分割的结果也更为清晰精确。

3.3 Dilated Convolutions

带孔卷积就是在卷积核的各个系数间根据不同的dilation rate加上不同个数的0,从而实现卷积核尺寸的膨胀。

图6是上述关于dilated convolutions论文中的一张图,分别显示了三个dilation rate不同的递进的卷积层中尺寸为3×3的卷积核对输出特征图的感受野影响。用第三层做具体说明,卷积层15×15的区域通过无洞3×3卷积核映射到13×13的区域,13×13通过dilation=2的3×3卷积核映射到一个9×9的区域,最后该9×9的区域通过dilation=3的3×3的卷积核映射到一个特征单元,说明该层卷积层输出的一个单元能够包含原始尺寸为15×15区域的信息,故该卷积层感受野RF=15。而第一层卷积核的感受野仅为3,可以看出,dilated convolutions在不经池化减小图像尺寸造成信息损失的前提下仍然扩大了感受野,同时不增加卷积核的系数,将计算量保持在一定范围内。研究结果标明,使用dilated convolutions的网络进行分割的结果更接近于真值。

4 结语

本文在卷积神经网络的基础上通过介绍全卷积神经网络和带孔卷积及其相关概念,阐述了其在图像语义分割领域上的应用,全卷积神经网络通过将全连接层转化为全连接层和反卷积等过程实现了将像素根据语义进行分割,带孔卷积通过在卷积核的系数间插入不同个数的0优化了分割效果。

参考文献

[1]成颖,史九林.自动分类研究现状与展望[J].情报学报,1999,18(01):20-26.

[2]李湘东,阮涛,刘康.基于维基百科的多种类型文献自动分类研究[J].数据分析与知识发现,2017(10).

猜你喜欢

池化语义像素
面向神经网络池化层的灵活高效硬件设计
赵运哲作品
基于Sobel算子的池化算法设计
像素前线之“幻影”2000
语言与语义
基于卷积神经网络和池化算法的表情识别研究
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊
语义分析与汉俄副名组合