APP下载

融合批规范化编解码网络架构的道路分割

2018-07-18王亚蕊王啸宇

现代计算机 2018年18期
关键词:编解码卷积规范化

王亚蕊,王啸宇

(1.上海海事大学电子信息系,上海 201306;2.合肥工业大学电子通信系,合肥 230009)

0 引言

道路分割是无人车视觉导航的基本功能之一,在无人汽车行驶过程中,其视觉导航中的摄像头对车辆前方场景进行图像采集,并根据采集的图像信息,规划路径并控制车辆运动,在结构化或非结构化道路环境下完成行驶任务。无人汽车导航系统也可以自学习、自适应,从而使无人驾驶汽车能够安全、可靠地在道路上行驶[1-2]。

近几年来,基于深度学习的语义分割框架开始应用于道路分割中,在转换的框架中,输入图像经过一次或者多次的卷积、池化、激活计算处理后,得到图像的一系列高、中、低级别特征,接下来把得到的这些特征送入分类器,打上“道路”或者“非道路”的标签[3-5]。传统的基于卷积神经网络的语义分割算法对图像进行像素分类时,一般采用邻近像素图像块作为卷积神经网络层的输入,学习像素到像素的映射,端到端的映射,从而对图像进行训练、预测[6-9]。然而,这种方式精确度小、细节敏感度低,2015年,Vijay等人提出了最大池化指数,并将其转移到图像解码器中,改善了图像语义分割的分辨率[10]。Fisher Yu等人使用了一种可用于密集预测的卷积层-空洞卷积,在图像多尺度聚集的条件下使用空洞卷积的背景模块[11-14]。在自动驾驶开始大热的2016年,Liang-Chieh Chen等人在Vijay等人的研究基础上,使用空间卷积和全连接条件随机场,在空间维度上实现了金字塔形的空洞池化[15]。

然而,这些方式存储开销大、计算效率低、像素块的大小限制了感知域的多少,而且在深层网络中,就单层而言,每一层的输入时前面所有层的输出,这个输出往往是不稳定的,它会随着前一层参数迭代的更新而发生变化,因此,学习率的选择和参数的初始化尤其重要,大量的改善问题还亟需解决[13,15-17]。

针对深层神经网络训练过程中,每一层都需要学习一个变化的数据分布,模型参数选取不稳定、调优难度大的问题,本文选取VGG16网络和FCN32网络模型分别组成道路分割的编解码架构[18],在每层卷积计算后加入批规范化计算[19],学习一个比较稳定的参数数据分布。在KITTI数据集上的道路数据集实验,结果表明本文设计的编解码网络架构对无人车驾驶领域的可行驶区域检测、分割有着较高的鲁棒性。

1 网络模型的批规范化

批规范化和卷积神经网络中的“白化”思想接近,在神经网络的训练过程中,深层神经网络在做非线性变换前的激活输入值会随着网络深度加深,它的数据分布会发生偏移、变动,数据的整体分布也会趋向于靠近非线性函数取值的上下限两端,从而导致在深层神经网络在后向传播时低层神经网络的梯度消失,这也是训练深层神经网络收敛越来越慢的本质原因[19,21-23]。

1.1 批规范化的基本流程

基于对数据分布的不同假设,通过人为对代价函数的设计,神经网络对样本数据的学习本质上就是一个优化过程,而在神经网络模型中,低层网络在训练的时会时长自动更新参数,从而引起后面层输入数据分布的变化,导致神经网络训练复杂、耗时、难以拟合。为了克服深度神经网络难以训练的弊病,Google于2015年提出批规范化的概念,通过mini-batch来规范化某些层的输入,固定每层输入信号的均值和方差来解决这种“梯度弥散”的问题[19]。

图1 批规范化的基本流程

批规范化的基本流程如图1所示,首先对输入样本的特征变量进行标准化处理得到x,降低特征变量间的差异性,减少错分样本对数据的干扰。标准化后的x经过W1的线性变换后得到s1,然后依次处理得到第二层结果s2,表达式如下:

1.2 批规范化结果分析

图2展示了批规范化操作前后每一层输出值的数据分布结果,可以明显看出,没有采用批规范化操作的时候,每层的输出值迅速全部变为0,也可以说,所有的神经元都已经“死亡”了,而对每一层的输出采用批规范化后,每层的值都能有一个比较好的分布效果,大部分的神经元还活着。

图2 批规范化操作前后每一层输出值的数据分布

2 融合批规范化编解码结构的道路分割

K.Fukushima等人提出CNN的输入是图像,输出的结果为一个概率值,早期的语义分割方法利用CNN的固有效率来实现隐式的滑动窗口[24]。而Jonalthan等人提出用于语义分割的FCN学习的是像素到像素的映射,其输入为一张图像,输出也是一张图像。它可采用端到端的方式训练深度学习通道,来建模语义分割任务,与残差网络相结合的技术是目前最先进的技术[8]。

本文采用的道路分割基础架构如图3所示,编码器部分由VGG16网络的卷积层和池化层组成,采用13层卷积层输出的结果,其中,每层卷积层的输出部分都做批规范化处理,使每层神经网络任意神经元输入值的数据分布转化为标准正态分布,从而使激活值落在非线性激活函数对输入值比较敏感的区域,这样激活的输入值较小变化就会导致损失函数较大的变化,避免梯度消失问题产生,大大加快训练速度,也增加了分类效果。

图3 基于编解码架构的自适应道路分割模型

解码器部分采用全卷积网络对图像进行语义分割将VGG16解构的剩余3层全连接层转化为1×1卷积层,产生尺寸较小的低分割分辨率图像,其后采用3个反卷积层执行上采样。然后加上一些较低层的高分辨率特征,这些特征经过1×1卷积层处理,然后加到部分上采样结果中,从而得到我们最终的输出结果。

3 实验结果与分析

本文实验验证环境:Ubuntu16.04,内存8GB,Python版本2.7,TensorFlow版本1.3。

本文的实验数据取自KITTI数据集上的道路场景数据[20],图4显示了融合批规范化编解码网络架构的道路分割结果,可以明显看出融合批规范编后解码网络结构模型对阴影和大小尺度的车辆等障碍物有着更好的分割效果。

图5为本文提出的网络模型的实验效果评估结果。表1为本文实验结果与截止到目前KITTI分割结果最优的前五名的对比效果。

4 结语

本文采用基于编解码架构模型的道路分割算法框架,并在每一层卷积计算加入批规范化计算,从而增强模型了训练过程中参数调优的稳定性。与KITTI道路分割数据集评估对比效果印证了本文所提融合算法的优越性。

图4 融合批规范化的编解码网络结构的道路分割结果图

图5 实验效果评估结果

表1 KITTI Road分割结果部分对比

猜你喜欢

编解码卷积规范化
论中医住院医师规范化培训中的六个关系
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
如何做好建筑工地规范化安全管理
谁“捆住”基层的手脚?——泛滥的规范化和标准化
为多重编解码世界做好准备
大型民机试飞遥测视频编解码方法研究
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
网络电视视频编解码主流标准对比