基于特征融合的残差卷积网络对交通标识识别
2022-03-09陈春玮欧浩源
陈春玮 欧浩源
(广东职业技术学院,广东 佛山 528000)
1 概述
随着社会经济发展,道路交通环境日渐复杂,汽车保有率也迅速增加。截至到2021 年,全国车辆保有量接近3 亿辆,但是城市的相关配套措施与繁忙的交通的矛盾日益突出,每年的道路安全事故多达上百万件,伤亡人数10 万多,造成财产和受害者及其家属身心伤害难以估计,安全驾驶与智能交通系统显得特别重要。交通标识识别在智能交通系统中表现很重要的作用,特别是繁忙的路况和极端天气下,驾驶的注意很容易分散。交通标识识别比一般的物体识别更为复杂,因为交通标识在户外的环境变化多端,一般表现为强光、多雾、阴天等情况,除了这些环境因素,交通标识都是在驾驶中识别比一般的静止物体识别也更有挑战。
交通标识的识别中,选择合适算法去预处理图片和选择合适模型去识别,一直是这个领域重点研究两个问题[1]。早些年交通标识的识别的研究集中在机器学习、BP 神经网络、基于图像分隔统计等算法上。今年来随着深度学习在各个领域的应用落地实现,深度学习的开发框架也逐步成熟,相关研究学者也把深度学习引入智能交通等领域上,特别是自动驾驶逐渐从概念转为现实的今天,深度学习表现更为突出。
2 相关技术研究
2.1 基于模板匹配的交通标识识别的研究
模板匹配是图像处理常用的方法之一,其原理非常简单,通俗地讲就是遍历图片每一个可能的位置,通过与模板进行相似度的比较[2]。当相似度足够高时,我们认为找到了目标值。模板匹配经常用到的轮廓提取有图像的投影特征、链码特征、不变矩阵特征。特征的选择相似度会用得到欧式距离、马氏距离、Hausdorff 距离,一般的图像处理开源包会提供了6 种模板匹配算法:平方差匹配法、相关匹配法、归一化相关匹配法、归一化相关系数匹配法、归一化平方差匹配法、相关系数匹配法。一般情况下,模板匹配都要建立模板标准库。模板法缺点是前期工作大,如果图像分类种类多,算法局限表现明显。模板匹配的缺点是只能处理平移的图像,对于处理旋转和大小改变的匹配目标几乎不起作用。但是在运行的车里摄像头拍下的图像肯定是各个角度和变形的图片。
2.2 基于机器学习方法的交通标识的研究
常用于交通识别标识的机器学习方法有支持向量机(SVM),BP 神经网络。SVM 分类器是一种一般化的线性分类器[3]。SVM 分类器把特征向量映射到一个高维度的空间里处理,目的是怎么去创建一个最优的超平面在这个高维度空间里。两个平行的超平面区分样本的类别。同时,超平面的理想最优就是尽可能把它们距离拉大。BP 神经网络即具有反馈功能的神经网络,它利用误差进行反传递,然后通过不断更新权值进行训练的前馈型神经网络,也是目前使用最普遍的人工神经模型之一。BP 神经网络具备训练以及存储很多的输入与输出之间的模式,但是在算法运算之前得到它们之间的数学联系方式[4]。传统机器学习方法的局限在与图像有遮挡情况下,识别效果表现不佳,算法自适应能力弱。
2.3 基于卷积神经网络的交通标识识别的研究
深度学习用于图像识别已经成为近些年的研究热点,卷积神经网络(CNN)用以图像识别极为广泛[5]。最初的五层LeNet,最初的研究就是为了替代BP 神经网络的手写数字识别,AlexNet 比 LeNet 更深,AlexNet 模型结构整体上类似LeNet-5,都是先卷积然后全连接,但是在细节上很大不同,AlexNet 创新使用ReLU 作为激活函数替代了Sigmoid,训练时候使用Dropout 随机放弃掉一些神经元,避免过拟合。2014 年ImageNet 冠军模型VGGNet,将Top5 的错误率降低到6.67%,图像识别略差于GoogleNet,但是是物体检测等方面表现更优秀。残差网络(Residual Network)是2015 年ImageNet 比赛胜出,由何恺明等实,它使用了特殊的跳跃链接,大量使用了批量归一化。这个模型最大的区别与前几年的冠军是没有用到全连接层。最突出的特点就是网络够深,它比VGG 还要深8 倍,使用了残差有效防止梯度弥散,这样处理不会随着网络深度增加而整个模型变坏。选择合适的特征融合的残差网络用与交通标识识别是一个提高准确率的研究方向。
3 数据的预处理
3.1 数据的描述
GTRSB 数据集是德国交通标识公开数据集,目前是交通数据集中最大最全的样本数据,包含43 类5 万多的张样本图片,每个每个类的文件夹下面包含.ppm 格式图片以及对应图片label 的csv。图片包含各类不同环境的样本数据,有理想曝光的完整清晰的,也有非正常曝光的,比如雨、雪、雾、沙尘对样本影响的数据;黑暗条件下比如阴天和夜里的数据;被物体遮挡等情况。
3.2 图像直方图均衡化
直方图均衡化是将原图像通过某种变换,得到一幅灰度直方图为均匀分布的新图像的方法。直方图均衡化方法的基本思想是对图像灰度像素点进行统计,像素点多的进行展开处理,像素点少的进行缩减处理,目得就是让图像清晰。如果一幅图像的灰度直方图几乎覆盖了整个灰度的取值范围,并且除了个别灰度值的个数较为突出,整个灰度值分布近似于均匀分布,那么这幅图像就具有较大的灰度动态范围和较高的对比度,同时图像的细节更为丰富。已经证明,仅仅依靠输入图像的直方图信息,就可以得到一个变换函数,利用该变换函数可以将输入图像达到上述效果,该过程就是直方图均衡化。
3.3 图像灰度化
简单地说,灰度化处理就是将一幅彩色图像转化为灰度图像的过程。分量法、最大值法、平均值法、加权平均法是图像灰度处理的常见有四种方式。分量法是将彩色图像中的三分量的亮度作为三个灰度图像的灰度值,然后根据自己的业务场景需求选择一种灰度图。最大值法是将彩色图像中的三分量亮度的最大值作为灰度图的灰度值。平均值法是将彩色图像中的三分量亮度求平均得到一个灰度值。加权平均法是根据重要性及其它指标,将三个分量以不同的权值进行加权平均。由于人眼对绿色的敏感最高,对蓝色敏感最低,因此,对RGB 三分量进行加权平均能得到较合理的灰度图像。
3.4 图像的数据增强
数据增强的作用是增加训练的数据量,提高模型的泛化能力,增加噪声数据,提升模型的鲁棒性。随机旋转指的是旋转就是顺时针或者逆时针的旋转,输入一个0-360 的角度进行旋转。但是,旋转以后会失真,失真以后就需要用临近的数据去填补。随机缩放是图像可以被放大或缩小。放大时,放大后的图像尺寸会大于原始尺寸。大多数图像处理架构会按照原始尺寸对放大后的图像进行裁切。若是进行缩小,缩小后的图像需要对附近的空白的区域进行填补,可以用临近的数据进行填补,也可以根据情况给边界补0。随机裁剪是我们随机从图像中选择一部分,然后降这部分图像裁剪出来,空余区域进行临近数据填补或者补零。
4 模型实现与分析
本文模型先利用残差神经网络对图片进行特征提取,再将提取后的特征进行上采样。利用特征拼接三次上采样后的图形特征进行重组,达到获得更多主要特征的目的,见图1。
图1 模型结构
4.1 提取特征
本模型中先用一个卷积层对输入的图片进行特征提取,再利用三个残差提取块提取更深层的特征。残差提取块主要是让提取的特征走两条路,进行两次特征提取,第一次为一个卷积块,作用为保留基础特征;第二次为两个卷积块,为了提取出更深层的特征,最后进行特征融合,见图2。
图2 卷积块和残差提取块
特征融合是将已经提取好的特征与提纯后的特征进行拼接处理,使我们每一次训练能够获得更多有用的特征。进行特征融合需要进行特征的拼接以及特征的图像的整理,为了能同时进行,我们设置了一个特征融合块。特征融合块主要包含两层,Add、conv_1x1 块,其中的Add 层用于拼接特征,而conv_1x1 块负责对图像进行整理。conv_1x1 块,包含四层,分别为两层Conv2D、BatchNormalization、ReLU,其中起作用的两层Conv2D。
4.2 主要特征提纯
上采样块主要包含五层,UpSampling2D、两层Conv2D、BatchNormalization、ReLU,其中UpSampling2D 层进行上采样处理,利用两层的Conv2D 对filters 进行缩减,见图3。
图3 上采样块
4.3 提纯与融合模块构建
为了能更清晰的讲述清楚构建方法,步骤如下:
4.3.1 进行扩充后的特征图像:D-0;
4.3.2 进行扩充后的特征图像进行一个残差提取块后的数据:D-1;
4.3.3 进行扩充后的特征图像进行两个残差提取块后的数据:D-2;
4.3.4 进行扩充后的特征图像进行三个残差提取块后的数据:D-3;
4.3.5 进行第一上采样后的数据:UP_D-1;
4.3.6 进行第二上采样后的数据:UP_D-2;
4.3.7 进行第三上采样后的数据:UP_D-3;
4.3.8 进行第一次特征融合后的数据:AD-1;
4.3.9 进行第二次特征融合后的数据:AD-2;
4.3.10 进行第三次特征融合后的数据:AD-3。
特征的提纯就需要把重要的特征提取出来,那就需要多次提取,但在次利用卷积层进行特征提取的时候,就出现了一个问题, 图形的尺寸不再是双数了,那这时候用MAXpool2D 层时就会丢失特征,如果需要减少损失那就需要进行图象尺寸的扩充。利用ZeroPadding2D 层可以对图片进行扩充。在扩充以后就能可以进行上采样了。
上采样后的数据是从小到大进行融合的。表示我们第一次的上采样是对D-3 进行处理,处理以后获得UP_D-1。再利用UP_D-1 与D-2 进行特征融合获得AD-1。AD-1 属于融合后的数据,再次对AD-1 进行上采样获得UP_D-2,UP_D-2与D-1 进行特征融合。以此类推,一直到最后获得AD-3。最后,用卷积块将特征filters 缩减到128,接上全连接层,进行训练,见图4。
图4 融合与上采样模块
4.4 结果分析
通过分析简单的卷积神经网络和残差卷积神经网络对交通标识都表现出非常不错的准确率,我们在这个基础上进行特征融合和上采样的处理的残差卷积的准确率表现极为突出,模型也表现出极高的稳定性。如图5 到图8 是各个模型的准确率。
图5 七层残差三层上采样卷积
图6 六层残差三层卷积
图7 三层上采样卷积
图8 七层卷积
结束语
本文主要研究特征融合残差卷积对交通标识的识别,通过几种典型的卷积网络的准确率进行分析了模型的有效性。从最简单的卷积神经网络到上采样的卷积神经网络,再到不同层的特征融合的残差上采样的卷积,不断从各个维度去提高准确率。在后续的研究中,要在特征融合改进基础上作为基本网络。