APP下载

基于改进Faster R-CNN的车辆类型识别算法

2021-05-18俊,王年,朱

关键词:空洞卷积救护车

宁 俊,王 年,朱 明

(安徽大学 电子信息工程学院,安徽 合肥 230601)

随着汽车保有量的越来越多,各种交通违章行为屡禁不止,如叉车等工程车辆违规驶入市区主干道、部分车辆违规驶入禁入区域、违法占用消防通道等,这给交通安全带来了诸多隐患,也对交通监管提出了更高的要求.加强对不同类别车辆的识别管理,是未来交通管理以及封闭区域车辆管理中重要的一环.

近年来,深度学习技术得到了较大的发展,已被成功应用到图像识别、分类等方面.相较于传统方法,深度学习技术可以提取到图像中更深层次、更丰富的信息,在目标检测、图像识别等领域有着非常广泛的应用.文献[1]提出了LeNet网络对手写数字进行识别,虽然由于时代的限制,导致其对复杂问题处理的结果并不理想,但也是迈出了具有突破性的一步.目前深度网络得到了快速发展,出现了适用于处理各种问题的网络,如AlexNet,ZFNet, VGG(visual geometry group)Net, GoogleNet,ResNet等.

文献[8]基于卷积神经网络提出了R-CNN(region-convolutional neural networks)目标检测模型,通过利用卷积神经网络进行特征提取,再使用支持向量机进行分类,使mAP值有了较大的提升.但R-CNN在选择候选区域时,方法复杂且需要消耗大量时间,并不能达到实时检测的目的.在此之后,基于卷积神经网络,学者们提出了多种目标检测算法,如Fast R-CNN,Faster R-CNN,YOLO(you only look once),SSD (single shot multibox detector)等.其中SSD与YOLO都属于one-stage算法,即候选区域生成、目标识别分类、候选框位置精修等均在一个网络内完成,运行速度较快,但相对精度较差.R-CNN属于two-stage算法,分为候选区域生成和目标识别分类两大模块,虽然运行时间会有所增加,但是精度较高.

近年来,基于卷积神经网络的车辆识别方法逐渐成为研究的热点.文献[13]提高图像的上采样,结合聚类算法,提出了一种车辆检测的方法,在公开数据集上取得了较好的结果.文献[14]为了验证ResNet架构在细粒度的车辆分类任务上的有效性,在综合汽车数据集上分别训练和测试了ResNet-18、ResNet-34和ResNet-50.在不进行任何预训练、只进行空间加权池化的情况下,使得最终结果的准确度比传统的卷积神经网络方法提高了3.7%.文献[15]将双线性卷积和HashNet结合设计了Bilinear-HashNet来提高网络的细粒度特征提取能力,通过将车辆的图像转化为Hash码,再与库中保存的车辆的Hash码进行对比从而识别出图像中的车辆类型.

但上述研究主要集中在对车辆整体类别和具体车型的识别,在日常交通管理中并没有太大用处.根据日常交通管理的需求,将特种车辆类型分开进行分类识别将有助于交通管理的智能化发展.论文根据此需求,选择将车辆共分为9个类别:警用车辆、救护车、消防车辆、私家车、客车、卡车、工程车辆、两轮车和其他车辆,通过改进Faster R-CNN算法识别车辆类型.

1 相关工作

1.1 Faster R-CNN

Faster R-CNN是在Fast R-CNN的基础上提出的一个two-stage目标检测算法,其选择区域建议网络(region proposal network,简称RPN)代替selective search进行候选区域生成,RPN可以在GPU上进行计算,大大减少了图像处理的时间.图像在输入Faster R-CNN中后,先生成特征图,之后将特征图输入RPN模块中,进行候选区域的生成,随后将RPN的处理结果与特征图一起输入RoiPooling层中,进行进一步的识别分类及后续处理.但是经过实验发现Faster R-CNN应用于车辆识别时,对于警用车辆、救护车、消防车辆等特种车辆的识别准确率较低,这是由于Faster R-CNN对于多尺度信息的提取效果并不理想,于是论文通过提高感受野和对多尺度信息的重采样来对算法进行改进,旨在提升算法对于不同类别车辆识别的准确性.

1.2 VGG-16

2014年,牛津大学和Google一起研发了一个新的深度卷积神经网络VGGNet,构建了一个11~19层深度的系列卷积神经网络,证明了增加网络深度在一定程度上能够取得更好的性能.同时VGGNet的拓展性很强,在迁移学习任务中表现优异,在图像领域VGGNet模型是首选.

VGG网络具有很好的泛化性.最常见的一般是VGG-16网络,它是由13个卷积层、3个全连接层、5个池化层所构成的,其所含参数多达1.38亿.鉴于VGG网络在图像领域的优异性,论文选择VGG-16网络作为基础网络并进行修改.

1.3 空洞卷积

在神经网络中,图像输入卷积层进行特征提取,之后在池化层中进行下采样来降低特征图的尺寸,这样可以减少参数量,同时增加感受野.在图像语义分割领域中,需要生成的特征图尺寸与原图相同,所以后续还需要进行上采样(反卷积)操作,将特征图放大.这个过程就会导致大量的特征信息丢失,使得网络对于图像细节特征的处理较差.是否可以在不进行下采样的情况下也能够获得较大的感受野就成了问题的关键.文献[17]据此提出了空洞卷积(atrous convolutions),可以不降低图像尺寸并增大网络感受野,使得每个卷积输出都包含了较大范围的信息,很好地解决了这个问题.不同rate值的空洞卷积如图1所示.

图1 空洞卷积示意图

2 基于Faster R-CNN的改进模型

在该方法的车辆类型识别中,部分车辆之间存在相同的车型,如警车和私家车、救护车和私家车中的面包车、消防车辆和货车等,这些车辆之间的差异基本就在于车辆的涂装上.根据国标《GB 13954-2009》规定警车用标志灯具的光色应为红色或红蓝双色,消防车用标志灯具的光色应为红色,救护车用标志灯具的光色应为蓝色.《WS/T-292-2008 救护车》规定救护车车身须以白色为主色,车身应当标有统一的医疗急救车标志“生命之星”等.国标《GA 923-2011》中规定警用车辆在车门、车身、车前盖等区域都需要涂装警徽、警察或公安字样的涂装.该方法使用空洞卷积提高感受野,利用ASPP(atrous spatial pyramid pooling)结构提高多尺度信息的提取,来提升算法对不同尺度的特征信息的敏感性.

该文创建了一个车辆VOC(visual object classes)数据集,用于Faster R-CNN模型的训练.根据数据的特点,选用Faster R-CNN模型,使用VGG-16作为基础网络,同时引入空洞卷积和空洞空间金字塔池化(atrous spatial pyramid pooling,简称ASPP)提升算法的准确率.通过对网络模型参数的多次修改,获得了适用于车辆类型识别的改进Faster R-CNN模型.算法模型结构如图2所示.

图2为论文改进后的Faster R-CNN模型.在特征提取阶段,使用融合了空洞卷积的VGG-16网络生成特征图.生成的特征图分别输入RPN网络和ASPP模块中,在RPN模块中对特征图进行候选区域的生成.在ASPP模块中,对多尺度特征信息进行提取;之后将RPN生成的候选区域与ASPP模块输出的特征图一起输入ROIpooling层中,进行候选区域特征图的生成;最后与Faster R-CNN一样,将结果输入全连接层,进行softmax分类和bbox_pred候选区域位置回归.

图2 改进后的Faster R-CNN模型结构

该方法中的损失函数与原Faster R-CNN的损失函数相同,分为RPN的损失和Fast R-CNN的损失,并且两部分的损失都包含分类损失(cls loss)和回归损失(bbox regression loss).公式如下

(1)

(2)

Fast R-CNN的分类损失是多分类的交叉熵损失,根据训练时包含背景的类别数,设置为10.Fast R-CNN在训练时生成感兴趣区域,它的标签值为0~9,计算方式与RPN的分类损失相同.

(3)

R

为smooth损失函数

(4)

在该方法中使用空洞卷积仅作为卷积操作的变形,仅表示在空洞卷积核对应的区域进行特征值的卷积操作.该方法在VGG-16的第4,5个卷积模块中分别使用rate值为2,3,5的空洞卷积进行3次卷积操作.为了保证生成特征图的大小不变,随着空洞卷积rate值的变化也需要对pad值进行调整.如图1所示,均使用3*3的卷积核进行卷积,并且步长stride均为1.在使用普通3*3卷积核(即rate=1)对7*7的特征图进行卷积时,为了保证特征图的大小,需要在特征图周边填充宽度为1的像素点,生成的特征图大小也为7*7.而当rate值为2时,相当于使用5*5的卷积核进行卷积,此时为了保证特征图的大小必须在特征图周边填充宽度为2的像素点;同理在rate=3时,相当于7*7的卷积核,则应填充宽度为3的像素点;当rate=5时,相当于11*11的卷积核,应当填充宽度为5的像素点,所以在网络中也对相对应的pad参数进行了修改.融合了空洞卷积的VGG16网络与原网络卷积层对比如表1所示.

表1 空洞卷积的VGG-16网络结构与原网络对比

通过使用空洞卷积代替普通卷积,能够提升网络的感受野,并能在一定程度上减少局部特征信息的丢失,这样能够降低部分类别车辆之间差异特征的损失.

空洞空间金字塔池化是基于SPP(spatial pyramid pooling)的方法所提出的,该方法表明,通过对单个尺度提取的卷积特征进行重采样,可以对任意尺度的区域进行分类.其利用不同采样率的多个并行的空洞卷积层,每一个采样率提取的特征在单独的分支内进行处理,之后融合生成最终的结果.

该方法将ASPP融入Faster R-CNN中,将conv-5层输出的特征图输入ASPP结构中,使用多个尺度的空洞卷积进行重采样,让输出特征图中的神经元包含多个感受野,并对多尺度的信息进行编码,能够提升网络对于多尺度信息的提取.但是随着rate值不断地增大,空洞卷积的效果就会越来越差,因此需要设计一个合适的rate值区间,保证足够大的感受野,并且能够处理多尺度的信息.

ASPP结构使用多个尺度的空洞卷积,能够提取到不同尺度的特征信息.在该方法中,警车、救护车、消防车的标志、车灯等,目标相对较小,且不同的标志尺寸大小也不同,因此需要采用多个小尺度的卷积来进行重采样,才能够提取到足够的局部特征信息.经过多次实验论证,该方法中所使用的ASPP模块,第一个分支将对特征图进行平均池化操作,并使用1*1的卷积对特征图进行通道数的变换,其他4个分支分别使用rate值为1,3,5,7的3*3卷积核对特征图进行再采样,之后再将生成的结果进行特征融合获得最终融合了多尺度信息的特征图.ASPP结构如图3所示.

图3 空洞空间金字塔池化(ASPP)的结构

3 实验结果及分析

3.1 数据样本

基于深度学习的车辆识别方法需要从数据样本之中学习特征,因此数据集需要具有代表性,才能够更好地学习到目标的特征.为了验证该改进算法的有效性,论文使用的数据样本都是从网络上采集而来,包括文献[19-20]提出的Vehicle ReID数据集中选取的大量图片以及各汽车网、百度图片等网站下载的图像.数据集中共包含有9个种类不同类别的车辆(警用车辆、救护车、消防车辆、私家车、客车、卡车、工程车辆、两轮车和其他车辆),并且使用的所有图片的视角都是车辆前方及侧方视角.数据集共包含8 305张图像,对所有的数据集图像进行标注,制作不同类型车辆分类的数据集.数据集部分图像如图4所示.

图4 数据集部分图像展示

3.2 网络架构实验对比

论文在Faster R-CNN的模型框架下使用了ResNet-50、VGG-16和ZF网络作为基础网络,进行了对比实验,实验的对比数据如表2所示.可以发现,在Faster R-CNN的框架下,原始的VGG-16网络的整体效果要比网络略高;引入ASPP结构后,增强了算法对于多尺度信息的提取,mAP值得到了一定的提升;使用带空洞卷积的VGG-16网络提高感受野,并且引入ASPP结构时mAP值达到了93.45%,整体提升了1.53%.可见通过使用空洞卷积进行特征提取,提升感受野,并且利用ASPP结构进行多尺度特征信息重采样能够有效提升算法的识别效果.

表2 不同特征提取网络的比较

各类别车辆的mAP值对比如表3所示.由表3可知,改进的Faster R-CNN在私家车、警车、救护车、消防车4个类别的车辆上mAP值提升均超过2%,卡车上mAP值提升超过1%,其他各类别车辆的本身mAP值相对较高,略有提升.

表3 各类别车辆mAP值对比

3.3 不同算法实验对比

该节将改进后的算法分别与SPP-Net,SSD,YOLOv2和YOLOv3算法进行了对比,在使用相同的设置参数的基础上,实验结果如表4所示.可以发现改进后方法的mAP值都要略高于其他方法,其对于提高不同用途车辆的识别效果可行性较高.在one-stage算法中,YOLO系列算法相较于SSD具有一定的优势,但是YOLOv2算法对于小尺度目标信息的检测效果较差.Faster R-CNN作为two-stage算法,在检测准确率上就具有一定的优势.论文通过使用ASPP结构有效提升了多尺度信息的提取,并且使用空洞卷积提升感受野,在此基础上进一步提升了算法的效果.

表4 不同方法效果的比较

3.4 实际图片测试结果

为了证实模型性能的有效性,该方法使用660张图片对模型效果进行测试,其中小型汽车、警车、救护车、消防车、卡车每个类别各100张,另外4个类别各40张,结果如表5所示.由表5可知,各类别车辆的检测准确率均达到90%及以上,充分表明了该方法的有效性.

表5 图片测试结果

4 结束语

论文提出了一种基于Faster R-CNN的车辆类型识别算法,该算法针对数据图像的区别主要集中在一些局部特征(如警车、救护车和消防车辆与普通私家车、卡车之间的差异性集中在车辆涂装等细节区域),通过使用空洞卷积来提高感受野,增加ASPP结构增强算法对多尺度信息的敏感性,对网络进行整体优化.该方法在测试集上mAP值可达到93.45%,检测性能与泛化性能良好.

猜你喜欢

空洞卷积救护车
基于全卷积神经网络的猪背膘厚快速准确测定
基于图像处理与卷积神经网络的零件识别
为何国外救护车车头上的这个词反着写
北极上空出现罕见臭氧层空洞
基于深度卷积网络与空洞卷积融合的人群计数
更安全的红绿灯
利用瑞利波法探测地下空洞
卷积神经网络概述
空洞的眼神
救护车