基于Faster R-CNN的交通标志检测方法
2019-02-12王铭杰
摘 要:文章提出了一种基于Faster R-CNN的交通标志检测方法。首先,通过采集公路两侧交通标志的图像建立数据集;其次,使用预训练的VGG16对Faster R-CNN模型的相应参数进行初始化;最后,对Faster R-CNN模型进行训练。实验表明,其mAP可达81.21%,可以满足实际需求。
关键词:Faster R-CNN;VGG16;交通标志检测
伴随着经济的发展,汽车的普及率也在逐渐提高,人们越来越关注汽车驾驶的安全性和舒适性。汽车辅助驾驶技术可在一定程度上提高汽车驾驶的安全性和舒适性,其中,对交通标志进行检测的技术是辅助驾驶技术的一个重要组成部分,可以在检测到交通标志时及时提醒驾驶员,降低违规率、提高汽车行驶安全性,同时也可在一定程度上减轻驾驶员的疲劳。
目前对物体进行检测的方法中,检测精度最高的是基于两阶段法所提出的方案,较为常用的是Fast R-CNN[1]和Faster R-CNN[2],是在Fast R-CNN的基础上改进而来的。相对于Fast R-CNN而言,Faster R-CNN不仅有更高的检测精度,而且拥有更快的检测速度。本文选用Faster R-CNN来对交通标志进行检测,并重新确定了超参数,以更好地在交通标志数据集上训练Faster R-CNN模型。
1 试验数据
1.1 数据采集
本文的交通标志数据于2019年6—8月采集自太谷县及其周边市县的公路。用红米note7手机作为采集设备,从不同车道和距离对交通标志进行采集,所获得的原始图像分辨率为4 000×3 000像素。图像数据中包含不同光照强度以及不同天气下的交通标志图像。
1.2 数据集建立
本次试验共采集交通标志图像5 997张,其中,单个警告标志701张、单个禁令标志636张、单个指示标志791张、单个指路标志737张、单个其他标志529张以及多个标志混合2 603张。为便于后期模型的训练,需减小图像的像素,将图像缩放为800×600像素。利用LabelImg来标注图像中交通标志的位置和所属的类别,最后从图像中随机抽取1 199张作为测试集用以对训练后的Faster-RCNN进行客观评测。
2 检测方法
2.1 Faster R-CNN模型
Faster R-CNN由特征提取网络、区域生成网络(Region Proposal Network,RPN)和RoI Head(region of interests Head)3部分构成。
特征提取可由诸如VGG[3],Resnet和Inception等图像分类网络来实现,本文选用VGG16作为图像的特征提取网络。VGG16有13个卷积层,5个池化层,3个全连接层,使用其第一层至最后一个卷积层所构成的网络作为骨干网络,即Faster R-CNN的特征提取网络。另外,经预训练的VGG16的前两个全连接层可用于对RoI Head中的前两个全连接层进行参数初始化。
RPN包含一个3×3卷积和两个1×1卷积,其中一个1×1卷积用来判断锚框区域是否为前景,另一个1×1卷积用来对锚框的位置进行回归。判断时先选取与每个真实边框交并比最大的锚框作为正样本,然后随机抽取交并比大于0.7的锚框作为正样本,同时随机抽取交并比小于0.3的作为负样本,保证正负样本数量都为128个,最后计算损失并训练。RPN除完成自我训练外还需输出感兴趣区域(Region of Interests,RoIs)。本文的具体做法为对10 000个最有可能包含前景的锚框进行位置回归,使用非极大值抑制法得到1 000个候选框输出给RoI Head。
RoI Head从1 000个候选框中随机抽取不超过32个与真实边框交并比大于0.5的候选框作为正样本,然后随机抽取与真实边框交并比在0.1~0.5之间的候选框作为负样本,要求正负样本数量总共为128个,之后对这128个候选框所对应的特征图区域进行池化操作,使其尺寸全部池化为7×7,以便后续使用全连接层。本文的Faster R-CNN最后两个全连接层为FC6和FC24,FC6输出候选框对应区域所属的类别,FC24输出候选框的回归参数。
2.2 锚框
本文中特征提取网络输出的特征图每个点分别对应9种锚框,映射到原图的像素大小分别为128×128,90×181,181×90,256×256,181×362,362×181,512×512,724×362和362×724像素。对于800×600像素的数据集图像,每幅图像生成的锚框数为16 650个。
3 实验
3.1 训练设置
本文使用迁移学习来训练Faster R-CNN模型,首先,使用在ImageNet数据集上预训练的VGG16网络参数初始化Faster R-CNN的相应参数,并对参与训练的图像进行数据增强,训练前设置一幅图像为一个批次,初始学习率为0.000 3,分别在迭代至1 200 000次和1 600 000次时将学习率乘以0.1,优化器采用随机梯度下降算法(Stochastic Gradient Descent,SGD),动量设为0.9。
3.2 识别结果
使用测试集对经训练的Faster R-CNN模型进行测试,最终测得该模型的mAP可達81.21%,在测试集中检测的部分结果如图1所示,其中,war_s为警告标志(warning sign),pro_s为禁令标志(prohibitory sign),man_s为指示标志(mandatory sign),gui_s为指路标志(guide sign),res_s为其他标志(residual sign),由图1可知,本文所提出的检测模型能对交通标志进行准确而有效的检测。
4 結语
本文以交通标志为研究对象,提出了基于Faster R-CNN的交通标志检测模型。该模型利用VGG16网络实现对交通标志图像的特征提取,最后依靠Faster R-CNN中的RPN和RoI Head完成对交通标志的检测。该模型的mAP可达81.21%,满足辅助驾驶系统对交通标志检测任务的要求,另外,可用于交通监控、道路网络的维护和交通场景分析等实际领域。
作者简介:王铭杰(1986— ),男,山西长治人,讲师,硕士;研究方向:机器学习。
[参考文献]
[1]GIRSHICK R.Fast R-CNN[C].Washington:The 2015 IEEE Conference on Computer Vision and Pattern Recognition,2015.
[2]REN S,HE K,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2017(6):1137-1149.
[3]SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for Large-Scale image recognition[J].Computer Science,2014(5):1409-1556.
Traffic sign detection method based on Faster R-CNN
Wang Mingjie
(College of Information Science and Engineering, Shanxi Agricultural University, Taigu 030801, China)
Abstract:In this paper, a method based on Faster R-CNN for traffic sign detection is proposed. First, the data set is established by collecting the images of traffic signs on both sides of the highway, then the corresponding parameters of the Faster R-CNN model are initialized with the pre-trained VGG16, and finally the Faster R-CNN model is trained. The test shows that the mAP can reach 81.21%, which can meet the actual demand.
Key words:Faster R-CNN; VGG16; traffic sign detection