APP下载

基于多任务级联卷积神经网络的交通标志检测

2022-02-15王弘宇张雪芹

计算机工程与设计 2022年1期
关键词:交通标志级联特征提取

王弘宇,张雪芹

(华东理工大学 信息科学与工程学院,上海 200237)

0 引 言

传统的交通标志检测方法大多是基于形状特征和颜色特征的方法,易受限于光照、天气等自然因素或交通标志损坏、遮挡等人为因素影响,而且检测模型的性能大多依赖于人工提取特征的好坏。近年来交通标志的检测任务大多使用基于深度学习的方法,如YOLO[1]、SSD[2]系列和R-CNN[3]系列的检测网络。Rajendran等[4]在YOLO V3检测框架中使用特征金字塔网络(FPN)提高针对小目标交通标志的检测精度,在德国交通标志数据集(GTSDB)上mAP可达92.2%。Dongtao等[5]通过去除原SSD算法中的高层特征图,调整低层特征图的长宽比,在较低层分布更多的锚框来丰富交通标志场景图中的精细特征提高检测精度,mAP为75.28%。Roubil等[6]将改进后的Inception v3模型作为Faster R-CNN的特征提取器以提高对交通标志小目标的检测效果,mAP为92.99%。周等[7]引入浅层特征提取、深层特征提取和HyperNet复杂特征融合模块对PVANet网络进行改进,提高小目标交通标志的检测精度,mAP为84.1%。Cheng等[8]针对交通标志小目标漏检问题,提出设计局部上下文层获取交通标志周围区域信息,从而提高小目标的检测精度,mAP最高为89.1%。Cen等[9]在基于视频的交通标志检测任务中,为提高对小目标检测的精度,改进了特征生成器的模型,mAP为86%。上述方法验证,改进检测模型的特征提取网络和锚框搜索机制可以有效提高检测精度和分类效果。

上述检测网络均采用基于锚框检测的方法,在离散的图像空间中预先人工定义一组固定的长宽比不同的锚框以适应具体应用场景,但无法准确检测到摄像机拍摄到的形状畸变的数据,应用场景切换时需重新设计锚框。同时,这些方法需生成大量且密集的锚框,增加了计算成本。针对以上问题,本文提出基于Cascade R-CNN级联检测算法改进的GA-CMF R-CNN模型,采用ResneXt101(32×4d)作为特征提取网络,采用GA-RPN生成自适应且稀疏的锚框,引入级联的mask分支对目标所在区域进行语义分割。提高了复杂环境下小目标交通标志的检测精度。

1 算法介绍

1.1 Cascade R-CNN 检测网络

Cascade R-CNN是由Z. Cai等[10]提出的一个端到端的检测网络,它通过级联几个检测网络达到不断优化预测结果的目的。Cascade R-CNN由特征提取网络(backbone)、区域生成网络RPN(region proposal network)和级联的检测网络构成。其backbone采用Resnet101-FPN网络,用于对输入图像进行特征提取,RPN基于图像特征预测锚框(anchor)的形状和位置,级联的检测网络的每一级(stage)包含分类分支C和回归分支B,通过把级联回归作为重采样的机制,使每一级的输出都能被下一级使用,从而解决两阶段检测网络预测的候选区域(region proposal)质量低的问题。通常,Cascade R-CNN的检测模型在基于不同IoU阈值确定的正负样本上训练得到。

1.2 GA-CMF R-CNN多任务级联模型

1.2.1 网络结构

为实现复杂场景下小目标交通标志的高精度检测任务,本文提出一个基于Cascade R-CNN的多任务的级联网络模型GA-CMF R-CNN,网络结构如图1所示。

图1 GA-CMF R-CNN多任务级联模型

在交通标志检测问题中,GA-CMF R-CNN模型的输入数据I为自动驾驶前置摄像头捕捉到的交通驾驶场景图像。与Cascade R-CNN不同的是,该模型采用ResneXt101(32×4d)-FPN代替Resnet101-FPN作为特征提取网络,采用GA-RPN代替RPN作为区域生成网络。通过在级联结构的检测网络中加入mask分割分支,并在级联的每一级的mask分支间引入信息流,使mask分支的特征信息得以逐层调整从而提高对小目标交通标志的检测精度。

1.2.2 backbone特征提取网络

backbone为特征提取网络,输入为任意大小的图像,经卷积神经网络输出固定比例尺寸的特征图。Cascade R-CNN 中backbone使用Resnet101网络,为了进一步提高对小目标的特征提取能力,本文采用COCO数据集上预训练的ResneXt101(32×4d)残差网络模型[11],结合特征金字塔网络(FPN)的结构,如图2所示。

图2 backbone网络结构

图2中,自下而上的路径即指卷积神经网络的前馈计算过程, {C2,C3,C4,C5} 是ResneXt101(32×4d)残差网络conv2、conv3、conv4和conv5这4个阶段的输出。FPN自上而下的路径可以看作执行次数较少的二倍上采样过程,在像素点之间采用内插值法使得各层上采样后的特征图尺寸相同。通过横向连接,即对卷积神经网络中生成的对应层的特征图进行1×1的卷积操作,将自下而上生成的特征图和二倍上采样得到的结果相融合,最后用3×3的卷积核对每个融合结果进行卷积以消除当前层的混叠效应,得到对应的生成特征 {P2,P3,P4,P5}。

1.2.3 GA-RPN

Cascade R-CNN目标检测网络依赖区域生成网络RPN产生固定尺寸比例的锚框,通过训练和预测得到含有目标信息的候选区域。RPN通常需要依靠生成密集的先验框来提高召回率,并且在检测任务中需根据交通标志的大小来人工预设锚框的尺度和长宽比。考虑交通标志具有大小不均匀且稀疏的特点,本文提出使用GA-RPN生成稀疏且形状任意的先验框从而提高模型性能。

(1)

(2)

图3 GA-RPN网络结构

1.2.4 mask分支及其信息流

通常mask分支用于对目标所在区域进行语义分割。为了提高检测精度,同时输出检测和分割结果,在Cascade R-CNN网络的每一级中引入mask分支M,并在不同级的mask分支间引入信息流,使mask分支的特征信息得以逐层调整,通过将每一级的mask特征嵌入并馈送到下一级以提高mask分支的预测结果,进而提高检测精度。

(3)

M分支间的信息流设计如图4所示。

图4 Mask分支结构

级联mask分支间的信息流可表示为

(4)

1.2.5 GA-CMF R-CNN模型损失函数

GA-CMF R-CNN网络的训练损失函数如下

(5)

(6)

(7)

1.2.6 GA-CMF R-CNN算法实现流程

设模型输入图像为I,GA-CMF R-CNN算法步骤如下:

步骤1 输入任意大小的图像I;

步骤2 图像I通过由ResneXt101(32×4d)-FPN特征提取器输出图像特征FI;

步骤4 通过池化层pool的区域特征提取操作,整合GA-RPN的输出的anchor和预测特征图F′I及图像特征FI,获得目标区域特征图;

步骤5 级联实例分割网络对目标区域特征图进行分类和边界框的回归以修正anchor,mask分支对交通标志进行分割操作;

步骤6 输出交通标志检测和分割结果。

2 实验及分析

2.1 数据集与评价指标

2.1.1 德国交通标志数据集

实验数据集使用GTSDB Dataset。GTSDB Dataset 是一个针对交通标志检测的数据集,用于对计算机视觉,模式识别和基于图像的驾驶员辅助领域的单张图像进行检测评估。该数据集由包含1206个交通标志的900张完整图像组成,图像大小为1360*800,交通标志尺寸为16×16到128×128不等。每张图像中都包含0个或多个交通标志。标志分为4个大类别,即强制类、禁止类、危险类和其它类。根据重要性,本文只检测前三大类。数据集内含有白天和黄昏和多种气候条件下,不同类型道路(高速公路、农村、城市)的交通场景图片。图5数据展示了阴天、强光、逆光和复杂街道背景条件下的驾驶场景。

图5 GTSDB数据集图片样例

实验将数据集分成训练集和测试集,其中600张作为训练集(846个交通标志),300张作为测试集(360个交通标志)。训练集包含396个违禁类(59.5%),114个(17.1%)强制类和156个(23.4%)危险类交通标志样本,测试集包含161个禁止类,49个强制类和63个危险类交通标志。实验根据交通标志的大小将其分为大、中、小3类,尺寸小于32像素定义为小目标,大于32像素小于46像素定义为中目标,大于46像素定义为大目标。

2.1.2 评估指标

实验采用的评估指标如下:

(1)召回率R(Recall)和平均召回率AR(Average Recall)

式中:TP为真正例(true positives),FN为假阴例(false negatives)。AR即计算测试N张图片召回率的均值。

(2)平均精度AP(average precision)和平均精度均值mAP(mean average precision)根据PASCAL VOC2010标准

式中:P为检测精度,r是检测N张图像的召回率,N为测试集中所有图片的个数,P(K)表示检测k张图片的精度值,Δr(k)表示调整IoU阈值后,检测图片个数从k-1变化到k时召回率r的变化情况,mAP即计算AP的均值。

2.2 实验结果及分析

以在COCO数据集上训练的ResneXt101(32×4d)作为预训练模型,基于迁移学习训练GA-CMF R-CNN 模型。实验中,GA-CMF R-CNN算法采用SGD随机梯度下降优化器对模型进行训练。根据实验环境配置,默认学习率lr=0.0025, 动量因子momentum=0.9,权重衰减因子weightdecay=0.0001,批大小batchsize=1。学习率优化策略采用warmup的方法,即设置起始学习率lr=1.0/3,warmupiters=500 (初始的500次迭代中学习率线性增加)。其中实验一、实验二和实验三训练epoch=24,设置在epoch为16和23时自动调整学习率。实验四epoch=12,在epoch为8和11时自动调整学习率。

实验运行在装有Intel Core i7-7700 CPU和NVIDIA GEFORCE GTX 1070 GPU的电脑上,该GPU具有1920 CUDA内核。

2.2.1 实验一:消融实验

本实验的目的是为了验证GA-CMF R-CNN模型每个改进部分的有效性。实验在GTSDB数据集上进行,实验结果见表1。

表1中,模型1~模型4的backbone采用Resnet101-FPN(标识为*),模型5的backbone采用ResneXt101(32×4d)-FPN(标识为**)。APL、APM和APS分别代表大、中和小3类目标的AP值,APP、APMA和APD分别表示对禁止类、强制类和危险类三大类目标的AP值。

从表1可以看出,Cascade R-CNN网络加入mask分支、mask分支信息流和GA-RPN后,模型对大、中、小目标的检测精度,对强制、禁止和危险类的识别精度均有所提升。其中,加入mask分支后,对大、中和小目标的检测精度分别提高了6.8%、1.2%和1.9%;加入GA-RPN后,对大和小目标的检测精度分别提高了0.7%和9.5%,采用ResneXt101(32×4d)-FPN后,对数据集中占比较少的强制类和危险类的检测AP值分别提高了3.64%和3.46%。可见,改进模型的各部分对检测精度的提高均有效。

表1 在GTSDB数据集上的消融实验结果/%

2.2.2 实验二:参数实验

backbone网络作为特征提取网络,其特征提取的优劣对后续检测结果影响很大。由于实验采用的GTSDB数据集的训练图像仅有600张,为防止训练时产生过拟合问题,采用基于共享参数的迁移学习方法对backbone为ResneXt101(32×4d)-FPN的GA-CMF R-CNN网络模型进行调参,保证模型具有较快的收敛速度。

ResneXt101(32×4d)网络在COCO数据集上预训练,并将预训练过的模型参数及权重迁移至GA-CMF R-CNN 模型中。采用frozen stages方法固定ResneXt101(32×4d)网络的conv层参数。frozenstages为-1代表参数完全传递,frozenstages为1,2,3分别代表固定ResneXt101(32×4 d)卷积神经网络的前C2,C3和C4层的参数,后面的参数值随机初始化进行训练。实验结果见表2。

表2中fps和Memory分别代表检测速率和内存消耗。表2显示,当frozenstages设置为1时,GA-CMF R-CNN模型的检测效果最佳,检测速度和模型对Memory的大小需求适中。因此,后续实验取frozenstages=1。

2.2.3 实验三:对比实验

本实验将所提GA-CMF R-CNN模型与文献[13]中的R-FCN、Faster R-CNN、YOLO V2和SSD网络进行对比。其中,R-FCN和Faster R-CNN检测框架的backbone为Resnet 101,SSD检测框架的backbone采用Inception V2。实验结果见表3。

从表3看出,本文所提的GA-CMF R-CNN模型无论是针对大、中和小交通标志,还是禁止类、强制类和危险类交通标志,其检测精度均高于对比模型。特别是相较于一阶段网络YOLO V2和SSD,mAP分别提高19.3%和32%;对小目标交通标志,检测精度分别提升50.7%和66.8%。相较于二阶网络Faster R-CNN、R-FCN,mAP有3%左右的提升;对小目标交通标志,检测精度分别提升22.8%和33.3%检测精大幅提升。在检测速度上,SSD、Faster R-CNN和R-FCN以及本文所提算法均未达到实时检测要求;YOLO V2尽管可以达到实时检测效果,但其检测精度偏低。考虑不同于无人或辅助驾驶中,行人和车辆等检测任务是为了实现及时避障,对实时性有着很高的要求。小目标交通标志检测,通常是辅助行驶车辆在较远距离逼近目标过程中识别出道路指示。在该任务中,高精度识别目标相比实时检测更为重要。因此,本文所提算法满足小目标交通标志的检测要求。综合考虑,本文所提的GA-CMF R-CNN模型具有较好的性能,尤其对复杂驾驶环境中的小目标检测,精度大幅提升。

表2 不同frozen stages下模型检测结果/%及其性能参数

表3 在GTSDB测试集上的对比实验结果/%

2.2.4 实验四:CCTSDB数据集上的实验

GTSDB Dataset数据集样本数量较少,为了进一步验证本文所提方法的有效性,本实验在CCTSDB[14]数据集上验证并评估。CCTSDB是中国交通标志数据集,包含图片近15 000张、交通标志近60 000个,分为指示标志、禁令标志和警告标志三大类。通过放射变换、椒盐噪声、平移缩放及亮度等图像变换方法对有限的图像进行处理,以模拟摄像机拍摄到的真实驾驶场景。实验中,图像经处理大小为1360*800,采用和GTSDB数据集相同的方法将交通标志定义为大、中、小3类,训练集包含15 723张图像,测试集包含400张图像。实验结果如图6所示。

图6给出了GA-CMF R-CNN模型在指示标志、禁令标志和警告标志3种类别,以及大、中、小3种尺寸交通标志上的检测结果。可以看出,AP值均接近98%,并测得其mAP值为98.8%。进一步验证了GA-CMF R-CNN检测模型的有效性,同时说明该模型适用于中国交通标志的检测任务,具有普适性。

为了进一步展示GA-CMF R-CNN模型对小目标交通标志检测的效果,下面给出部分在复杂多变驾驶场景下对小交通标志检测效果图,如图7所示。

图6 CCTSDB数据集测试各大类的平均精度值

图7中,图7(a)~图7(c)分别为GTSDB数据集中城市、乡村、高速公路下小目标交通标志检测结果。图7(d) ~图7(f)分别为CCTSDB数据集中城市、乡村、高速公路下小目标交通标志检测结果。图7(g)~图7(i)分别为阴暗模糊环境下的小目标交通标志检测结果。可以看到,GA-CMF R-CNN模型能适用于各种较复杂环境下的检测。

图7 小目标交通标志检测效果

3 结束语

本文针对自动和辅助驾驶中小目标交通标志高精度检测问题,提出一个基于Cascade R-CNN级联检测网络的GA-CMF R-CNN多任务级联检测模型,该网络在级联检测网络中加入了级联分割分支,并引入信息流,采用ResneXt101(32×4d)和GA-RPN作为网络模型的特征提取网络和区域生成网络,实现了对交通标志检测精度,尤其是小目标交通标志检测精度的提高。未来,可进一步考虑优化该模型框架以提高检测的速度。

猜你喜欢

交通标志级联特征提取
铀浓缩厂级联系统核安全分析
基于双向特征融合的交通标志识别
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
富集中间组分同位素的级联
—— “T”级联
基于Daubechies(dbN)的飞行器音频特征提取
交通标志小课堂
我们欢迎你!
整体级联式增压空气冷却器的进气模块