用于交通标志检测的窗口大小聚类残差SSD模型

2019-12-10宋青松王兴莉张超陈禹宋焕生KHATTAKAsadJan

湖南大学学报·自然科学版 2019年10期

宋青松王兴莉张超陈禹宋焕生 KHATTAK Asad Jan

摘要：SSD通常被认为适合于求解小目标图像检测问题，但在特征表征和检测效率两方面还存在改进空间.提出一种聚类残差SSD模型，一方面将原始SSD模型中的VGG16基础网络替换为更深的ResNet50残差网络，以改善特征表征能力.另一方面采用K-均值聚类算法取代盲目搜索机制，确定SSD中默认窗口的大小，以改善检测效率.针对德国交通标志检测数据集，模型获得了97.1% mAP和每幅图像0.07 s的检测速度.针对中国交通标志数据集，模型获得89.7% mAP和每幅图像0.08 s的检测速度.与原始SSD模型比较，本文所提模型的检测性能得到改善.

关键词：交通标志检测;深度学习;单拍多盒探测器（SSD）;K-均值;聚类

中图分类号：TP391.4 文献标志码：A

A Residual SSD Model Based on Window

Size Clustering for Traffic Sign Detection

SONG Qingsong，WANG Xingli，ZHANG Chao？覮，

CHEN Yu，SONG Huansheng，KHATTAK Asad Jan

（School of Information Engineering，Changan University，Xian 710064，China）

Abstract：Single Shot MultiBox Detector （SSD） is generally considered to be suitable for solving small target detection in images. However，its performance on feature extraction and detection efficiency is still required to be improved. A clustering residual SSD model is proposed in this paper. On one hand，in order to improve the feature extraction quality，the basic network VGG16 which consists of the original SSD model is replaced with a deeper residual network ResNet50. On the other hand， in order to improve the detection efficiency， K-means algorithm other than the blind search mechanism used in the original SSD model is exploited to find and determine the assignments of the sizes of default windows. For German traffic sign detection dataset， it obtains 97.1% mAP in detection accuracy and 0.07 s per image in detection efficiency. For Chinese traffic sign dataset， it obtains 89.7% mAP in detection accuracy and 0.08 s per image in detection efficiency. Compared with the original SSD model， the proposed model obtains the improved detection performance.

Key words：traffic sign detection;deep learning;Single Shot MultiBox Detector （SSD）;K-mean;clustering

交通标志的检测与分类是智能驾驶领域重要研究课题之一.传统的方法多为基于候选区域和分类器的两段式分类检测方法.首先，使用滑动窗口选定图像的某一区域作为候选区域;针对选定的候选区域提取诸如HOG（Histogram of Orientated Gradient，HOG）、Haar、SIFT（Scale-invariant feature transform，SIFT）、LBP（Local Binary Pattern，LBP）等[1-4] 特征. 然后，使用随机森林（Random Forest，RF）、支持向量机（Support Vector Machine，SVM）、Adaboost等[5-9]分类算法对提取的特征进行分类，得出该候选区域的检测结果. 文獻[9]以图像中交通标志的颜色、形状、空间位置等作为特征，使用Adaboost算法训练决策树模型，以此生成候选区域;之后使用SVM给出候选区域的类别，这是一种典型的两段式分类检测方法.该类方法在候选区域的选取上往往存在盲目性，同一图像会生成数以千计的候选区域，难以满足实时性要求;同时人工提取的特征通常难以很好地表征图像，影响检测准确率.

文献[10]提出区域卷积神经网络（Region CNN，R-CNN），使用特征表征能力强的卷积神经网络（Convolutional Neural Networks，CNN）[11]提取候选区域的特征，检测准确率得到了很大的提升. 文献[12]首先使用全卷积网络（Fully Convolutional Network，FCN）[13]分割出交通标志候选区域，然后使用CNN对候选区域进行分类.该类方法本质上仍然是两段式的分类检测方法，在检测实时性方面改善有限.

YOLO算法[14]将图像网格化，生成一组默认窗口，进而在该组默认窗口中心区域检测目标，由于不依赖候选区域，YOLO算法在检测实时性方面取得了巨大的突破;但分类层使用的特征尺度单一，在检测准确率方面没有獲得显著提升.图像金字

塔[9，15]和多尺度特征往往有利于模型性能的提升.文献[15]使用图像金字塔进行交通标志检测并取得一定效果. SPP-Net[16]、FPN[17]等算法将多尺度特征加入到分类决策层，有效提升了检测准确率.文献[18]提出的SSD在一定程度上综合了YOLO算法的默认窗口生成机制和FPN使用的多尺度特征融合思想，在检测速度和准确率方面都取得了良好的提升，但对于交通标志小目标的检测问题，在特征表征和检测效率两方面还存在改进空间.

针对交通标志小目标检测问题，本文提出一种聚类残差SSD模型，一方面将原始SSD模型中的基础网络替换为ResNet50[19]，提升特征表征能力;另一方面，引入K-均值聚类算法取代默认窗口的随机生成机制，改善检测效率.实验结果表明，所提模型能改善交通标志小目标的检测性能.

1 模型结构

本文所提算法整体流程如图1所示.首先对数据进行预处理，扩充训练样本;然后对模型依次进行预训练和微调，微调过程中引入K-均值聚类算法实现窗口大小的启发式生成，克服原始SSD模型窗口生成机制具有内在盲目性这一缺陷;最后对模型检测性能进行评价.

■

图1 算法整体流程图

Fig.1 Flow chart of algorithm

1.1 原始SSD模型

原始SSD是以VGG16[20]为基础网络，额外再依次堆叠5个卷积模块构成的一种深度CNN模型，共有25个卷积层和5个最大池化层. 输入为512×512像素图像，其中5个最大池化层将基础网络VGG16分隔为6个部分，前5个部分每部分包含卷积层的个数分别为2、2、3、3和3，即卷积层1～13，包含的卷积通道数分别为64、128、256、512和512. 前13个卷积层卷积核大小均为3×3，卷积跨度均为1. 最大池化层的池化窗口为2×2，跨度为2. 第6个部分有两层卷积（卷积层14、15），卷积层14的卷积核大小为3×3，卷积通道为1 024. 卷积层15的卷积核大小为1×1，卷积通道为1 024.

5个额外堆叠的卷积模块中每个模块都有2层卷积（卷积层16～25），第1个模块第1层卷积（卷积层16）的卷积核大小为1×1，第2层卷积（卷积层17）的卷积核大小为3×3. 卷积层16和17的跨度分别为1和2，通道数分别为256和512. 第2、3、4个模块的第1层卷积（卷积层18、20和22）的卷积核大小均为1×1，跨度均为1，通道数均为128;第2层卷积（卷积层19、21和23）的卷积核大小均为3×3，跨度均为2，通道数均为256. 第5个模块第1层卷积（卷积层24）的卷积核大小为1×1，第2层卷积（卷积层25）的卷积核大小为4×4. 卷积层24和25的跨度均为1，但通道数分别为128和256.原始SSD模型综合10、15、17、19、21、23、25这7层卷积层，将7层不同尺度的特征层用于目标的分类检测与位置回归[18].

1.2 ResNet50残差网络

通常通过增加网络层数可以改善特征表征质量，但是由于受梯度消失或爆炸等梯度不稳定问题制约，以VGG16为基础的SSD模型难以通过进一步扩充网络深度以改善特征表征质量.深度残差网络（ResNet）引入残差连接在一定程度上规避了梯度问题，这为改善SSD检测性能提供了可能.

常规深度神经网络的特征以连乘方式在层间传播，HL（xi）为特征分布函数，见式（1），xi为输入数据（i = 1）或第i层网络特征（i > 1），L表示网络总层数，wi为网络第i层权重参数. 网络权重wi与输入数据xi经过卷积和激活函数σ，最后以连乘方式输出特征，可能导致梯度不稳定发生[21].

HL（xi） = ■wl xl

xl = σ（wl - 1 xl - 1）（1）

ResNet定义一个残差函数F（xi） = HL（xi） - xi，将特征层间乘性传播改善为特征残差的层间加性传播，如公式（2）所示，从而避免了梯度不稳定问题发生. ResNet的卷积层数可以达到数十甚至上百层，ResNet50是一个典型模型，其深度可以达到50层[19]. 本文将ResNet50取代原始SSD模型中的VGG16，以改善特征表征质量.

HL（xi） = xi + ■F（xi，wi）（2）

1.3 K-均值聚类确定默认窗口大小

原始SSD模型采用基于默认窗口的目标预测检测. 默认窗口有两个自由参数：大小和长宽比.原始SSD模型中默认窗口的大小以随机方式指定，具体地，事先指定使用7个不同尺度的特征层作为预测层，通过

sk = smin + ■（k - 1），k∈[1，m]

确定每个预测层中默认窗的基准大小[18]. 其中m表示预测层的数量，m = 7;smin、smax分别表示第1和第7个预测层默认窗的基准大小;sk表示其他预测层默认窗的基准大小. 实践中smin和smax的值往往需要多次尝试，本质上是盲目搜索的，不具备任何启发性，导致检测效率受限.

本文采用K-均值聚类算法取代原始SSD的盲目搜索方法生成默认窗的基准大小sk. 采用K-均值算法对训练集中交通标志的大小聚类，鉴于选用7个不同尺度的特征层作为预测层，聚类中心个数指定取值7，即聚成7个簇. 聚类中心点对应的窗口大小即为默认窗口的基准大小sk. 从而，训练集中检测目标的大小作为一种先验知识被聚类发现，指导默认窗口基准大小的选取.

1.4 聚类残差SSD模型

如图2所示，所提聚类残差SSD模型是以ResNet50作为基础网络，再额外叠加5个卷积模块构成的一个深度残差网络.模型的参数设置如表1所示，网络共由65层，包含59个卷积层，5个最大池化层. 输入为512×512像素图像，每经过池化层后输出的特征层大小都会减小为上层输入大小的1/2，最后一层卷积层的大小为1×1.

表1 聚类残差SSD模型的参数设置

Tab.1 Parameter settings of

the cluster residual SSD model

■

已有研究表明，低层特征图含有更丰富的细节信息，对小目标的检测十分有用，而高层特征图具有较强的语义信息，适用于大目标的检测，结合高低多层特征图有利于不同尺度目标的检测. 首先，将模型中的Stage3_5、Stage4_3、Conv1_2、Conv2_2、Conv3_2、Conv4_2和Conv5_2，7种不同尺度的特征层用于预测目标，实现多尺度检测与识别. 接着，针对7种不同尺度的预测层，使用卷积核进行目标预测，同时输出目标分类置信度和目标框与预测框的相对位置偏移量.记一个特征图的分辨率是m × n，每个像素单元指定sk为基准大小的b个不同宽高比的默认框，每个默认框需要预测c个类别和4个相对偏移量Δ（cx，cy，w，h），那么当前特征图有（c + 4）× b × m × n个自由参数.不同宽高比默认框的使用可以有效地离散输出框的形状，提高匹配精度和速度. 之后，当预测到该层有目标时，使用默认框与目标框进行匹配，匹配结果即为预测框. 本文使用Jaccard Overlap策略来匹配目标框和默认框[18]，文中Jaccard Overlap的阈值设置为0.5. 最后使用非极大值抑制去除冗余的预测框，本文非极大值抑制的阈值设为0.6.

模型中总损失函数为定位损失和分类损失的加权和，其定义如式（3）所示，其中Lconf和Lloc分别表示分类损失和定位损失，N是匹配的默认框个数，如果N = 0，则总的损失为0，f是每个预测框与目标框的匹配标志（f = 1表示匹配，f = 0表示不匹配），例如f pij=1表示类别为p的第i个默认框与第j个目标框相匹配. 分类损失如式（4）所示，其中c表示类的置信度. 定位损失如式（5）所示，其中l表示预测框，g表示目标框，d为默认框，（cx，cy）是相对中心点的偏移量[18].

L（f，c，l，g） = ■（Lconf （f，c） + αLloc （f，l，g））（3）

Lconf （f，c） = -■f pij log（■pi） - ■log（■0i）

■pi = ■ （4）

Lloc（f，l，g） = ■■ f pijsmoothL1（l mi - ■ mj）

■ cxj= （g cxj - d cxi ）/d wi，■ cyj= （g cyj - d cyi ）/d hi

■ wj= log■，■ hj= log■ （5）

2 实验数据和性能评价指标

2.1 数据集

2.1.1 德国交通标志检测数据集（GTSDB）

GTSDB[22]数据库中的交通标志图像全部从自然场景中采集得到，如图3所示，有不同道路（高速公路、城市道路、乡村道路），不同光线（光线强和光线弱），不同天气（雨天、雾天、雪天）下的图像，合计900幅图像，每幅图像大小为1 360×800像素. 每一幅图像有1～4个交通标志或者没有交通标志.交通标志大小在16×16～128×128像素之间.将所有交通标志按照如图4方式分为3类：禁止标志（ Prohibitory）、指示标志（Mandatory）、危险标志（Danger）.900幅图像被分为训练集和测试集两部分，其中训练集为600幅图像，测试集为300幅图像.

■

图3 GTSDB交通场景图像

Fig.3 Traffic scene image of GTSDB

■

（a）禁止标志（Prohibitory）

■

（b）指示标志（Mandatory）

■

（c）危险标志（Danger）

图4 GTSDB交通标志类别图

Fig.4 Traffic sign class image of GTSDB

2.1.2 中国交通标志数据集（CTSD）

CTSD[23]数据库中的图像是通过采集北京和厦门不同天气（晴天、雨天、大风）、不同道路（高速公路、城市道路、鄉村道路）下的自然场景图像，部分如图5所示.图像为1 024×768和1 270×800像素两类. 一共有1 100幅图像，训练集700幅，测试集400幅.训练集中交通标志的大小在20×20～380×378像素之间，测试集中交通标志的大小在26×26～573×557像素之间.将所有交通标志按照如图6所示方式分为3类：禁止标志（ Prohibitory）、指示标志（Mandatory）、危险标志（Danger）.

■

图5 CTSD交通场景图像

Fig.5 Traffic scene image of CTSD

■

（a）禁止标志（Prohibitory）

■

（b）指示标志（Mandatory）

■

（c）危险标志（Danger）

图6 CTSD交通标志类别图

Fig.6 Traffic sign class image of CTSD

2.2 训练样本扩充

为了改善模型鲁棒性，扩充训练数据集. 扩充后的训练集包括①原始图像;②对原始图像再采样得到的图像块，与原图像目标的Jaccard Overlap[18]分别为0.1、0.3、0.5、0.7、0.9;③将原始图像随机采样一部分. 采样后图像的大小为原始图像的0.1～1倍，宽高比在1/2～2之间，当目标框的中心在采样后的图像中时，裁去目标框落在图像外面的部分，保留重叠部分. 经过上述采样之后，将每个采样的小块调整到512×512像素，并以0.5的概率对其水平翻转.

2.3 性能评价

采用精确率（Precision）和召回率（Recall）的曲线PR所包围的面积AP来评价模型测试准确率. AP取值越大，表明检测准确率越高. mAP是所有类别AP的平均值.其中Precision与假阳性样本个数（FP）和正阳性样本个数（TP）的关系，Recall与假阴性样本个数（FN）和正阳性样本个数（TP）的关系如式（6）所示：

Precision = ■

Recall = ■ （6）

3 實验结果及分析

针对原始SSD模型和所提SSD模型，开展对比实验.

3.1 预训练与微调

本文所提聚类残差SSD模型仅在预先训练好的ResNet50网络的基础上进行微调.预训练使用VOC 2007数据集[24]. 微调过程中，通过损失函数最小化达到模型最优.优化器选用Adam;训练轮次为500;学习率采用动态的方式，当轮次小于300时，学习率为10-4;当轮次大于300时，学习率为10-5.

3.2 实验过程及结果

本文所用实验环境，硬件配置为I7 7700K处理器、16 G内存和Titan XP显卡，软件配置为Ubuntu16.04、Python3.5和Keras.

3.2.1 原始SSD模型的训练

使用2.1中所介绍的GTSDB数据集，对原始SSD模型进行训练，根据文献[18]中默认框的生成方式将sk设置为[0.05，0.13，0.21，0.29，0.37，0.45， 0.53]，训练和验证过程中损失函数如图7所示，训练集和验证集的损失不断减小，当轮次到300次时训练基本达到收敛. 将测试集在该模型上进行实验，测试结果如表2第4行所示，检测的mAP可以达到94.5%，每幅图像的检测速度是0.05 s. 将原始SSD模型的基础网络替换为ResNet50，检测结果如表2第5行所示，检测的mAP可以达到96%，每幅图像的检测速度是0.07 s.以ResNet50为基础网络的SSD模型比原始SSD模型的mAP高1.5%，每幅图像的检测速度慢0.02 s，检测效率略降，准确率得到改善.

3.2.2 聚类残差SSD模型训练

使用GTSDB对所提模型进行训练.首先根据K-均值聚类算法将GTSDB训练集中交通标志的长和宽聚成7个簇，如图8所示，聚类中心点对应默认窗口的基准大小.得到默认窗口的基准大小分别是[8.65，14.69]，[12.12，20.38]，[15.69，26.48]，[19.95，33.44]，[25.25，41.88]，[31.81，52.80]和[42.57，70.56]. 训练和验证过程中损失函数如图7所示，当轮次到300次时认为模型已收敛. 从图中可以发现，所提模型最后收敛损失小于原始SSD模型的收敛损失. 检测结果如表2第6行所示，mAP达到97.1%，每幅图像的检测速度0.07 s.所提模型比以ResNet50为基础网络的SSD模型mAP高出1.1%，比原始SSD模型高出2.6%.同时开展本文算法和Faster R-CNN[25]和FPN检测比对实验，结果见表2第2行和第3行，均表明所提模型检测性能得到明显改善.

■

轮次

图7 损失变化曲线

Fig.7 Loss variation curve

表2 检测结果

Tab.2 Test results

■

宽w

图8 聚类结果

Fig.8 Clustering results

图9给出了不同天气、不同交通场景下2幅典型图像的交通标志小目标检测结果. 图9（a）中所有的目标都被检测出来，图9（b）中第1幅图像有一个漏检的目标，第2幅图像有一个误检的目标. 所提模型对天气变化和交通场景改变具有更好的鲁

棒性.

■

（a）所提模型的检测结果

■

（b）原始SSD模型的检测结果

图9 GTSDB图像检测结果

Fig.9 Detection results on GTSDB images

3.3 实验分析

表2给出了同一数据集（GTSDB）下不同算法的实验结果. 可以看出，在检测准确率方面，本文算法达到最优mAP为97.1%，比原始SSD模型有2.6%的提升，比FPN算法有4.1%提升;同时检测效率并没有受到明显的影响，仅比原始的SSD模型减少0.02 s. 单类检测准确率方面，禁止标志的AP可以达到99.5%，优于其他所有算法;指示标志和危险标志的AP分别为96.9%和94.8%，检测准确率优于其他所有算法，但并没有达到和禁止标志相当的检测准确率. 针对这一问题，对数据集中禁止标志、指示标志、危险标志进行统计，并以直方图的方式可视化，如图10所示，可以看出指示标志和危险标志的数量都较少，存在数据不均衡问题，影响了模型对该类标志的检测性能. 后续研究中，考虑适当增加数据，或收集更丰富的数据集进行研究，以提升不同场景图像检测的鲁棒性.

3.4 算法驗证

在相同实验条件下，针对CTSD验证所提模型的有效性. 根据K-均值算法得到默认窗口的基准大小分别为[12.95，19.65]，[21.00，32.21]，[31.65， 48.29]，[44.19，68.46]，[62.05，97.23]，[87.02，129.97]和[152.35，233.55]. 其他训练和测试过程与GTSDB的相同. 检测结果如表2第7行所示，本文所提模型获得了89.7% mAP和每幅图像0.08 s的检测速度.

■

图10 3类标志的数量分布

Fig.10 The number of distribution map of three class markers

图11给出了CTSD中两幅典型的自然场景交通图像，左图是晴朗天气下城市道路场景，右图是阴雨天气下高速公路场景. 本文所提模型将图中的交通标志小目标全部正确检出.

■

图11 CTSD图像检测结果

Fig.11 Detection results on CTSD images

4 总结

针对自然场景中交通标志小目标检测问题，以及原始SSD模型用于小目标检测时特征表征能力和检测效率两方面的不足，提出一种聚类残差SSD模型. 一方面将原始SSD模型的基础网络VGG16替换为特征表征能力更强的ResNet50深度残差网络;另一方面采用K-均值聚类算法发现小目标默认窗口的大小，实现默认窗口大小的优化选择，改善了原始SSD模型中盲目搜索默认窗口大小的缺陷.针对GTSDB基准数据集的测试获得了97.1% mAP和每幅图像0.07 s的检测速度，针对CTSD基准数据集的测试获得了89.7% mAP和每幅图像0.08 s的检测速度，表明所提模型求解交通标志小目标检测问题的有效性.

参考文献

[1] DALAL N，TRIGGS B. Histograms of oriented gradients for human detection[C]//IEEE Conference on Computer Vision & Pattern Recognition.Washington DC：IEEE Computer Society，2005：886—893.

[2] VIOLA P，JONES M. Rapid object detection using a boosted cascade of simple features[C]//Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington DC： IEEE Computer Society，2001：511—518.

[3] LOWE D G. Distinctive image features from scale-invariant key points[J]. International Journal of Computer Vision，2004，60（2）：91—110.

[4] OJALA T，HARWOOD I. A comparative study of texture measures with classification based on feature distributions[J]. Pattern Recognition，1996，29（1）：51—59.

[5] BOI F，GAGLIARDINI L. A support vector machines network for traffic sign recognition[C]//International Joint Conference on Neural Networks. Washington DC： IEEE Computer Society，2011：2210—2216.

[6] WANG G Y，REN G H，WU Z L，et al. A hierarchical method for traffic sign classification with support vector machines[C]//The 2013 International Joint Conference on Neural Networks （IJCNN）. Washington DC： IEEE Computer Society，2013：1—6.

[7] TANG S S，HUANG L L. Traffic sign recognition using complementary features[C]//2013 2nd IAPR Asian Conference on Pattern Recognition （ACPR）. Washington DC： IEEE Computer Society，2013：210—214.

[8] SUGIYAMA M. Local fisher discriminant analysis for supervised dimensionality reduction[C]//Proceedings of the 23rd International Conference on Machine Learning. New York ： ACM，2006： 905—912.

[9] CHEN T，LU S J. Accurate and efficient traffic sign detection using discriminative AdaBoost and support vector regression[J].IEEE Transactions on Vehicular Technology，2016，65（6）：4006—4015.

[10] GIRSHICK R，DONAHUE J，DARRELL T，et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C] // Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Ohio： IEEE，2014： 580—587.

[11] LECUN Y，BOTTOU L，BENGIO Y，et al. Gradient-based learning applied to document recognition[J].Proceedings of the IEEE，1998，86（11）：2278—2324.

[12] ZHU Y Y，ZHANG C Q，ZHOU D Y，et al. Traffic sign detection and recognition using fully convolutional network guided proposals[J].Neurocomputing，2016，214：758—766.

[13] SHELHAMER E，LONG J，DARRELL T，et al. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2017，39（4）： 640—651.

[14] REDMON J，DIVVALA S，GIRSHICK R，et al. You only look once： unified，real-time object detection[C] // Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern. Nevada： IEEE，2016：779—788.

[15] MENG Z B，FAN X C，CHEN X，et al. Detecting small signs from large images[C] // Proceedings of the 2017 IEEE International Conference on Informatiorn Reuse and Integration. California： IEEE，2017： 217—224.

[16] HE K M，ZHANG X Y，REN S Q，et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2015，37（9）：1904—1916.

[17] TSUNG Y L，PIOTR D，ROSS G，et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu：IEEE，2007：936—944.

Facebook AI Research （FAIR），Cornell University and Cornell Tech，2017.

[18] LIU W，ANGUELOV D，ERHAN D，et al. SSD： single shot multibox detector[C]//Proceedings of the 2016 European Conference on Computer Vision. Amsterdam： ECCV，2016：21—37.

[19] HE K M，ZHANG X Y，REN S Q，et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas：IEEE，2016： 770—778.

[20] SIMONYAN K，ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//International Conference on Learning Representations. San Diego：Oxford，2015：1—14.

[21] 陳建廷，向阳. 深度神经网络训练中梯度不稳定现象研究综述[J]. 软件学报，2018，29（7）：2071-2091.

CHEN J T，XIANG Y. Research review on gradient instability in deep neural network training [J]. Journal of Software，2018，29（7）：2071—2091.（In Chinese）

[22] HOUBEN S，STALLKAMP J，SALMEN J，et al. Detection of traffic signs in real-world images：The German traffic sign detection benchmark[C]//The 2013 International Joint Conference on Neural Networks（IJCNN）. Dallas：IEEE，2013：1—8.

[23] YANG Y，LUO H L，XU H R，et al. Towards real-time traffic sign detection and classification[J]. IEEE Transactions on Intelligent Transportation Systems，2016，17：2022—2031.

[24] EVERINGHAM M，GOOL L，WILLIAMS C K，et al. The pascal visual object classes （VOC） challenge[J]. International Journal of Computer Vision，2010，88（2）： 202—228.

[25] REN S Q，HE K M，GIRSHICK R，et al. Faster R-CNN： towards real-time object detection with region proposal networks[C]// Advances in Neural Information Processing Systems 28. Montreal： NIPS，2015：91—99.