基于改进YOLOv4的交通信号灯倒计时数字检测与识别
2022-04-29周昆阳郑泽斌向阳赵梦婷唐宇亮邵叶秦
周昆阳 郑泽斌 向阳 赵梦婷 唐宇亮 邵叶秦
摘要:交通信号灯倒计时数字的快速检测和准确识别可以提高驾驶的安全性,减少交通事故的发生。针对目标检测算法在交通信号灯倒计时数字检测与识别中准确率较低、漏检率较高的问题,提出一种基于改进YOLOv4的交通信号灯倒计时数字检测与识别算法。首先将YOLOv4的主干网络CSPDarkNet53替换为CSPResNet50vd,并将CSPResNet50vd中stage4的3×3标准卷积替换为可变形卷积。实验表明,改进的YOLOv4算法达到79.34%的mAP和9.59%的漏检率。相较于YOLOv4,mAP提高2.58%,漏检率降低1.84%,检测速度提升了22.65%,有效地提高了识别准确率和检测速度、降低了漏检率。
关键词:交通信号灯倒计时数字检测与识别;YOLOv4;可变形卷积
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2022)04-0007-03
交通信号灯倒计时数字是车辆行驶过程中的重要信息,受环境等因素影响,目前的目标检测模型对交通信号灯倒计时数字的识别准确率低、漏检率高,存在巨大的安全隐患。因此,准确、高效的交通信号灯倒计时数字检测与识别算法是辅助驾驶和自动驾驶的重要研究方向。
随着神经网络的不断发展,国内外已经开展了一系列基于神经网络的交通信号灯检测和识别研究[1-2]。近年来基于YOLO(You only look once)模型的交通信号灯倒计时数字检测与识别成为新的研究方向。目前,基于YOLO模型的交通信号灯倒计时数字检测与识别的研究较少,并且目标检测模型准确性较低、漏检率较高。
本文提出了一种基于改进YOLOv4的交通信号灯倒计时数字检测与识别算法。为了提升模型检测准确率,本文以YOLOv4算法为基础,将YOLOv4主干网络CSPDarkNet53替换为CSPResNet50vd,并将CSPResNet50vd中stage4的3×3标准卷积替换为可变形卷积。本文算法能够有效地检测并识别出交通信号灯倒计时数字,具有较高的识别准确率。
1 YOLOv4介绍
YOLOv4[3]是Alexey Bochkovskiy等提出的目标检测算法,YOLOv4在YOLOv3[4]的基础上进行了特征提取网络、激活函数、特征金字塔、网络训练等改进,保证准确率的同时降低了计算量。但传统的YOLOv4对于倒计时这类小目标检测效果较差。
2 基于改进YOLOv4的交通信号灯倒计时数字检测与识别算法
2.1算法基本思路
为了实现交通信号灯倒计时数字检测与识别,本文使用CSPResNet50vd替换YOLOv4主干网络CSPDarkNet53,并将CSPResNet50vd中stage4的3×3标准卷积替换为可变形卷积。改进的YOLOv4算法能够更加准确地检测并识别出倒计时数字。算法流程图如图1所示。
DCN表示可变形卷积。3*Conv3×3表示3个3×3卷积,其中第一个3×3卷积stride=2,其余两个3×3卷积步长=1。
2.2 特征提取网络结构改进
为了提高YOLOv4对交通信号灯倒计时数字的检测与识别能力,本文使用CSPResNet50vd作为YOLOv4的特征提取网络。
2.2.1 CSPResNet50vd
本文选择CSPResNet50vd作为特征提取网络。ResNet50vd是指拥有50个卷积层的ResNet-D网络,如表1所示。输入图像首先经过3个3×3卷积和1个最大池化,图片大小变为原来的[14],之后依次经过stage1、stage2、stage3、stage4进一步地提取特征。每个stage都由1个block1和k个block2组成(其中stage1的k=2,stage2的k=3,stage3的k=5,stage4的k=2)。block1和block2如图2所示。
為了进一步提高ResNet50vd对小物体检测的准确率,本文在ResNet50vd网络中嵌套CSPNet[5]结构,构建CSPResNet50vd网络。本文特征提取网络部分的CSPNet结构如图3所示。
本文将CSPNet分别嵌套在stage1、stage2、stage3、stage4中,以有效地增强卷积神经网络的学习能力,提高模型的准确率。
2.2.2 可变形卷积
为了进一步提高特征提取网络的目标检测能力,本文将CSPResNet50vd网络stage4中3×3的标准卷积替换成3×3的可变形卷积[6](deformable convolution,DCN)。
可变形卷积和标准卷积相比增加了一个偏移量。如图4所示[6],其中(a)为标准卷积核,(b)、(c)、(d)为可变形卷积。
可变形卷积的偏移量通过一个平行的标准卷积核计算得到,如图5所示。首先通过一个平行卷积核得到可变形卷积需要的偏移量,然后将偏移量作用在卷积核上。加上偏移量的学习,可变形卷积大小和位置可以根据当前图像进行动态调整。本文中平行的标准卷积核大小与可变形卷积核大小相等。
2.3 去除重叠框
在进行预测时候,YOLOv4对于同一个物体可能会给出多个预测框。本文使用Matrix NMS[7]去除重复检测框。这里Matrix NMS的IOU阈值设为0.45,评分的阈值为0.2。
2.4 损失函数
本文的损失函数由三种损失函数: 坐标偏差损失Losscoord(使用GIOU Loss), 置信度损失Lossconf (使用二值交叉熵的Lossconf_obj和Lossconf_noobj)和Lossclass(采用二值交叉熵Loss), 按照2:1:1比例加权得到。
3 实验结果与分析
3.1 实验数据与平台
本文从网络上获取倒计时图片共1125张,标注完成后,900张作为训练集,225张作为测试集。数据集共有20类,包括红灯和绿灯倒计时数字各10类。
模型运行在百度AI Studio平台,CPU是Intel(R) Xeon(R) Gold 6271C CPU @ 2.60GHz,GPU为Tesla V100显存16GB,内存32GB。深度学习框架为PaddlePaddle 1.8.4。
3.2 实验结果分析
为了比较不同模型的性能,本文采用平均精度均值(Mean Average Precision, mAP)、漏检率(Missing detection rate, MDR)、单张图片检测时间(infer time)作为衡量指标。
3.2.1 CSPResNet50vd作用
本文直接将YOLOv4特征提取网络CSPDarkNet53替换为CSPResNet50vd会导致模型mAP下降。由于CSPResNet50vd参数量比CSPDarkNet53少,本文使用可变形卷积(DCN)替换CSPResNet50vd中stage4中的3×3标准卷积,模型的mAP达到79.34%,超越YOLOv4基本相同,并且检测速度比YOLOv4快7.75ms,实验结果如表2所示。
为了体现可变形卷积的优势,本文将经过标准卷积特征提取后的特征图和经过可变形卷积特征提取后的特征图进行对比,如图6所示。
从图中可以看出,将标准卷积替换为可变形卷积,交通信号灯倒计时数字的特征更加明显,可以有效地提高网络对交通信号灯倒计时数字的检测能力。
3.2.2与其他模型对比
为了衡量本文方法的性能,本文对比了最新的单阶段目标检测模型。文献[8]中提出两种交通信号灯倒计时数字识别方法。方法一将YOLOv3的特征提取网络更换为MobileNet,虽然检测速度上优于本文的YOLOv4模型,但mAP比本文YOLOv4模型低24%;方法二文獻[8]对YOLOv3的特征提取网络进行改进,将DarkNet53中残差模块连接的3×3卷积核、步长为2的卷积结构替换成下采样块。表3展示了本文方法和其他检测模型的结果对比。从实验结果可以得出,本文的模型在mAP和漏检率上都优于其他的检测模型。
3.2.3检测效果展示
图7展示了本文方法和YOLOv4在不同场景下交通信号灯倒计时数字检测效果。本文方法在实际检测中得到准确的结果。
4 结束语
本文通过对YOLOv4的主干网络进行改进,将YOLOv4主干网络CSPDarkNet53网络替换为CSPResNet50vd,并将CSPResNet50vd中stage4中的3×3标准卷积替换为可变形卷积。实验结果表明,本文的方法可以有效地提高交通信号灯倒计时数字检测的准确率和速度,相较于主流目标检测算法有着更高的准确率和更低的漏检率。
参考文献:
[1] 张焕增,李茂强,刘英杰.基于视觉的轨道交通信号灯识别算法研究[J].电子制作,2020(18):53-55.
[2] 刘影,姚振鑫.基于NVIDIA Jetson TX2的实时交通信号灯检测算法[J].农业装备与车辆工程,2020,58(7):49-53,65.
[3] BOCHKOVSKIY A, WANG Chien-yao, LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection[EB/OL]. (2020-04-23). https://arxiv.org/abs/ 2004.10934.
[4] Redmon J,Farhadi A.YOLOv3:an incremental improvement[EB/OL].2018:arXiv:1804.02767[cs.CV].https://arxiv.org/abs/1804.02767
[5] Wang CY, Liao HY,Yhe L, et al. CSPNet: A New Backbone that Can Enhance Learning Capability of CNN[C].Proceedings of the IEEE Conference on Computer Vision and P-attern recognition.Berlin,Germany:Springe,2019:8124-8233.
[6] 包俊,刘宏哲.融合可变形卷积网络的鱼眼图像中的目标检测[J/OL].计算机工程:1-10[2021-01-01].https://doi.org/10.19678/j.issn.1000-3428.0057485.
[7] Xinlong W, Rufeng Z, Tao K, et al.SOLOv2: Dynamic and Fast Instance Segmentation[EB/OL].(2021-03-25).https://arxiv.org/abs/2003.10152.
[8] 葛壮壮.基于嵌入式GPU的交通灯及数字检测与识别研究[D].成都:电子科技大学,2020.
收稿日期:2021-08-11
基金项目:南通市科技计划项目(MS12020078)。江苏省大学生创新训练计划项目“基于视频的电瓶车驾驶员智能头盔系统”(校企合作) (201910304158H);江苏省大学生创新训练计划项目“基于红外图像的船舶驾驶员违章行为自动识别”(校企合作)(202010304180H);江苏省大学生创新训练计划项目“具有预约功能的园区无人送货小车 ”(省级一般项目)(202010304122Y) ;江苏省大学生创新训练计划项目“面向老年人的基于手势识别的智能手机使用助手”(省级重点项目)(202110304047Z) ;江苏省大学生创新训练计划项目“5G环境下基于手势智能识别的远程机械臂控制系统”(省级重点项目)(202110304050Z)。
作者简介:周昆阳(2000—),男,本科,主要研究方向为图像处理;郑泽斌(2000—),男,本科;向阳(2000—),男,本科;赵梦婷(2001—),女,本科;邵叶秦(1978—),博士,副教授。