APP下载

改进YOLOv3算法的导盲系统街道场景检测

2023-03-29丁子龙陈月钒

计算机仿真 2023年2期
关键词:特征提取街道尺寸

薛 阳,丁子龙,陈月钒

(上海电力大学,上海 200090)

1 引言

随着科技的日益发展,环境场景检测技术已经用于导盲系统作为保障盲人安全出行的重要手段。对街道场景视频或图像数据中的人和车辆进行实时检测是导盲系统中难度很高的任务。该任务难度在于需要同时满足检测的实时性和精度。在大量的街道场景检测算法中,基于深度学习的算法及其改进在此领域被诸多学者研究并且广泛应用。

当前研究现状普遍提出的检测方法有机器视觉法[1]和无线射频法两类[2]。其中无线射频技术成本高、易损坏;而机器视觉技术具有低成本、不需接触等特点,在无人驾驶、导盲系统领域得到大量使用。伴随着卷积神经网络(Convolutional neural network,CNN)的发展,SSD[3]、Mask R-CNN[4]、Faster R-CNN[5]、YOLO[6]等深度学习模型在检测等领域获得了普遍认可。对于导盲系统而言,需要保证实时性和精度的平衡,因此相较于其他算法,YOLOv3算法利用深度残差网络提取图像特征,并实现多尺度预测,能够更加快速地实现目标检测。但是传统YOLOv3对于一些街道常见中等尺寸的物体检测效果不好,梯度组合不够丰富、计算量较大、特征提取网络感受野较小。

为此本文提出了基于YOLOv3算法改进的街道场景检测算法YOLOv3-Street,分别在传统YOLOv3算法的网络框架以及数据增强方式上进行了改进:针对传统的主特征提取网络Darknet53采用CSPDarknet53改进结构,不仅能减少计算量,而且能完成更加多样的梯度组合;引入特征金字塔SPP和PAN结构,增大网络感受野;使用Mosaic数据增强方法避免过拟合现象。

图1 YOLOv3网络结构示意图

图2 YOLOv3-Street网络结构示意图

2 YOLOv3算法及其改进

2.1 传统YOLOv3网络框架

YOLOv3通过融合当前检测领域的最新成果,可以实现精度与速度的良好平衡。YOLOv3使用的是全卷积层,通过修改卷积层的尺寸来实现特征图尺寸的修改。YOLOv3网络使用的主特征提取网络Darknet53的结构如图1所示,共有5个大残差块,每个大残差块所包含的小残差单元个数为1、2、8、8、4。YOLO主干部分由5个残差模块构成,降低梯度爆裂的破坏性,增强网络的学习能力。

但是 YOLOv3 的最小特征图尺寸为 13×13,仍然偏大,对于部分中型尺寸甚至较大尺寸物体的检测结果精确度不尽人意。同时具有梯度组合不够丰富、计算量较大、特征提取网络感受野较小等缺点。

2.2 改进YOLOv3-Street网络架构

本文提出的YOLOv3-Street网络架构如图2所示。该方法基于YOLOv3并对其进行改进。搭建出适用于盲人出行的街道检测算法YOLOv3-Street,主干特征提取网络将resblock_body的结构进行修改,提出了使用CSPnet结构。将YOLOv3中的主特征提取网络Darknet53改进成CSPDarknet53,用来提取图像的特征。不仅能减少算法计算量,而且能完成更加多样的梯度组合。

特征金字塔方面YOLOv3-Street使用了空间金字塔池化模块(Spatial pyramid pooling,SPP)[7]和路径聚合网络(Path aggregation network,PAN)[8]其中SPP结构能够极大的增加网络的感受野,分理出最显著的上下文特征。PAN网络结构如图3所示,加入了自底向上的路径增强,避免信息丢失问题,经过特征图拼接后获得的信息既有底层特征也有语义特征。

头部则使用YOLOHead[9]利用获得的特征使用不同的尺度直接对目标的类别和所在位置进行预测。

图3 PAN网络

2.3 BOX回归函数

YOLOv3-Street使用全局交并比(Complete-IoU,CIoU)[10]作为BOX回归函数。常用的矩形框(Bounding-box,Bbox)的回归损失优化和IoU优化不是完全等价的,寻常的IoU无法直接优化没有重叠的部分。本文使用CIoU作为回归优化loss,考虑了目标与anchor之间的间隔、重叠率、尺度以及惩罚项,使得目标框回归变得更加稳定,降低出现IoU和GIoU训练过程中出现的发散等问题。而惩罚因子把预测框长宽比拟合目标框的长宽比考虑进去,以获得更好的收敛速度和精度。

CIoU公式如下

(1)

式中:ρ——两个中心点间的欧氏距离

b——预测框中心点

bgt——真实框框心点

c——两个中心点间的欧氏距离

α——度量trade-off的参数

v——度量长宽比的相似性

其中

(2)

式中IoU——预测框与真实框的交并比

(3)

式中:ωgt——真实框宽度

hgt——真实框高度

ω——预测框宽度

h——预测框高度

CIoU损失函数LOSSCIoU定义为:

(4)

3 实验结果

3.1 数据集处理

本次数据来源于麻省理工学院的CBCLStreetScenes Dataset数据集。街景数据集中的图片主要是围绕马萨诸塞州波士顿市及其周边地区拍摄采集的,用于盲人对真实场景下的路口街道区域进行检测学习。本文利用直方图均衡化、对比度调整、高斯均值滤波等操作对原始图片进行了数据增强,预处理流程图如图4所示。增强后数据集图片一共3547张,以训练集:测试集=8:2的比例将数据集划分,训练集共2838张,测试集一共709张。将数据集图片统一处理为416*416尺寸。

图4 图像数据预处理流程图

为了避免模型在训练过程中出现过拟合现象,在模型训练过程中通常会采用CutMix数据增强扩展样本图像,而本文尝试性的使用了全新的Mosaic数据增强技术扩展样本图像,使正负样本数量比达到3:1。

Mosaic数据增强算法是CutMix数据增强算法的提升改进,两者在实现思想上比较接近。CutMix数据增强将两张照片组合在一起,而Mosaic数据增强则组合了四张照片,此方法可以增强被测目标的背景,并且在进行BN计算时可以一次计算四张图片的数据的量。

3.2 模型训练

YOLOv3-Street模型在NVIDIV GTX 1650 GPU上进行训练和练习。在实验过程时,本文将输入图片大小设置为标准 VGA 图像的输入大小 416*416,使用CIoU作为损失函数,将Batch设置为16,最大迭代次数设置为40000,学习率设置为0.001,从而完成了YOLOv3-Street网络训练。其Loss变化过程如图5所示。

图5 YOLOv3-Street网络训练过程

3.3 结果与分析

3.3.1 定量评估

本文在NVIDIA GTX 1650 GPU上对训练好的YOLOv3-Street在模型大小、平均单次预测时间、FPS、AP和平均CIoU指标进行了评估,定量结果如表1所示。

表1 定量结果

可以看出对于改进后的YOLOv3-street对于输入416*416尺寸的图片响应时间非常迅速,仅仅只花了25.1ms,FPS也只有69,最终得到的mAP值为79.35%,CIoU虽然较其他算法小一些,但能满足快速检测的需求。

3.3.2 定性评估

为了能够更好的可视化展示和评价YOLOv3-Street在盲人出行街道检测任务上的效果,本文在大雾天气、光照不足、斜视角度等场景进行了测试,结果如图6-图9所示。分析实验结果可知,YOLOv3-Street算法在日常光照充足、角度正常的情况下有着较高是分辨准确率。当出现大雾天气时精确度会有所下降。但仍然能够分辨出车辆等物体。当出现光照不足较暗天气时,对算法精确度的改变不是很大。角度倾斜对准确率影响也较小。综上所述YOLOv3-Street算法能够满足盲人出行常规场景、大雾天气、光照不足、斜视角度等不同环境实现实时高精度的环境检测。

图6 算法在常规场景下的检测结果

图7 算法在大雾天气下的检测结果

图8 算法在光照不足下的检测结果

图9 算法在斜视角度下的检测结果

4 结论

本文针对盲人出行的街道场景检测任务,提出了基于YOLOv3算法改进的街道场景检测算法YOLOv3-Street。在实验过程中,采用了MIT的CBCLStreetScenes Dataset来完成网络的训练,并通过客观的定量性能指标和直观的定性评价对YOLOv3-Street进行了评估。实验结果表明,本文所提算法能够在不受天气、光照、角度等条件约束下,实现了街道场景检测实时性与精度的良好平衡,提升了盲人出行的安全指数。

猜你喜欢

特征提取街道尺寸
尺寸
CIIE Shows Positive Energy of Chinese Economy
热闹的街道
基于Daubechies(dbN)的飞行器音频特征提取
热闹的街道
D90:全尺寸硬派SUV
Bagging RCSP脑电特征提取算法
风居住的街道
佳石选赏
街道等