APP下载

基于深度学习的车载实时行人检测研究

2018-12-22杨志恒桂林电子科技大学

数码世界 2018年3期
关键词:单通道行人卷积

杨志恒 桂林电子科技大学

行人检测是目标检测的一个子类,主要利用计算机视觉技术判断图像或者视频序列中行人存在与否并给予精确定位,即行人识别和标定。随着自主驾驶技术的飞速发展,快速高效的行人检测算法成为一项越来越重要的任务。由于行人不是刚性的物体,具有姿势多样性和外观多样性,以及多变的背景环境,这都增加了行人的检测难度。基于前人的研究基础,本文通过对现有的检测算法分析对比,将深度学习单通道神经网络应用于行人检测,达到车载检测的实时性和准确性要求。

1 行人检测的算法介绍

行人检测对于人类而言,通过对视觉范围内的不同颜色模块的感知很容易定位并分类出其中行人,但对于计算机而言,面对的是RGB像素矩阵,很难从视觉图像中直接得到行人的抽象概念并定位其位置。现有行人检测算法大致分为两种:基于图像处理的传统行人检测和基于深度学习的行人检测。

2 传统的行人检测算法

传统的行人检测一般使用滑动窗口的框架,主要包括三个步骤:提案候选区域;提取候选区域相关的视觉特征;利用分类器进行识别。梯度方向直方图算子和VJ轮廓特征在麻省理工学院行人数据库和INRIA数据库取得很好的检测结果,但是这些方法容易受到光线和目标遮挡影响。多尺度形变部件模型(DPM)把物体看成多个组成部件(比如人的手、腿等),用部件间关系来描述物体可以很好的表达的非刚体特征,在人脸检测、行人检测等任务上取得了不错的效果,但是DPM相对复杂,检测速度也较慢。

3 基于深度学习的行人检测算法

基于深度学习的行人检测大致也可分为两种:

(1)基于区域提案的神经网络是一种将区域建议和卷积神经网络相结合的目标检测算法,比如RCNN, SPP-net, Fast RCNN, Faster RCNN, RFCN等,通常采用区域选择或者区域提案网络获取感兴区域,然后在每个提案区域上使用卷积神经网路做分类得到分类类别和置信度。这种提案方法大大提升了行人检测精度,但是检测速度有待提升,较难满足车辆行驶中的检测要求。

(2)端到端的深度学习行人检测采用使用单通道网络架构,比如YOLO,SSD,YOLOv2[3]等,将行人定位和行人识别统一,一次性输出行人的位置信息和行人的置信度,这样大大提升的网络的执行效率,但是检精度较低有待提升。

4 基于深度学习的行人检测网络模型及训练

本文对基于深度学习的单通道架构的卷积神经网络进行优化算法。向卷积神经网络输入任意大小的图片,使用基于VGG的深度学习的骨干网络进行特征提取,其中卷积层采用类似于GoogleNet网络结构,在卷积层之间嵌入1*1的卷积核压缩特征。在进行目标检测时,移除全连层,添加类似于ResNet的恒等映射,将最后一层卷积层前的高分辨率特征图与原生的深层特征相连接,叠加相邻特征到不同通道增加网络细粒度特征。预测时借鉴Faster R-CNN的anchor思想,在卷积特征图上进行滑窗采样,特征图的每个特征点和原图的每个cell中心相对应,每个中心预测5中不同大小和比例的建议框,其中每个建议框采用相对偏移预测,预测五个参数:(tx,ty,tw,th,to),分别对应行人位置的包围框左上角点(x,y)坐标、宽、高和可信度,即同时预测行人和位置。

行人检测网络模型采用分批次多尺寸训练,进行不同分辨率的检测。网络只使用卷积层和池化层进行特征提取和检测,这样可以对输入的图片进行动态调整,使用网络降采样参数的倍数作为网络输入尺寸,每经过一定批次训练,随机选择新的图片尺寸,调整网络到相应的尺寸维度然后继续训练。

5 实验及结果

实验中采用Darknet-19模型,其具有19个卷积层和5个最大池化层,其骨干网络类似于VGG深度神经网络,其中卷积层采用3x3卷积核运算卷积,3x3卷积核之间嵌入1x1卷积核压缩特征;池化层采用2x2采样核采样,并且每次池化采样后通道数翻倍。

本文在INRIA行人数据集上进行训练测试。在训练过程中各超参数分别设置为:学习率0.0001,动量0.9,权重衰减值0.5。同时采用批次正则化稳定模型训练。在测试中行人检测算法准确率达到98.69%,检测速度达到50帧每秒(fps),达到车载检测的实时性要求。

6 总结

行人是安全智能驾驶的重要参与者,如何高效实时检测行人是智能驾驶的热点问题。本文通过对现有的行人检测算法和深度学习研究分析,将深度学习自主学习特征的优势应用于行人检测:在原有的卷积神经网络检测算法中,通过单通道网络对输入图像进行提取特征分类识别,同时输出行人的位置和置信度,大大减少了计算复杂度和检测时间。最后,在INRIA 数据集上进一步验证了该算法的可行性。

[1]Benenson R, Omran M, Hosang J, et al. Ten Years of Pedestrian Detection, What Have We Learned?[C]// European Conference on Computer Vision. Springer, Cham, 2014:613-627.

[2]Huang J, Guadarrama S, Murphy K, et al. Speed/Accuracy Trade-Offs for Modern Convolutional Object Detectors[J].2016:3296-3297.

[3]Redmon J, Farhadi A. YOLO9000: Better, Faster,Stronger[J].2016:6517-6525.

猜你喜欢

单通道行人卷积
基于联合聚类分析的单通道腹部心电信号的胎心率提取
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
毒舌出没,行人避让
从滤波器理解卷积
路不为寻找者而设
基于傅里叶域卷积表示的目标跟踪算法
模拟电视发射机数字化改造方法的探讨
我是行人
模拟电视发射机数字化改造方法的探讨