APP下载

基于YOLOv3算法的盲道识别研究

2022-04-22袁扬马浩文叶云飞管庆勒周琳泰马高辉

河南科技 2022年6期
关键词:深度学习

袁扬 马浩文 叶云飞 管庆勒 周琳泰 马高辉

摘 要:世界卫生组织统计的数据显示,全球失明人数超过3 600万,且有逐年递增的趋势。对于视障人群而言,其出行十分不便,并且现有的盲道识别算法大多是基于颜色和纹理,检测速度较慢,不能很好地解决盲人出行难的问题。为此,本研究提出一种基于YOLOv3网络模型的盲道识别算法。笔者使用LabelImg工具对收集到的数据进行标注,再将标注后的图片送入模型中进行训练,并调整参数,得到最佳的检测模型。试验结果表明,YOLOv3算法的识别准确率达到98%,为优化盲道识别算法提供了新思路。

关键词:YOLOv3;目标检测算法;盲道识别;深度学习

中图分类号:TP212   文献标志码:A     文章编号:1003-5168(2022)6-0020-04

DOI:10.19968/j.cnki.hnkj.1003-5168.2022.06.004

Research on Blind Track Recognition Based on YOLOv3

YUAN Yang    MA Haowen    YE Yunfei    GUAN Qingle    ZHOU Lintai    MA Gaohui

(Tiangong University,Tianjin 300387,China)

Abstract: According to the statistics of the WHO,the number of blind people worldwide is more than 36 million,and the trend is increasing year by year.For the visually impaired people,their travel is very inconvenient,and most of the existing blind track recognition algorithms are based on color and texture,and the detection speed is slow,which cannot well solve the problem of difficult travel for blind people.To this end,this paper proposes a blind track recognition algorithm based on YOLOv3 network model.The author use the LabelImg tool to label the collected data,and then feed the labeled images into the model training and adjust the parameters to get the best detection model.The experimental results show that the accuracy of YOLOv3 reaches 98%,which provides a new idea for blind track recognition algorithm.

Keywords:YOLOv3;target detection algorithm;blind track recognition;deep learning

0 引言

眼睛是人体的重要器官。人们通过双眼能够获取外界的信息,看到各种各样的物体。但对于患有视力障碍的人群来说,其无法获取周围的环境信息,并且很难预测和自主处理环境中存在的各种状况,在日常生活中很难做到安全出行、快乐出行。为了解决盲人出行难的问题,社会组织及个人都在积极寻找为盲人群体出行提供帮助的方法[1-2]。其中,导盲杖因设计简单、便携实用、成本较低,在一段时间内被广泛使用,但因其感知距离较近,给盲人用户提供的帮助较为有限;导盲犬因训练周期长、价格昂贵、社会接纳度不高,加之其寿命与人类寿命相比要短得多,所以很少有盲人选用导盲犬作为导盲手段[3]。结合上述盲人辅助器材的优点和不足,本研究使用基于YOLOv3[4]模型来识别盲道,从而可以快速准确地识别道路中的盲道。

1 基于深度学习的目标检测算法

1.1 目标检测算法介绍

传统的目标检测算法只适用于特征明显且背景简单的场景,但是在实际应用中,背景复杂多变,物体特征多样,大大降低了算法识别的准确度。2014年,Girshick等人提出了R-CNN网络[5],R-CNN网络是将Region Proposal与卷积神经网络结合起来,其在VOC07测试集上有明显的性能提升,平均精准度(mean Average Precision,mAP)从33.7%(DPM-V5,传统检测的SOTA算法)提升至58.5%。从此,基于深度学习的目标檢测算法迅速发展起来。

1.2 算法类别

目标检测一直都是计算机视觉领域的核心问题之一[6]。总的来说,基于深度学习的目标检测算法最主要的任务是图像中目标(物体)的识别和物体的定位(即确认位置和大小)。

目前,目标检测算法大致可以分为两类:one-stage(单阶段检测)和two-stage(双阶段检测)。两者的区别在于是否产生候选框。见图1。

two-stage是先生成候选框,再通过卷积神经网络进行分类。因此,two-stage目标检测算法的识别准确率高,但是速度较慢,不能满足实时检测的要求,代表算法有Fast R-CNN、MT-CNN、R-CNN等[7-8]。而one-stage则是直接提取特征来预测物体的类别和位置,拥有比two-stage更快的检测速度,但在检测精度和准确率方面,与two-stage相比要差一些,代表算法有YOLO系列算法、SSD、RetinaNet等。

1.3 YOLOv3算法介绍

1.3.1 网络结构。YOLOv3网络结构中的三个基本组件是CBL、Res unit、ResX(见图2)。CBL由Conv、BN和Leaky Rule激活函数组成;Res unit仿照了ResNet的残差块结构,由两层CBL组成,其中add的作用是张量相加,并不扩充维度。ResX由一个CBL和n个Res unit组成,在该模块中,CBL层的作用是下采样,因此经过5次Res模块后,得到的特征图是608→304→152→76→38→19。Concat的作用是张量拼接,扩充维度。

表1为Darknet-53的网络模型,YOLOv3抛弃了FC层(图中没有画出),因此共有52层。

另外,在整个YOLOv3网络结构中,并没有使用任何池化层。这是为了降低池化产生的梯度负面效果,YOLO系列算法直接抛弃了池化层,使用了stride为2的卷积核进行下采样(见图3)。

YOLOv3算法生成了三个feature map:y1、y2、y3。其仿照了Feature Pyramid Network算法的思想,当前层的feature map会对下一层的feature map进行上采样,再进行张量拼接,也就是YOLOv3网络结构图中的Concat函数。以y2为例,从图2可以看到,Res4生成的feature map在经过5层CBL、1层CBL和1层Conv后,会与第二个Res8所生成的feature map进行上采样后再进行组合,再经过5层CBL、1层CBL和1层Conv最终生成y2。

在这三个feature map中,每个feature map会采用三个先验框,因此YOLOv3算法中一共有9个先验框。值得一提的是,由于输出的feature map尺寸发生变化,先验框的尺寸也需要进行调整。对于这种调整,YOLOv3算法采用K-means聚类方法。在y1、y2、y3三个feature map中,feature map尺寸越小则感受野越大。因此,y1的感受野最大,适合检测较大的目标,而y2适合检测一般体积的目标,由于y3的感受野最小,适合检测个体比较小的目标。

1.3.2 边框预测公式。由图4可以得到预测框在feature map上的中心坐标和宽高大小。为了方便将预测框还原到原图尺寸,还需要进行归一化处理,公式如式(1)到式(4)所示。

[bx=[σtx+cx]/W]    (1)

[by=[σty+cy]/H]    (2)

[bw=pwetw/W]      (3)

[bh=pheth/H]      (4)

其中,[W]和[H]分别表示feature map的宽和高;[cx]、[cy]分别是grid cell的长和宽;[pw]和[ph]分别是预设的anchor box映射到feature map中的宽和高;[σ ]为sigmoid函数;[tx]、[ty]是预测的坐标偏移值;[tw]、[tℎ]是缩放的尺度;最终得到的bx、by、bw、bh四个量分别代表图4中粗实线预测框的左上角坐标、预测框的宽和高。

2 模型训练与测试

2.1 数据集准备与模型训练

本次训练模型的数据集是通过网络爬虫、人工拍摄等多种途径获得的,然后使用LabelImg图片标注工具对获得的图像进行人工标注。将该数据集中的图像分为typhlosolis-strigt、typhlosolis-turn两类(见图5)。

因为大多数图片都是人工标注的,因此数量较少。然后将数据集按照9∶1的比例划分为训练集和测试集。使用Pytorch框架搭建YOLOv3模型进行训练,将标注后的数据集生成的xml格式的文件转换成txt格式的文件,放入训练模型中,修改相关参数后进行训练,训练完成后对数据集进行测试。

2.2 模型测试

模型测试的检测结果如图6所示,可以看出无论是单个盲道图片的识别还是多个数量的盲道识别,匹配率都非常高。在单个盲道识别中对typhlosolis-turn的判断率高达98%。并且在多数量盲道的识别中,匹配率也非常高。

3 结语

本研究采用YOLOv3目标检测算法,实现了盲道识别,旨在帮助盲人解决出行困难的问题。通过对数据集的标注、模型的多次训练,在单个盲道的识别准确率达到了98%。不同于以往基于颜色和纹理的识别算法,YOLOv3算法能够更快速、准确地识别盲道。另外,YOLOv3算法的可移植性也更強,可以较为简单地植入各类嵌入式设备中。目前YOLOv3算法已经较为成熟,相信其能够为盲道识别提供更多的新思路。

参考文献:

[1] 谢敬仁,彭霞光.中国盲人定向行走训练的现状与发展对策[J].中国特殊教育,2008(12):53-56,40.

[2] 谌小猛,鲁明辉.盲人定向行走辅具的发展现状[J].中国特殊教育,2017(9):15-20.

[3] 崔逸飞.我国导盲犬应用现状[J].中国工作犬业,2016(11):54-56.

[4] REDMON J,FARHADI A.YOLOv3:An Incremental Improvement[J].arXiv e-prints,2018.

[5] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J].IEEE Computer Society,2013.

[6] 方路平,何杭江,周国民.目标检测算法研究综述[J].计算机工程与应用,2018(13):11-18,33.

[7] ZHANG K P,ZHANG Z P,LI Z F,et al.Joint Face Detection and Alignment Using Multitask Cascaded Convolutional Networks[J].IEEE Signal Process Lett,2016(10):1499-1503.

[8] REN S Q,HE K M,GIRSHICK R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017(6):1137-1149.

猜你喜欢

深度学习
从合坐走向合学:浅议新学习模式的构建
面向大数据远程开放实验平台构建研究
基于自动智能分类器的图书馆乱架图书检测
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究