基于深度学习的目标检测综述

2020-05-18白梦璇李帅阳齐立萍

科技视界 2020年9期

关键词：尺度物体卷积

白梦璇李帅阳齐立萍

摘要

近年来，深度学习的快速发展，推动了目标检测算法的应用，深入学习方法在目标检测领域得到了有效的验证。首先，本文介绍了各种有效的目标检测算法。其次，分析了目标检测在现实各个领域中的广泛应用。最后，提出了目标检测未来的发展方向。

关键词

深度学习;目标检测;应用领域

中图分类号： TP391.3;TP18 文献标识码： A

DOI：10.19694/j.cnki.issn2095-2457.2020.09.059

0 引言

随着计算机网络的快速发展和人工智能时代的到来，深度学习[1]技术突飞猛进，同时也促进目标检测技术的发展。目标检测是一种与计算机视觉和图像处理相关的计算机技术，它主要是对数字图像或者视频中的多个目标进行识别和定位。目标检测在安全、军事、交通、医疗等领域均得到了广泛的应用。

1 目标检测技术

传统的目标检测可分为三个步骤：首先选择图像中的候选区域，之后提取Haar、HOG等视觉特征，最后基于支持向量机模型、RF模型等常用分类器进行分类。

随着深度学习技术的发展，可以自动学习图像特征，而不需要手工设计特征，同时可以使物体检测效率极大提高，因此基于深度学习的目标检测技术得到广泛应用。

1.1 基于区域提取的两阶段目标检测

（1）R-CNN[2]：R-CNN是第一个基于CNN的、在数据集PASCAL VOC上应用的物体检测方法。R-CNN由四个步骤构成。第一步，生成多个与类别无关的区域;第二步，从每个区域中学习提取CNN特征;第三步，基于支持向量机算法，对图像中的多个目标对象进行分类;最后一步用边界框回归模型，得到更为精确的物体位置。R-CNN的缺点在于候选区域由传统算法生成，速度受到限制;且需要对每个候选区域单独进行卷积，性能差。

（2）SPP-Net[3]：SPP-Net在卷积层和全连接层之间，加入了空间金字塔池化结构，对整个输入图像进行一次性特征提取，生成固定尺度的图像。其优点在于有效降低了R-CNN“人为”对输入图像进行裁剪、缩放等操作时，造成的裁剪不全、形状扭曲等问题。同时，相对于R-CNN的单独卷积，SPP-NET共享卷积层，大大提高了图像处理速度，降低了计算成本。

（3）FAST R-CNN[4]：与SPP-Net結构类似，首先，从整个输入图像中提取一次特征卷积;然后通过ROI池化层，获得固定的特征，一次性发送给全连接层，实现分类，将分类损失和边框回归损失合二为一;最后输出分类和边框坐标。其优点在于，与将每一个区域输入卷积层的R-CNN相比，节省了大量时间和磁盘存储空间。另外，使用ROI池化层从不同大小的区域中提取固定大小的特征图，避免了对区域进行扭曲，同时保留了区域特征的空间信息。

（4）FASTER R-CNN[5]：FAST R-CNN采用选择性搜索ROI，运算量大，运算时间慢，难以进行加速。而FASTER R-C NN用一个新的RPN代替FAST R-CNN，对广泛尺度和纵横比的区域有效地进行预测，先判断候选框是否符合目标特征，之后经过多任务损失函数进行目标分类。在这个过程中，RPN与检测网络共享卷积层的特征，加快了区域的生成速度。

1.2 基于回归的单阶段目标检测

（1）OverFeat[6]：OverFeat首先通过多尺度滑动窗口技术提取待测图像。之后，在分类模型中，通过单尺度训练，多尺度多视觉测试，预测出每个图像的类别。最后，使用多尺度边界框回归模型，定位出目标位置。OverFeat的优点在于，利用多尺度滑动窗口技术，解决了目标尺寸不一致、形状复杂等问题;同时，分类、定位、检测三大任务共享特征提取层。

（2）YOLO[7]：YOLO将一幅图像分成若干个网格，每个单元格会预测边界框以及边界框的置信度。所谓置信度包含两个方面，一是该框中目标存在的可能性大小，二是该边界框的位置准确度。完成边界框的预测之后，再对边界框中的物体进行分类。YOLO速度较快，且具有误判率低，可对抽象物体的特征进行预测的优点。YOLO的缺点在于，检测精度低、易产生定位错误，且不能对密集的小物体进行检测。

（3）YOLOv 2[8]：YOLOv 2是YOLO的第二个版本，它采用一种新的分类主干Darknet-19，在每个卷积层中添加了BN层进行预处理，获得更好的收敛效果。YOLOv 2将ImageNet数据集上的预训练分为224×224和448×448两阶段，缓解分辨率切换造成的影响。另外，引入先验框，采用对训练集的边框做聚类，找到合适的先验框尺度，来增加候选框的预测。总之，YOLOv 2处理图像时，解决了YOLO难以对小目标进行检测的问题，操作简单、精度高，速度更快，识别对象也更多。

（4）YOLOv 3[9]：YOLOv 3是YOLOv 2的改进。首先，YOL Ov 3使用逻辑回归对置信度进行预测。其次，利用三种不同尺寸的特征映射来预测边界框。另外，YOLOv 3提出了一个更稳定的特征提取器Darknet-53。但是，YOLOv 3在大型物体的目标检测中不占优势。

2 应用领域

2.1 安全领域

目标检测在安全领域的应用主要体现在人脸识别、行人检测等方面。人脸识别，主要是识别在不同状态、光照以及分辨率的情况下，人脸特征的具体变化。行人检测主要是检测不同自然条件下的行人。

2.2 军事领域

目标检测在军事领域方面的应用则主要体现在遥感目标的探测。遥感目标检测主要是对遥感图像以及视频中的物体进行检测。但是由于遥感信号的输入量庞大，而目标物体小，导致目标检测很难进行。同时，背景庞大且伴随噪音的影响，经常会有虚假检测误导。

2.3 運输领域

目标检测在汽车领域的应用主要体现在车牌识别和交通标志识别等方面。车牌识别主要是对违法违规行为进行信息跟踪，获取边缘信息，帮助司法部门工作的开展;交通标志识别主要是在司机驾驶过程中为其提供时间和空间信息，保证安全驾驶。

3 结论

随着计算机技术的发展，基于深度学习的目标检测技术得到了迅速的发展。极大提高了目标检测的精确度，虽然目标检测在安全、军事、运输等领域的应用越来越广泛，但是检测领域在其他生活领域的分支，仍然有很大的发展空间。

参考文献

[1]LeCun Y.， Bengio Y.，Hinton G.（2015） Deep learning.Nature 521：436，444.

[2]Girshick R B，Donahue J，Darrell T，et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic egmentation[J].computer vision and pattern recognition，2014： 580-587.

[3]He Kaiming，Zhang Xiangyu，Ren Shaoqing，Sun Jian. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition.[J].IEEE transactions on pattern analysis and machine intelligence，2015，37（9）.

[4]GIRSHICK R.FAST R-CNN[C]//Fast R-CNN.Proceedings of the IEEE International Conference on Computer Vision.2015：1440-1448.

[5]REN S，HE K，GIRSHICK R，et al.Faster R-CNN：Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Pro cessing Systems.2015：91-99.

[6]OverFeat：integrated recognition，localization and detection using convolutional networks.Sermanet P，Eigen D，Zhang Gang，et al.http：//arxiv.org/abs/1312.6229. 2013.

[7]REDMON J，DIVVALA S，GIRSHICK R，et al.You only look once：unified，real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016：779-788.

[8]REDMON J，FARHADI A.YOLO9000：better，faster，stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017：72 63-7271.

[9]Redmon J，Farhadi A.YOLOv3：An Incremental Improvement[J].arXiv：Computer Vision and Pattern Recognition， 2018.