浅谈深度学习在目标检测中的发展

2017-05-30李美玲

科技风 2017年24期

摘要：随着人工智能技术的飞速发展，汽车自动驾驶、无人零售商店等应用正在转变为现实，视频目标检测是人工智能领域中的一个研究热点，当前基于深度学习的目标检测技术已取得许多进展，本文对当前主流目标检测技术进行总结，指出以区域提名为思想和以端到端学习为思想的两大深度学习目标检测方法，同时，重点分析各自的优势和缺点。

关键词：目标检测；区域提名；端到端；深度学习

目标检测是计算机视觉领域的重要应用之一，深度学习算法在目标检测方面已经取得了重大进展[1]。目标检测可以概述为一个分类问题，目的为识别图像中存在的所有物体对象，并且能够获取对象的确切位置。

本文总结了当前主流的目标检测算法，重点分析以区域提名为思想和以端到端学习为思想的两大目标检测方法，指出各自的优势和缺点，最后分析当下目标检测面临的问题和发展趋势。

1 基于区域提名的目标检测

区域提名，即为确定图像中物体对象所在位置而预先提出候选区域的方法。当前主流的基于区域提名的目标检测算法有：RCNN、SPPNet、Fast RCNN、Faster RCNN等。

1.1 RCNN

Ross Girshick于2014年提出的RCNN算法为深度学习转向目标检测领域的首次突破，并且获得年度最优目标检测算法[2]。RCNN改变了目标检测的传统思想，后续许多文献均以此作为改进。以下为其主要算法步骤：

1）区域提名：从原始图片中使用选择性搜索算法提取大概2000个候选区域；

2）归一化处理：所有候选框均被缩放成统一的尺度，原文为227×227；

3）特征提取：通过预先训练好的CNN网络提取候选框的特征表示；

4）分类及回归：特征层之后衔接两个全连接层，用SVM作分类，并使用线性回归微调边框的大小与位置。

RCNN虽然在目标检测mAP结果上有了新的提升，但存在候选框数量众多且重复计算导致计算量大、SVM模型需进一步优化、算法各个步骤的中间数据需单独保存致使硬盘占用大、检测运行速度极为缓慢等的缺点。

1.2 SPPNet

SPPNet为基于RCNN改进的具有更快速度的目标检测算法[2]，其提出了一種空间金字塔池化层，主要是为了解决RCNN中候选框需被缩放成统一大小而导致物体拉伸变形严重的问题。其对RCNN的改进主要体现在步骤2）与步骤3），SPPNet将步骤2）中候选区域边长缩放至长、宽的最短边，即固定了长、宽的最短边长度；对于步骤3）则在CNN的卷积层与全连接层中间添加了空间金字塔池化层。而其他方面仍与RCNN一致，故依然存在不少的缺点。

1.3 Fast RCNN

针对RCNN和SPPNet存在的缺点，Ross Girshick于2015年提出了Fast RCNN[2]，主要的改进地方为：首先通过CNN得到整张图片的特征层，之后把所有候选框投影至1）得到的特征层，这样可以共享特征层，以达到节省计算的目的；此外，使用一种称为RoIPooling的简化SPP层，用以提取特征层上各个候选框的固定维度的特征表示；在分类及回归方法上，则不再使用SVM模型，而改为用SoftMax作分类，以多任务学习的方式同时进行分类和回归。

Fast RCNN不再需要额外硬盘存储训练和测试各步骤的中间值，其测试速度相较于RCNN提高了213倍，相较于SPPNet提高了将近10倍。

1.4 Faster RCNN

虽然SPPNet和Fast RCNN的出现大大降低了目标检测的运行时间，但所采取的区域提名方法仍然是速度提升的瓶颈。针对该问题，Faster RCNN[2]直接利用RPN网络提取候选框，区域提名、分类、回归等操作一起共用卷积特征，进一步提升了速度。

2 基于端到端学习的目标检测

端到端学习为无需预先提取区域候选框的一类目标检测方法。目前该方法的代表为YOLO[3]、SSD[3]。

2.1 YOLO

YOLO简化了目标检测的整个流程，视频帧图像被缩放至统一尺度大小的图像，分为S×S个格子，每个格子需要预测B个包含物体的矩形框的信息和C个类别的归属概率值，每个矩形框包含4维坐标信息和1维目标置信度，则每个格子输出5×B+C维向量。YOLO整合了目标判定和识别，运行速度有了极大的提高。

YOLO的优势在于检测速度快、背景误检率比RCNN等要低、支持对非自然图像的检测；但是存在的缺点有：物体定位误差大、落入同一格子的两个物体只能检测得其一。

2.2 SSD

由于YOLO网络的S×S网格的粗糙划分导致了回归的目标位置误差较大，SSD借鉴了区域提名的思想作出改进，使用与Faster RCNN类似的RPN网络，不同的是SSD在CNN的多个特征层上使用RPN之后再作分类和边框回归，原图上小物体的检测也能有较准确的检测结果。

与YOLO相比，SSD仍能保持快速的检测速度，并且改进了小物体的定位精确度。

3 结语