基于SSD网络的行人目标检测跟踪算法

2020-04-01郑明夏定纯胡雨阳张承

计算机与网络 2020年24期

郑明夏定纯胡雨阳张承

摘要：传统目标检测方法存在准确率低、可靠性差、效率低等问题，基于SSD（Single Shot MultiBox Detector）网络，对连续视频中行人出现的第一帧这一关键帧中的行人成功检测，根据跟踪目标连续性和目标形状不会突变的性质，再将同一视频不同帧图像中最可能属于同一行人的特征对象进行检测，将连续视频帧中框定出的目标行人的中心坐标进行保存并连接，从而得到目标行人的运动轨迹并在视频中显示。设置了置信度值解决连续帧中出现误检测的问题，在保证检测跟踪帧率的同时，成功完成对目标进行检测跟踪的任务。

关键词：SSD网络；目标检测；跟踪；轨迹

中图分类号：TP391.4文献标志码：A文章编号：1008-1739（2020）24-62-4

0引言

目标检测跟踪是计算机视觉领域中最具挑战的课题之一，广泛应用于视觉监控、人机交互、智能汽车、医疗图像及现代化军事等领域[1]。目标检测跟踪算法是在一段连续的视频图像序列中框出某物体的物理位置，并将连续帧中目标物体连接形成目标轨迹的技术。

传统算法中的行人检测效果主要取决于特征描述子，如何提取更优的描述子是众多学者研究的重点。其中最为突出的是Dalal等提出的HOG特征描述子，能有效刻画出人体的边缘特征。在2012年ImageNet图像识别比赛中夺冠的AlexNet[2]，开启了深度学习目标检测的新篇章。相比传统方法，基于深度学习的目标检测算法能够学习到更好的目标特征。

目前该领域的深度学习方法主要分为2类：基于候选区域和基于回归算法[3]。前者是先由算法生成一系列样本的候选框，再通过CNN进行样本分类；后者则不用产生候选框，直接将目标边框定位的问题转化为回归问题。本文采用的SSD网络属于后者，保证了目标检测跟踪速度的同时，确保了实验结果的稳定和准确。

1行人目标检测跟踪方法

目前各实验中使用的行人目标检测跟踪方法大致分为2种：一种是在视频流出现行人的第一帧中手动框出行人目标，在之后的每一帧，利用跟踪算法对行人进行跟踪，这个过程可以实现短时间的行人目标跟踪；另一种是使用行人目标检测算法对视频流进行逐帧行人检测，然后将成功检测出的行人目标框进行连接，得出的曲线则是该行人的运动轨迹，这个过程可以实现相对长时间的行人目标跟踪。

后者避免了手动框定这个步骤，并且此方法在对系统的运算能力，和系统配置的要求并不高的情况下，可成功地对视频中行人目标进行逐帧检测。

2传统目标检测跟踪的基本原理

传统目标检测主要基于滑窗操作[4]，可分为训练和预测2个步骤。训练主要是用来得到分类器，比如SVM。预测是使用训练好的分类器对图像中的滑动窗口进行特征提取再分类，得到检测结果。传统目标检测方法原理如图1所示。

在预测阶段有2种滑动窗口策略：一种是使用不同大小的滑动窗口，对每个滑动窗口提取特征并分类判断是否是行人，最后经过NMS得到检测结果，不同检测层的Anchor类似于不同大小的滑动窗口；另外一种策略是构造图像金字塔，只使用一种大小的滑动窗口在所有金字塔图像上滑动，对每个滑动窗口提取特征并分类判断是否是行人，经过NMS得到最后的检测结果。

3深度学习下的目标檢测跟踪方法

利用神经网络能够提取出更加鲁棒的图像特征，从而使后续跟踪方法的跟踪更加精准，进一步提升跟踪的准确度。CNN凭借其强大的特征学习和特征表达能力，被广泛地运用在计算机视觉领域，是图像目标检测中用途最广泛、使用最简单的深度学习方法。这类方法主要分为2类：一类是先由算法生成一系列作为样本的候选框，再通过卷积神经网络进行样本分类，如Faster R-CNN；另一类不用产生候选框，直接将目标边框定位的问题转化为回归问题，如YOLO[5]和SSD。

3.1 Faster R-CNN网络

经过R-CNN网络和Fast R-CNN网络逐步改进，Faster R-CNN[6]引入RPN算法提取预选框，并且将预选框通过ROI P ooling得到固定的特征图，经过全连接层得到检测结果。Faster R-CNN的网络结构示意图如图2所示，由VGG16特征提取网络、RPN网络、ROIPooling网络和全连接层分类网络构成。

3.2 SSD网络

与Faster R-CNN相比，SSD网络没有生成预选框的过程，在保证检测精度和准确率的情况下，提高了检测速度。SSD网络主要由基础网络和金字塔网络两部分组成，采用VGG16作为基础网络结构，将VGG16的全连接层FC6和FC7转换成3×3的卷积层Conv6和1×1的卷积层Conv7；随后增加了4个卷积层来构造网络结构；去掉所有的Dropout层和Fc8层；将池化层pool5由原来的stride=2的2×2变成stride=1的3×3；添加了Atrous算法，获得更加密集的得分映射。网络最后的NMS层，对行人目标成功检测。SSD网络的结构如图3所示。