基于区域的卷积神经网络在空对地车辆检测中的应用

2017-10-11彭玮航刘少鹏丁祝顺

导航与控制 2017年5期

关键词：卷积神经网络车辆

彭玮航，王轲，刘少鹏，丁祝顺

(北京航天控制仪器研究所，北京100039）

基于区域的卷积神经网络在空对地车辆检测中的应用

彭玮航，王轲，刘少鹏，丁祝顺

(北京航天控制仪器研究所，北京100039）

针对传统空对地车辆检测算法在光照变换、场景变化时检测效果不佳的问题，提出了基于区域卷积神经网络Faster RCNN模型的空对地车辆检测方法，介绍了Faster RCNN模型以及模型训练过程。实验结果表明，基于Faster RCNN的空对地车辆检测方法是可行的，对不同光照和场景下的车辆检测可以取得较好的效果。

空对地图像；车辆检测；卷积神经网络；Faster RCNN

Abstract：Considering the deficiency of traditional airborne vehicle detection algorithms in illumination changing and scene variation，the airborne vehicle detection method based on region⁃convolutional neural network(Faster RCNN）is pro⁃posed.The faster RCNN model and its training procedure are described in this paper.The experiment results show that the airborne detection method based on Faster RCNN is feasible，good results can be achieved in different illumination and scene condition.

Key words：airborne images;vehicle detection;convolutional neural network;Faster RCNN

0 引言

空对地目标检测技术最初应用于军事领域，是飞行器在空中执行侦察、打击等军事任务的核心技术，高精度、高时效以及智能化一直是目标检测技术发展的核心需求。空对地车辆检测技术作为空对地目标检测技术的子课题，车辆检测可以用于跟踪特定车辆，在区域监控、安防等军事领域有着重要的作用；在民用方面，空对地车辆检测技术可以提供车流量信息，在智能交通等领域有着重大的应用价值。因此，空对地车辆检测技术的研究有着重要的意义。

在计算机视觉领域，空对地车辆检测是一项极具挑战性的研究课题。一方面，飞机、卫星获取的地面图像分辨率相对较低；另一方面，图像中车辆目标通常很小，视角的改变容易导致车辆目标的长宽比发生变化，而且环境中的矩形物体还容易造虚警。文献[1]提出了一种层次化的三维车辆检测模型，利用车辆的几何形状特征和颜色信息，通过模板匹配的方式实现空对地车辆检测。文献[2]将车辆颜色统计信息、结构对称性以及多尺度HOG特征结合在一起，形成高维特征向量，利用偏最小二乘法进行特征降维，实现车辆检测。由于航拍图像中光照和背景变化很大，基于形状、颜色的方法对于图像中的车辆检测效果不佳。对于数据较少的情况下，基于特定图像特征的方法能取得较好的效果，但是面对不同场景、大量图像的情况下，则会出现对目标描述能力不足的缺陷，难以在实际场景中应用。

近年来在目标检测领域，基于深度学习的方法在检测效果上远超过了传统的基于特定图像特征的研究方法。作为深度学习的重要分支，基于区域的卷积神经网络(Region based Convolutional Neural Networks，RCNN）在通用目标检测中已经获得了比较好的效果。但是，传统的区域生成策略非常耗时，限制了RCNN方法的工程应用，而其改进模型Faster RCNN在检测结果和检测速度上均有良好表现。因此，本文提出了基于区域的卷积神经网络Faster RCNN模型的空对地车辆检测方法，在大量航拍数据的基础上训练网络模型，通过实验效果分析Faster RCNN在空对地车辆检测应用中的可行性。

1 卷积神经网络概述

卷积神经网络是一种前馈神经网络［3⁃4］，网络中的神经元接受上一层的输入，并赋以不同的权重计算。同一般的神经网络不同，CNN中的神经元只同输入区域中的一小部分区域连接，这一小部分区域被称作感受野(Receptive Field），而且网络中每一层中的神经元有3个维度：宽度、高度以及深度。CNN的这种设计结构主要是对空间信息进行编码，因此更适用于与图像相关的任务。典型的CNN主要由卷积层、池化层以及全连接层这3种层组成，结构如图1所示。卷积层主要进行特征提取；池化层调整特征大小，降低计算复杂度；全连接层是一种多层感知器，全连接层中的所有神经元全部连接到上一层的所有神经元，主要用于分类任务。

图1 一种CNN结构图Fig.1 Structure of CNN

2 基于区域的卷积神经网络模型

2.1 Faster RCNN模型设计

经典的目标检测算法使用滑动窗口的办法依次在图像中判断物体可能存在的区域，而基于RCNN的检测方法则是预先提取出物体可能存在的候选区域，然后在候选区域内利用神经网络自动自取图像特征，这种方式大大提高了检测速度［5］。2014年，Girshick提出基于区域的卷积神经网络模型RCNN［6］，利用 Selective Search生成候选区域，在候选区域中利用卷积神经网络提取特征，奠定了利用候选区域生成和卷积神经网络进行物体检测的模型基础。其改进模型Fast RCNN［7］提出了Region of Interest Pooling层，克服了RCNN对于输入图片尺寸的限制，进一步提高了检测精度，在不考虑区域生成部分计算时间下，达到了接近实时的效果。上述模型中，提取候选区域的部分依然是利用手工设计的特征，如 selective search、EgdeBox等，而且都是在CPU上实现的，这使得计算候选区域成为了整个模型的时间瓶颈［8］。

针对以上RCNN模型的不足，在Fast RCNN基础上，Ren等设计了Faster RCNN模型［9］，生成候选区域的网络和用于检测的Fast RCNN共享卷积网络，使得候选区域生成在GPU上实现，大大降低了生成候选区域的检测时间，在提升检测准确率的同时，达到了接近实时的效果。本文用于空对地车辆检测的卷积神经网络模型为Faster RC⁃NN，模型由区域生成网络(RegionProposal Network，RPN）以及检测网络 Fast RCNN构成，RPN产生目标可能存在的区域；Fast RCNN实现对区域的分类，并且对目标的包围框进行微调。RPN和Fast RCNN共享卷积网络的方法解决了目标候选区域提取效率低的问题，模型结构如图2所示。

图2 Faster RCNN模型结构图Fig.2 Structure of Faster RCNN

RPN的作用是生成感兴趣区域。输入图像经过共享卷积层生成卷积特征图，然后用一个3×3的窗口以滑动方式对卷积特征图进行计算，这样对于滑动的每一个位置可以得到256维的特征向量。为了实现目标不同尺度和比例的检测，引入anchor的概念，对于滑动的每一个位置，用3种尺度(80×80，160×160，320×320）和 3种不同比例(1∶1，1∶2，2∶1）组合的共9个 anchor对目标可能存在的包围框位置进行预测。经过非线性处理后，得到的特征向量作为两个全连接层(分类层和边界框回归层）的输入，滑动窗的处理方式保证了分类层和边界框回归层彼此关联特征空间。由分类层判断特征向量代表物体或是背景，由边界框回归层给出生成区域的坐标。用于训练分类层和边界框回归层的多任务损失函数定义如式(1）所示。

式中，i为一个小特征图块中anchor的下标，pi是第i个anchor为目标的概率。是分类标签，当anchor代表正样本时，；若anchor为负样本，。ti为预测包围框的参数化坐标；为正样本的真实边界框坐标。Ncls代表最小图像块的数量，Nreg代表anchor位置的数量，两者用于归一化处理，并且由参数λ平衡。分类损失和边界框回归损失如式(2）、式(3）所示，R为鲁棒的损失函数，定义如式(4）所示。

Fast RCNN的输入来自于输入图像和RPN产生的一系列候选区域。对于每一个感兴趣区域框，由ROI池化层从共享卷积层生成的特征图中提取固定长度的特征向量。特征向量经过全连接层的处理后，输入到softmax分类层和边界框回归层。共享卷积层的选取通常有两种——ZFnet［10］和VGG16［11］。在本次研究中，选择网络结构相对简单的ZFnet，它包含5个卷积层。

2.2 模型训练

在网络训练部分，基于随机梯度下降原理，并采取RPN同Fast RCNN交替训练的方法，即先训练RPN，再用得到的区域训练Fast RCNN。首先进行RPN的训练，利用Imagenet图像分类预训练的模型初始化网络参数，利用反向传播算法对RPN进行优化。

在训练过程中，所有的anchor被分为正样本、负样本两类。分类准则是根据交除重叠比(Intersection over Union，IoU），同标注框IoU值最大或者与标注框IoU大于0.7的anchor被分为正样本；同所有标注框IoU值小于0.3的anchor被分为负样本。对前3/4的小批量采样图像，学习率设定为0.001；再对剩下的小批量采样图像以0.0001的学习率训练；动量和权重衰减设定为0.005。

在上一步得到候选区域框的基础上对Fast RCNN进行训练。对于网络参数的初始化，同样采用Imagenet图像分类预训练的模型初始化网络参数。然后利用得到的网络初始化RPN，同时保持卷积层参数不变，微调RPN剩下的部分；同样保持卷积层参数不变，利用RPN的结果对全连接层进行微调。

3 实验

3.1 实验数据

针对目前公开的空对地车辆检测数据集相对较少的现状，建立了空对地车辆数据集，并划分成训练集和测试集两部分，分别用于Faster RCNN模型的训练以及检测效果的验证。其中，训练集包含正样本4572例，均为小型汽车，部分车辆样本如图3所示。通过手动标定车辆正样本，并且参照PASCAL数据集的格式对车辆目标在图像中的位置进行记录。

图3 数据集样例Fig.3 Samples in the dataset

3.2 实验环境

为了验证基于Faster RCNN的空对地车辆检测算法的有效性，在Linux环境下对自建测试集中车辆目标进行检测。实验采用的PC系统为Ubuntu 16.04⁃64位，GPU为基于Maxwell架构的NVIDIA Geforce GTX 960M，显存为2G，CUDA处理器核心数为640；基于CAFFE框架搭建Faster RCNN模型，编程语言为Python。

3.3 实验结果与分析

将测试集中的图像分为两种，一种是在道路场景下，背景相对简单；一种是在城市场景下，环境相对复杂，检测效果如图4所示。包围框给出了检测结果，包围框上方给出了检测结果所属的类别及得分。从实验结果可以看出，在两种场景下都取得了比较好的检测效果。对于图4(b）中典型的城市场景，即使存在较多外形同车辆目标相似的矩形区域，如屋顶空调外机等设施，本文模型误检率很低。这是因为Faster RCNN模型具有良好的端到端自动学习能力，避免了传统方法过于依赖车辆目标外形先验信息的缺陷。

图4 检测效果图Fig.4 Detection results

需要指出的是，在图5(b）中存在少量深色车辆的漏检以及包围框位置不够精准的问题。这主要是因为深色车辆环境区分度相对低一些，特别是在图像分辨率不足的条件下，深色车辆的特征描述更为困难。为了检测模型在更为困难的环境条件下的效果，对车辆目标在阴影以及目标被部分遮挡的情况进行了检测实验。从图5(a）可以看出，车辆目标在阴影条件下依然能够被检出，说明卷积神经网络自动提取的特征具有良好的光照不变性；而图5(b）车辆目标存在部分遮挡的条件下，没有很好地被检测出来，说明模型在目标部分遮挡时效果有待提高。

图5 遮挡和阴影条件下的检测结果Fig.5 Detection results under occlusion and shadow conditions

为了衡量算法的检测效果，定义检测质量因子为：

式(5）中，TP为正确检测出的车辆目标个数，FP为虚警目标个数，NP为漏检车辆目标个数。表1给出了本文方法对5幅航拍图像的检测统计结果，可以看出，基于Faster RCNN的空对地车辆检测方法具有较好的检测性能。

表1 精度评价Table 1 Accuracy assessment

4 结论

本文研究了基于区域的卷积神经网络在空对地目标识别任务中的应用，对Faster RCNN模型设计和训练进行了介绍，通过建立空对地车辆数据集，完成了模型的训练和效果的验证。实验结果表明，基于区域的卷积神经网络模型Faster RCNN在空对地车辆检测方法能够取得较好的检测效果，而且能克服传统方法受光照影响较大的缺点。由于训练样本数量的限制，本文仅测试了模型对于小客车车型的效果，后续研究重点将是更复杂的网络结构对于检测精度的影响以及对于其他种类的小目标的检测效果。

[1]Hinz S.Detection and counting of cars in aerial images[C].International Conference on Image Processing,2003:997⁃1000.

[2]Kembhavi A,Harwood D,Davis L S.Vehicle detection using partial least squares[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(6）:1250⁃1265.

[3]卢宏涛,张秦川.深度卷积神经网络在计算机视觉中的应用研究综述[J].数据采集与处理,2016,31(1）:1⁃17.LU Hong⁃tao,ZHANG Qin⁃chuan.Applications of deep convolutional neural network in computer vision[J].Journal of Data Acquisition and Processing,2016,31(1）:1⁃17.

[4]刘江玉,李天剑.基于深度学习的仓储托盘检测算法研究[J].北京信息科技大学学报(自然科学版）,2017,32(2）:78⁃84.LIU Jiang⁃yu,LI Tian⁃jian.Research of warehouse pallet detection algorithm based on deep learning[J].Journal of Beijing Information Science＆Technology University,2017,32(2）:78⁃84.

[5]Jiang H,Learned⁃Miller E.Face detection with the faster R⁃CNN[C].12thIEEE International Conference on Auto⁃matic Face ＆ Gesture Recognition,2017:650⁃657.

[6]Girshick R,Donahue J,Darrell T,et al.Rich feature hier⁃archies for accurate object detection and semantic segmen⁃tation [C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:580⁃587.

[7]Girshick R.Fast R⁃CNN[C].Proceedings of the IEEE In⁃ternational Conference on Computer Vision,2015:1440⁃1448.

[8]任少卿.基于特征共享的高效物体检测[D].中国科学技术大学,2016.REN Shao⁃qing.Efficient object detection with feature sha⁃ring[D].University ofScience and Technology ofChina,2016.

[9]Ren S Q,He K M,Girshick R,et al.Faster R⁃CNN:to⁃wards real⁃time object detection with region proposal net⁃works[J].IEEE Transactions on Pattern Analysis ＆ Ma⁃chine Intelligence,2017,39(6）:1137⁃1149.

[10]Zeiler M D,Fergus R.Visualizing and understanding con⁃volutional networks[EB/OL].http: //ftp.cs.nyu.edu/～fergus/papers/zeilerECCV2014.pdf.

[11]Simonyan K,Zisserman A.Very deep convolutional net⁃works for large⁃scale image recognition[J].Computer Sci⁃ence,2014.

Application of Region Based Convolutional Neural Network in Airborne Vehicle Detection

PENG Wei⁃hang,WANG Ke,LIU Shao⁃peng,DING Zhu⁃shun
(Beijing Institute of Aerospace Control Devices,Beijing 100039）

TP391.41

1674⁃5558(2017）01⁃01451

10.3969/j.issn.1674⁃5558.2017.05.007

2017⁃08⁃03

彭玮航，男，硕士，仪器科学与技术专业，研究方向为图像处理及目标识别。