基于深度学习的复杂场景下小目标识别研究
2021-07-05陈晓宁赵健
陈晓宁 赵健
(1.东莞职业技术学院 广东省东莞市 523808 2.西北大学 陕西省西安市 710200)
当感知设备远距离成像时,会导致目标成像尺寸较小,成为分辨率低、特征不明显的小目标。尤其在复杂的室外环境下,当出现光照变化、树木及非目标物体遮挡、目标尺度变换等多种情况,对目标的正确识别造成巨大的困难。因此在复杂场景下对小目标检测在计算机视觉中是一项具有挑战性的任务[1]。小目标因为分辨率低,图像模糊,表观信息少,造成所能提取的特征也较少[2]。目前典型的方法是设计多尺度神经网络提取不同水平的特征,以适应不同大小的物体检测任务;另一种流行的方法是使用反卷积扩大深度特征图[3]。这些方法消除了物体尺度变化的问题,但仍然不能很好地检测小物体。
近年来,国内外关于小目标检测领域研究主要采用深度学习的方法[4]。Girshick R 等人提出的基于区域提取R‐CNN 算法[5],成为R‐CNN 系列目标检测算法的奠基之作。He K 等人在卷积神经网络中设计一种空间金字塔池化层,使卷积神经网络能够处理任意大小的候选区,克服了多尺度提取、小目标特征表达能力较弱的问题,解决了卷积神经网络只能接受固定大小输入的限制[6]。Razakarivony S 等人发现大多数算法对小目标检测的效果都不尽如人意[7],因此提出了VEDAI 航拍车辆小目标数据库,为验证小目标检测算法提供了平台;Takeki A 等人针对大背景区域下小目标检测问题,提出一种基于深度卷积神经网络在大范围视场区域内检测鸟类小型目标的模型[8],其为基于深度学习的目标检测算法与语义分割方法相结合,训练一个深度全卷积神经网络和其变体,并通过支持向量机进行聚类,从而实现高检测性能;Liu W 等提出SSD 算法[9],采用基于回归模式,在一个网络中直接回归出物体的类别和位置,在特征图上采用卷积核来预测一系列默认候选框的类别分数及偏移量,在不同尺度的特征图上进行预测,实现端到端的训练,提高检测速度。Fu CY 等人针对SSD 算法在小目标检测上存在的问题提出一种改进的 DSSD 算法[12],将SSD 算法基础网络使用Res Net‐101 代替原来的VGG‐16,改进了SSD 算法对被遮挡物体或小物体的检测效果;Redmon J 等人引入了一个先进的实时目标检测系统YOLO9000[10],该系统可以检测超过 9000 个目标类别,在一定程度上提升小目标检测效果。Yi K 等人提出KB‐RANN 的大脑启发网络,用于交通标志检测(TSD)任务[14],TSD 作为援助系统和自动驾驶领域顶层驱动程序的基础,是一个典型的小目标检测任务。Lin TY 等人在 Faster R‐CNN 网络基础上提出一种具有横向连接的特征金字塔网络(FPN)[12],利用多尺度特征和自上而下的结构实现目标检测。Singh 与Bharat 等人提出了SNIP 的尺度不变性目标检测架构,通过学习不同尺度的目标,提高小目标的检测性能[15]。Singh 等人提出一种多尺度(multi‐scale)训练算法SNIPER[16],利用金字塔思想实现对图片上不同大小目标的检测。最近,Zhang C等人从定位和分类两方面实现搭建伪监督目标定位网络,提出了利用伪监督目标定位方法(PSOL)来解决多尺度小目标问题[17],对小目标物体检测达到了较好的效果。
综上所述,从多尺度小目标增强方法的国内外研究现状与发展趋势中可以看出,深度学习技术在检测小目标任务中,表现出一定的识别优势,且检测性能逐年优化,但是检测任务的多样化以及检测背景的复杂化使得小目标检测算法在语义分析、样本挖掘等方面面临诸多问题,本论文以深度学习为基本网络框架,在Faster R‐CNN基础上,提出改进的Faster R‐CNN 小目标识别算法,进一步提升在复杂场景下小目标物体的检测精度。
1 基于改进的Faster-RCNN小目标识别
感知设备远距离成像时,会导致目标成像尺寸较小,成为分辨率低、特征不明显的小目标,目前通用的深度学习网络检测器提取到的目标特征较少,造成分类器对小目标的分类效果差,小目标的检测效果不佳,无法达到正确识别目标的目的。为了解决以上问题,本论文提出了一种改进的Faster RCNN 小目标识别算法,通过设计特征提取结构来融合多层特征信息,同时优化候选区域生成方法和卷积神经网络结构,提高算法效率。
1.1 Faster-RCNN相关理论
Faster‐RCNN 是目前基于卷积神经网络实现目标检测和分类具有代表性的算法。它是在R‐CNN 和Fast‐RCNN 基础上改进实现的。其在候选框选取的部分,利用RPN(region proposal network)代替前两者采用的滑框算法 ,Faster RCNN 不管是在检测精度还是在算法效率上都表现出较好的特性。Faster R‐CNN 的网络结构见图1。
图1:Faster-RCNN 算法流程
Faster‐RCNN 算法主要由三部分构成,包括利用CNN 网络提取特征、利用RPN 实现候选区域位置以及最后的分类和回归。Faster‐RCNN 最大的优势就是在候选框的选取算法采用RPN,使得候选框数量从约2000 个降低到约300,并且候选框质量更高。下面详细介绍RPN 算法思路。
首先,RPN 在网络训练时,利用交并比(Intersection over Union),后面简记为IoU,作为指标对样本进行分类。IoU 的计算如公式(1)所示:
I(X)、U(X)分别表示数据的交集和并集。当IoU 大于0.7 时,结果记为正样本,当小于0.3 是记为负
样本。在训练过程中RPN 的损失函数定义如公式(2)所示:
1.2 多特征融合的Faster-RCNN算法
随着深度学习在图像处理领域的发展,卷积神经网络对图像的特征提取表现出优异的效果。尤其是随着AlexNet[2]的问世,深度卷积神经网络在图像特征提取及分类中表现出了优秀效果。低层的卷积网络,提取图像的浅层特征,包括图像的纹理,边缘等细节信息。越往高层的卷积神经网络,提取的特征越能更好的表达图像的语义信息。然而高层的特征经过了多次卷积及池化操作,使得图像的更多细节信息被忽略[18]。因此对于一个图像中的小目标来说,仅仅通过高层特征无法获得更多细节信息,甚至无法识别到小目标信息。Faster RCNN 算法中仅采用最后一层的高层语义特征作为候选区域特征,通过这样的方式获得的候选区域特征无法更好的实现对小目标的检测。因此,为了获得更多的小目标图像细节信息,本文采用多层特征融合的方式,将底层特征中的更多细节信息作为候选区域特征,提高小目标的检测效果。本文的整体网络构成如图2所示。
图2:整体网络结构
如图2所示,为了获得不同层次的图像特征,本论文采用ResNet50 作为图像特征提取基本不同层次的神经元对应的感受野大小不同,因此不同层次的特征对于的RPN 不同。底层的神经元对应的感受野较小,所以对应的anchor box 较小,高层的神经元对应的感受野较大,对应的anchor box 也较大。通过RPN 得到候选区域后,获得特征图的映射。由于获得的映射大小不同,因此,通过ROI 池化操作,将不同大小的特征统一为相同大小。最终将得到的网络。将不同深度卷积层提取的图像特征分别经过各自的RPN 模块,生成对应的候选区域。由于各个深度的特征进行分别送入分类器,并将得到的残差进行融合,得到最终分类结果。本论文中将深度卷积神经网络ResNet50 的不同深度卷积层进行融合,如图2所示,分别选择ResNet3d、ResNet4f和ResNet5c这三层作为图像提取特征。不同深度特征对应的RPN 不同,因此对于选择的特征层设置不同尺度的滑动窗口。
1.3 损失函数
损失函数设计的优劣直接关系到最终模型的优劣。在Faster‐RCNN 模型中分类函数采用的是SmoothL1[18],函数如式(3)所示:
其中smoothL1损失函数基于交叉熵函数。然而对于小目标来说,其在整副图像中所占像素比例非常小,因此导致在训练集中负样本远远小于正样本。因此会导致在进行模型训练时,参数并不能达到较好的更新,使得分类结果变差。因此,为了克服这一问题,本论文中给正负样本分配不同的权值,提高模型识别准确率。如公式(4)所示:
损失函数最终由置信度误差Lconf和位置误差Lloc组成。其中c为类别预测。l 为位置预测,g 为标注样本位置的位置,N 为预测出的正样本个数。
2 实验结果
2.1 数据集
本文实验采用的数据集为通过网络搜索获得的航拍汽车数据集,论文中数据集简称为Car,通过搜集整理,数据集共有1280 张汽车图像,汽车基本为小目标。在实验中,首先对数据集进行扩充,采用旋转,加噪声等方式,扩大数据集。实验中采用80%作为训练集,其余的测试集。如图3 中,展示了部分Car 小目标图像。
图3:数据集Car 中部分图像
PASCAL VOC2007 作为标准数据集,是目标检测、图像分类和图像分割的基准数据集。包括飞机、自行车、鸟、瓶子、船、猫、小汽车等20 中目标物体。因此为了进一步证明算法的先进性,本论文中同时也采用了本数据集进行验证。
2.2 性能评估指标
平均检测精度均值(mean Average Precision mAP)被广泛用来评估目标检测的性能度量标准。在这里,首先需要介绍准确率(Precision)和召回率(Recall)。假定将正样本正确预测为背景的样本数量表示为TN(Ture Negative),将负样本预测为背景的样本数量表示为FN(False Negative),正样本预测为前景的样本数量表示为TP (True Positive),将负样本预测为前景的样本数量表示为FP (False Positive)。准确率(P)可以反映一个类别的预测正确率,其计算公式如(5)所示:
召回率(R)表示实际为正样本的所有样本中,被预测为正样本的数量所占比例。其计算如公式(6)所示:
准确率和召回率相互影响,相互制约。一般情况下,准确率高,召回率就低,如果出现两者都低的情况,说明网络出现了问题。通常以R 为横坐标,以P 为纵坐标,绘制对应的P‐R 曲线,而单一目标检测的平均精度(Average Precision AP)即为P‐R 曲线与坐标轴围成的面积。均值平均精度(mAP)是指对多个单目标的检测平均精度的均值。在本论文中研究的对象为单目标,因此mAP 即为AP。
2.3 实验结果
本文采用多特征融合方式实现小目标检测。通过对比多种方法的平均检测准确率,证明算法的先进性。首先针对Car 数据集进行实验对比,具体实验结果如表1所示。从表1 中可以看出采用多特征融合的改进型Faster‐RCNN 算法,平均检测准确率最高,较原本的Faster‐RCNN 算法高出9.86 个百分点。
表1:不同检测算法性能在Car 数据集上的对比
为了进一步验证算法的先进性,论文在公开数据集VOC2007上进行了进一步验证。具体结果如表2所示。其中对比多种算法的平均检测准确率,可以发现,本论文算法具有最好的检测效果,高出算法[9]33.97%,高出Faster‐ RCNN 为5.26%。进一步证明了本算法的先进性。
表2:不同检测算法性能在VOC2007 数据集上的对比
3 结束语
目标检测由于其广泛的应用,一直受到众多研究者的关注。随着深度学习的兴起,目标检测算法也得到了快速发展。但是当前算法对于小目标图像的检测识别达不到满意效果。因此本论文提出多特征融合的改进Faster‐ RCNN,算法将图像的低层纹理特征和高层语义特征分别用来产生候选特征,并对损失函数进行改进。实验证明,本论文提出的算法优于其他算法,高出原始Faster‐RCNN 算法9.86%,对于小目标图像具有较好的检测效果。