APP下载

深度学习的多尺度多人目标检测方法研究

2020-03-19钱美伊王传旭

计算机工程与应用 2020年6期
关键词:层级尺度损失

刘 云,钱美伊,李 辉,王传旭

青岛科技大学 信息科学技术学院,山东 青岛266000

1 引言

目前,深度学习是计算机视觉领域的主流研究方法[1-2],通过神经网络,计算机可以自己学习待检测目标的特征,并且比人工提取的特征能够更好地表达目标的特性[3]。这样做的好处是,无需人工干预,极大地减轻了人力负担,同时又能让其具有很好的鲁棒性[4]。

人体目标检测,是计算机视觉的一个重要应用方向[5]。基于传统方法的人体目标检测,包括HOG+SVM、DPM 等方法,需要人工提取特征,对目标进行识别,鲁棒性较差[6-7]。而使用深度学习实现目标检测,可以实现更加鲁棒的人体目标检测,检测效果要比传统方法好很多[8]。

对人体目标进行检测,在输入图像中,人体目标的大小与其距离相机镜头的远近有关,而且,有时会存在巨大的尺度差异[9]。人体的遮挡,所在环境的光照变化,人体动作姿态的改变,都会对人体目标检测的结果造成影响[10-11]。因此,提出一种人体目标检测方法,能够克服上述问题,尤其是针对小目标,还有在目标尺度剧烈变化的情况,实现对人体目标的高质量检测。

2 相关工作

早些年在目标检测领域,人们所使用的神经网络多为Girshick 等提出的R-CNN 和Fast R-CNN[12]等。然而,由于R-CNN 不共享特征,以及SVM 的使用,都让网络的运行速度极其缓慢。虽然后来的Fast R-CNN 使用了共享特征图,并用softmax 代替了SVM,让网络的运行速度和准确度得到了大幅提升,但是仍待改进。Redmon 等人提出单阶段的YOLO[13],虽然检测速度很快,但是检测精度仍然欠佳。Ren等提出的Faster R-CNN方法[14]成功地让目标检测的性能又上升了一个台阶。

Faster R-CNN包括两个阶段,第一阶段RPN(Region Proposal Network,区域候选网络)感兴趣区域提取阶段,以及第二阶段的目标检测阶段。

RPN 网络,是通过在共享的特征图中,滑动一系列小窗口(anchors,也称为锚),这些小窗口的大小和纵横比不同,然后通过使用一个简单的神经网络,提取出待检测目标可能所在的位置,并对其进行回归操作。RPN替代了选择性搜索(SS),提高了目标检测的速度。目标检测的阶段则采用Fast R-CNN 方法。Faster R-CNN通过将候选框选择、特征提取、感兴趣区域的尺度归一化、目标分类和目标回归统一进一个整体的深度学习框架中,实现了大大提高网络运行的效率。

Faster R-CNN 使用多尺度的锚,确实可以解决部分的尺度变化问题,但是对于小目标的检测仍然不甚理想。Dai 等人提出R-FCN 算法[15]虽然使用了难例挖掘和多通道图像拼接等方式提升了目标检测的精度,却没有解决多尺度特征信息。Brazil 等提出SDS-RCNN[16],在进行目标检测的同时,实现对目标的语义分割,从而提升了目标的检测精度。但是,当遇到目标的尺度大幅度变化时,其检测效果不佳。为了解决目标尺度变化带来的问题,在目标检测领域,从传统方法的图像金字塔,到现在一系列的神经网络方法分别被提出,并被应用到多尺度的目标检测领域。传统的方法使用图像金字塔,人工提取多尺度特征,费时费力,且检测效果较差;Cai等提出的MS-CNN[17]在一定程度上解决了多尺度问题,然而对于较低层次的特征图,虽然分辨率比较高,但是由于其中所包含的语义信息较弱,不能对待检测目标很好地表达;Kong 等提出的HyperNet[18]进一步解决了多尺度问题,但是,虽然提高了高层次特征图的分辨率,却仍然没有改善低层次特征图的弱语义信息,不能很好地表达目标特征。作为SDS-RCNN 的改进版本,Zhou 等提出的SSA-RCNN[19]虽然使用了2 种尺度的特征图,但是没有使用更多尺度的特征图,也没有对不同尺度的特征图进行融合。Lin 等提出的FPN[20](Feature Pyramid Networks,特征金字塔网络),成功地解决了特征图金字塔中较低层次特征图的语义信息弱的问题。通过将不同层次特征图之间进行融合,使低层次的特征图具有强语义信息、高分辨率的特点,从而实现对小目标和多尺度目标的高质量检测。

3 深度学习的多尺度多人目标检测

在Faster R-CNN 框架的基础上,把FPN 特征金字塔网络引入到整体框架之中,并对网络整体进行了一系列优化,算法的整体框架图如图1所示。

图1 算法流程图

提出的多尺度人体目标检测算法流程为:首先,把原始图像输入残差网络[21](ResNet)提取深层特征图。ResNet有若干层输出相同尺寸的特征图,把这些层作为同一阶段,由浅至深划分为conv1 至conv5。conv1 的特征图分辨率太高,占用大量内存,因此不使用conv1,而只使用conv2 至conv5。每一阶段最后一层的输出,在当前阶段的语义信息最强,而且非线性激活层可以解决反向传播梯度消失问题,因此,每一阶段最后一层经过非线性激活后的输出,作为当前阶段的参考特征图,得到C2~C5。可以观察到,相邻层级特征图的尺寸比例是2倍。自上而下把不同层次的特征图首先使用1×1卷积核更改为相同的通道数256,然后放大至与下一层级相同的大小,迭代相邻层级之间特征图的加法操作,实现低层级语义信息的增强,得到P2~P5,形成FPN 特征金字塔。FPN 各层级特征图尺寸不同,在每个层级上滑动相同尺度的锚点(anchors),那么映射到原始图像中是尺度之比为2 的不同大小的区域。为了简化网络,并节约训练时间,因此没有必要在FPN每一层各设置不同尺度的锚点。原始的Faster R-CNN 使用conv4 这一层级的特征图来提取ROIs,特征图分辨率低,难以检测小目标。与之相比,本文方法使用FPN 所有4 个层级的参考特征图,融合后的低层级特征图,兼具高语义特征和高分辨率的特性,更适合检测小目标,对多尺度目标的检测效果远高于Faster R-CNN。在时间复杂度方面,如果原始的Faster R-CNN 与本文算法都使用相同的骨干网络ResNet-101[21],那么二者骨干网络的时间复杂度用FLOPs 指标来衡量皆为7.6×109次计算[21]。FPN 将4 个尺度的参考特征图按像素位置对应相加,计算量远远小于7.6×109。FPN 相邻层级特征图面积之比是4 倍,FPN每个层级的每个位置上分别产生3 个相同尺度、不同纵横比的锚点,所有尺度参考特征图的通道数都为256;与之相比,原始的Faster R-CNN 在conv4单尺度参考特征图,每个位置产生9 个不同尺度和纵横比的锚点,特征图的维度也是256。可以推得,FPN 在4 个不同层级特征图上滑动锚点的总面积约为原始Faster R-CNN 滑动锚点总面积的4 倍,但是,由此带来的运算量的增加仍然远小于7.6×109,可知二者的时间复杂度相近。同样的,在空间复杂度方面,如果原始Faster R-CNN 与本文算法的骨干卷积网络都使用ResNet-101[21],二者的卷积核尺寸、通道数和网络深度都相同。不同的是,本文算法使用4个尺度的共享特征图,与原始Faster R-CNN单一尺度共享特征图相比,特征图所占内存空间有所增加,但是增加的内存空间远远小于ResNet-101骨干网络中所有特征图所占内存空间之和,由此可知二者的空间复杂度几乎相等。综上所述,虽然FPN 使用了4 个尺度的特征图,带来的时间复杂度和空间复杂度有所提升,但是仍然在可以接受的范围之内。

根据当前锚点与目标实际位置的交并比(Inter‐section over Union,IoU),为锚点分配正负标签,用于训练RPN 网络时使用。本文改进的RPN 网络分别在FPN 的每个层级上滑动一个网络头用于检测感兴趣区域可能的位置,并且RPN 网络头部在所有FPN 层级上共享参数。实验[20]表明,各层级如果不共享参数,会得到类似的精度。所有层级的锚点用于训练一个相同的RPN 头部,简化了网络,并且使这个网络头部的训练样本数量大幅增加。为了防止最终产生很多重叠建议框(Proposals),本文提出使用两次NMS(非极大值抑制)算法。第一次使用NMS算法,在FPN 每一层的特征图中,限制特定层级的单尺度重叠框;第二次使用NMS,是把FPN 所有层级的Proposals 汇集进一个集合中,再次减少重叠的多尺度Proposals。根据置信度由高到低的顺序,取排名靠前的Proposals 作为ROIs(Region of Interest,感兴趣区域)。如果FPN 每一层单独地使用不同的RPN 网络,那么,得到的感兴趣区域只能是当前尺度的最优ROIs,泛化性不够;而如果直接把FPN 所有层级的anchors 汇集到一起进行筛选,会占用大量的内存,增加空间复杂度与时间复杂度。FPN 各个层级特征图上的ROIs位置,可以通过坐标的映射关系,对应到原始图像中的实际位置。在每个ROI 对应的FPN 相应层级上,使用感兴趣区域池化操作(ROIPooling),提取相同大小的感兴趣区域特征。ROIPooling 使用了最大池化,可以最大限度地保留ROIs 特征的丰富程度。而如果使用平均池化,更偏向于描述特征的平均分布情况,从而削弱ROIs 的特征信息。如果先归一化ROIs 特征图尺寸,再使用最大池化,会造成时间上的延迟,而且会对来自FPN的丰富语义信息造成干扰。最后,把提取到的ROIs 特征送入目标检测器,在FPN 不同层级上共享目标检测器的参数。实验[20]表明检测器共享参数与否,会得到类似的精确度。

原始的Faster R-CNN 只使用单一尺寸的深层特征图,分辨率较低,无法高精度检测小目标;而FPN特征金字塔的低层级特征图兼具高语义信息和高分辨率,可以实现对小目标、多尺度目标的高精度检测。

3.1 ResNet提取深层特征图

提出的算法使用到的骨干卷积架构是ResNet-101,组成ResNet-101 的一个构建块如图2 所示。其中,1×1卷积层的作用是改变特征图的通道数,3×3 卷积层的作用是提取特征信息。通过堆叠这种构建块,可以得到深层的ResNet-101 网络。ResNet[21](残差网络)卷积架构有一个特点,它可以让神经网络的卷积层数尽可能的多,从而提取到图像中尽可能深层次的语义信息,便于对待检测目标进行准确的语义表达。这样做就可以显著提高目标的检测精确度。

图2 ResNet-101的一个构件块

ResNet 系列的深层卷积架构包含多个版本,比如ResNet-50、ResNet-101、ResNet-152 等。由于ResNet-50网络的层数较浅,无法提取出目标较深层次的特征,因此,在这里不选择ResNet-50。而由于101层的残差网络ResNet-101,已经可以提取出待检测目标足够深层次的语义信息,可以对目标进行有效的表达,因此,在提出的算法中,不再选用ResNet-152,而是直接选用ResNet-101网络提取目标特征。这样,就可以提取出目标足够深层次的语义信息,从而对目标进行准确表达,而又不会给训练及测试神经网络所用的时间造成拖延,兼顾了训练神经网络所用的时间,以及通过训练得到的神经网络的目标检测性能。

3.2 构造FPN特征金字塔

Faster R-CNN 使用了两阶段的目标检测网络,实现了对目标的快速、准确的检测。但是,对于小目标以及目标尺度大幅变化的情况下,Faster R-CNN 的检测精确度有待于提升。考虑到这一问题,把FPN多尺度特征图金字塔,融合进入高效的Faster R-CNN 目标检测框架之中,从而弥补了Faster R-CNN的弱点。

FPN 是专门针对多尺度目标检测而提出的检测算法,其具体的算法流程图如图3所示。

图3 FPN算法流程图

如图3 所示,FPN 网络的输入为任意大小的图片,并将其送入CNN 卷积神经架构提取深层特征图。随着CNN 卷积层数的增加,在不同的特征图层级上,分别输出对应成比例大小的特征图,从而可以构成特征图金字塔。需要指出的是,FPN 不仅输出多尺度的特征图集合,还对不同层级的特征图之间进行了融合操作。其具体步骤是,FPN 通过把卷积神经网络中不同层次的特征图,按照由深层到浅层的顺序,把较深层特征图的长和宽依次放大至原来的2 倍大小,并与相应较浅一层的特征图进行了加法运算,从而可以实现对特征金字塔不同层级之间的特征图融合。需要注意的是,随着特征图层次的加深,维度会发生改变,因此在融合特征图时,要把原有的特征图先进行1×1的卷积,用于降低维度。

FPN 就是通过迭代对特征图的加法运算,使得较浅层次的特征图,既具有较高的分辨率,又具有深层次的语义特征,从而可以实现对于多尺度目标的高质量检测。

3.3 改进RPN提取ROIs

在算法的具体实现过程中,首先把FPN 用在RPN阶段,提取多尺度的感兴趣区域ROIs。在FPN 特征金字塔的每个层级中,分别使用滑动的锚点anchors 来提取ROIs,可以得到感兴趣区域的得分,以及对应感兴趣区域的回归位置。虽然改进的RPN 阶段中有多层特征图,但是,这里并不把每一层分隔开,独立地提取ROIs,而是把所有层得到的anchors 汇集到一个集合中,然后取其中分数较高的区域作为ROIs。此阶段的损失函数如下:

其中,i 表示在一个小的训练批次中anchors 的序号,pi是预测第i 个anchor 为目标的概率用于区分正负锚点,ti表示RPN阶段预测得到的边界框表示目标真实的边界框位置,Ncls为训练的一个小批次的大小,Nreg是anchors 的数量,λ是平衡参数,用于平衡分类损失和回归损失。Lcls1分类损失函数采用了指数损失,而Lreg1回归损失函数则采用smooth L1损失。

由于来自特征金字塔的不同层次特征图是多尺度的,所以,在这里只使用单一尺度的锚,文献[20]也证明了,这样做对多尺度目标的检测效果要高于原来的Faster R-CNN。

根据anchors 与目标真实区域的交并比(IoU),锚点被区分为正锚点和负锚点。然而,当输入的图片中只有小尺度目标,并且目标的数量也比较少的情况下,通过RPN 区域建议网络得到的负锚点与正锚点的数量之比过大,这会让神经网络提取到较多的背景语义信息,却忽视了对于前景目标的特征提取[14],从而使训练得到的目标检测器更加偏向于对背景的识别,并减弱了对前景目标的识别,进而对最终的目标检测器造成干扰。基于这个问题,进一步限定了RPN 阶段产生的正负anchors的数量比例,防止因为其悬殊的差距而影响到最终的目标检测,从而提高目标检测网络的性能。

除此之外,由于提出的方法是基于人体目标的检测任务,因此,根据人体的形态特征,把锚点anchors 的纵横比,在原来的1∶2、1∶1、2∶1基础之上,增加了1∶3这个比例,进而可以进一步提升神经网络对人体目标的检测效率。

3.4 目标检测器

在提出的算法框架的第二阶段,人体目标检测网络中,也同样使用了FPN 特征金字塔提取人体目标特征。对于来自RPN 的ROIs,根据其尺度的大小(长和宽),对应到特征金字塔的相应层级之上,然后进一步提取出目标的特征。由于FPN 阶段已经提取了足够深层次的特征图,因此,在这里仅使用ROIPooling 提取固定大小的目标特征图,并把最终得到的特征送入Fast R-CNN 的目标检测器。在目标检测器之前,设置了2 层全连接层,得到目标的置信度,并对目标区域进行回归。此阶段的损失函数如下:

其中,p是预测目标的置信度,u是目标的真实类别,tu表示对应u类别的预测边界框,v表示对应u类别的真实边界框所在位置,Lcls2为分类损失,是对应真实类别u的对数损失,δ是平衡参数,Lloc2是smooth L1回归损失函数,[u ≥1]是等级指示函数,当u ≥1时,等级指示函数值为1,否则,函数值为0,从而可以只对前景目标计算边界框损失,而不计算背景的回归损失。

对于Fast R-CNN 阶段的目标检测器,在FPN 特征金字塔的不同层级上是否共享参数,文献[20]对比了这两种情况,得到的结果表明二者的差别并不大。因此,本方法选择共享不同层次特征金字塔层级之间的权值,从而提高对目标检测的效率。

4 实验结果及分析

4.1 实验环境与数据集

本实验使用的Linux 系统版本是Ubuntu 16.04,服务器的硬件配置如下:CPU 使用的是Intel®Xeon®CPU E5-2678 v3@2.50 GHz,GPU 使用的是NVIDIA GeForce GTX 1080 Ti,内存为32 GB。实验使用的深度学习框架是TensorFlow-gpu 1.10,为了提高GPU 利用率,使用了CUDA 8.0,以及cuDNN 6.0。在实验中所使用的Python库为Anaconda 3,Python版本为3.5。

在人体目标检测的实验中,使用了INRIA、Caltech和PETS 2009 这三个标准数据集。其中,INRIA 数据集官方给出的数据标注不完全,而且,正样本数量不足2 000 张,这些都对神经网络的训练造成困难。Caltech数据集中存在非常多的小尺度的人体目标,并且环境场景变换频繁,暗场景和光照变化等因素均影响目标检测的精确度。在PETS 2009数据集中,人与人之间经常会存在互相遮挡的情况,而且存在较多的小目标,目标的尺度有时会存在巨大的差异,这些都对数据集人体目标的精确检测带来难度。

4.2 训练结果及分析

实验以Faster R-CNN 为基线,使用FPN 每一层级的特征图分别预测人体目标所在位置,从而解决对多尺度目标的检测问题。在此基础上,本实验对RPN 中正负anchors 的数量比例进行了平衡,防止其差距过大而影响检测器性能。对于人体目标的形状,采取了更适合的锚点纵横比,比如,增加了3∶1 的纵横比,针对人体目标进行更高效的检测。通过使用上述方法,本实验实现了在PETS 2009、Caltech 和INRIA 三个标准数据集上的高质量人体目标检测。其中,在Caltech 数据集上,达到了高于Shao等人在CVPR2018论文[22]的实验结果。

本节以Caltech 数据集为例,详细描述了神经网络的训练过程,并且结合使用了TensorFlow 的可视化工具Tensorboard来进行阐述。

首先,FPN 网络的每一层特征图的可视化结果对比如图4。

图4 FPN网络每一层级特征图的对比

图4 (a)为特征提取网络中所选择的第2~5 层的特征图输出,自下而上分别对应C2~C5层特征图,图4(b)是使用FPN 后得到的第2~5 层的输出,自下而上分别为P2~P5层特征图。通过对比原始特征图集合,与使用FPN 后得到的特征图集合,可以发现,虽然二者在高层级特征图中(比如,C5和P5)所包含语义信息的丰富程度差别不大,但是在低层级特征图中(比如,C2和P2),后者所包含语义信息的丰富程度,要远远高于前者。

在改进后的RPN 阶段,样例图片中正负锚点的位置如图5所示,图5(a)为负锚点所在位置,图5(b)为正锚点所在位置,可以看出,改进后的正负锚点的数目差距并不大。通过提取IoU较高的一组正锚点作为Proposals输入到Faster R-CNN的第二阶段目标检测阶段[14]。

图5 样例图片的正锚点与负锚点

为了更清楚地看到训练神经网络得到的损失函数值,在局部时间范围内的变化幅度,以及损失函数的总体变化趋势,这里对损失函数原始的曲线图进行了一定程度的平滑处理,使其兼具局部变化幅度和总体变化趋势。

在原始图像输入RPN 网络时,可以得到感兴趣区域ROIs,以及对应ROIs 的得分。FPN 的使用让RPN 阶段包含4个尺度的特征图,分别对应为4个层次,在每一层得到的ROIs 的数量如图6 所示,依次对应FPN 由浅到深的P2至P5层特征图的ROIs数量。

图6 多层特征图的ROIs的数量

图7 RPN阶段的损失值

图8 第二阶段人体目标检测的损失值

从图6可以看到,低层级特征图的ROIs数量远高于高层级特征图的ROIs数量,并且随层级的提升,ROIs的数量递减。产生这个现象的原因是,在训练所用的数据集中,小尺度目标的数量明显多于大尺度目标,这也是用Caltech 数据集进行人体目标检测,具有一定挑战性的原因。

改进后的RPN 阶段各项损失函数值的变化,如图7所示。图7(a)是RPN 阶段的分类损失曲线,图7(b)是RPN 阶段边界框回归损失曲线,图7(c)是RPN 阶段的总损失。

图7 的三个曲线图的共同特点是,RPN 损失函数值虽然会随训练迭代次数的增加而有些许浮动,但是总体的趋势是下降的,RPN 阶段的总损失值从0.12 下降至0.02 左右。可以看出,训练得到的ROIs 区域建议网络,对人体目标感兴趣区域的提取能力得到了增强。

对于得分高的ROIs,将其送入第二阶段的Fast R-CNN目标检测框架,神经网络输出两个损失:分类损失和边界框回归损失。二者的变化情况如图8所示。

图8(a)是Fast R-CNN阶段的分类损失曲线,图8(b)是Fast R-CNN 阶段的边界框回归损失曲线,图8(c)为Fast R-CNN 阶段的总损失曲线。与RPN 阶段类似的,三条曲线随训练神经网络迭代次数的增加而不断波动,但是总体趋势都是下降的,Fast R-CNN 阶段的总损失从0.9降低至0.2左右。由此可知,目标检测网络对人体目标的检测能力,逐渐拟合于训练所用的数据集。

实验中整个神经网络的总体损失函数值的变化情况如图9 所示。随迭代训练次数的增加,整个神经网络的总体损失值从1.7 下降至0.8,可以看到,神经网络对人体目标的检测性能得到了加强。

图9 神经网络总体的损失值

为了防止训练的神经网络过拟合,在这里设置了权重衰减量,让神经网络的更新权重随训练的迭代次数的增加而逐渐减小。在整个训练过程中,权重的变化情况如图10所示,更新的权重大小由原来的0.627降低至0.581。

4.3 检测结果及分析

本节使用的样例图片的场景来自上述三个数据集,对作为基线的Faster R-CNN,以及提出的方法,分别进行了测试,得到了不错的结果。

图10 神经网络的权重衰减

图11 (a)是使用Faster R-CNN 得到的检测结果,图11(b)是提出的算法得到的检测结果。可以看到,在小目标、尺度剧烈变化、目标互相遮挡、暗光照和复杂背景等条件下,提出的算法可以对人体目标进行高质量的检测,并且效果优于Faster R-CNN。

图11 Faster R-CNN与本文算法的检测结果对比1

类似的,图12(a)是Faster R-CNN 的检测结果,图12(b)是本文算法得到的检测结果。可以看出,提出的方法,在小目标、暗场景、环境光照变化、复杂背景以及目标相互遮挡的条件下,都高于Faster R-CNN 的检测精度。尤其是在目标大尺度变化的情况,仍然可以进行高精度的检测。

通过对比上述两种方法的样例检测结果,可以发现,虽然Faster R-CNN 已经可以得出比较高的平均检测精确度,但是使用提出的方法,可以得到明显高于基线Faster R-CNN 的检测结果。尤其是对于小尺度目标,以及尺度剧烈变化的目标,该方法可以实现远高于Faster R-CNN的检测结果,具有更高的鲁棒性。

4.4 实验结果对比

图12 Faster R-CNN与本文算法的检测结果对比2

使用基线Faster R-CNN,以及提出的人体目标检测方法,分别用于PETS 2009、Caltech 和INRIA 这三个标准数据集进行了实验,并参考了计算机视觉顶级会议CVPR2018 文献[22]在Caltech 数据集上得到的实验结果。实验的评价指标是平均精确度(Average Precision),即,PR(Precision-Recall)曲线的下面积。这种评价指标的优点是,通过结合不同阈值条件下的Precision-Recall二元组,得到目标检测精确度的综合指标AP,而不是片面地追求recall,或者片面追求precision。如表1 所示,上述三个数据集,分别用于基线Faster R-CNN 与提出的算法,以及CVPR2018 文献[22]得到的平均精确度结果进行了对比。

表1 使用基线Faster R-CNN和本文方法的平均精确度%

从表1可以看出,基线Faster R-CNN在PETS 2009、Caltech 和INRIA 数据集上分别可以达到90.7%、71.1%和85.0%的平均精确度。接着,以Faster R-CNN 为基础,探索了使用FPN 提取人体目标特征,并通过相关优化算法达到了更高的人体目标检测结果。

同样地,提出的算法也使用了PETS 2009、Caltech和INRIA 这三个数据集来训练神经网络。通过表1 可以看出,PETS 2009和INRIA 两个数据集分别可以达到96.5%和88.6%的平均精确度AP,与Faster R-CNN 相比都得到了大幅度提升。而对于Caltech 数据集,本算法可以达到91.1%的平均精确度,相比Faster R-CNN的71.1%提升了20%,实现了远高于Faster R-CNN 的实验结果。与此同时,91.1%的平均精确度也确实超越了2018 年CVPR 中的文献[22]在Caltech 上的平均精确度89.95%,这也是提出算法的一个突破之处。

5 总结

提出了基于Faster R-CNN 框架,使用FPN 提取多尺度目标特征,并对整体的神经网络进行了一系列的优化调整,从而实现对多尺度人体目标的高质量检测。将该方法分别用于INRIA、Caltech 和PETS 2009 这三个标准数据集上,达到了较好的检测效果,实现了明显高于使用Faster R-CNN进行目标检测的实验结果。

同时,本文方法在Caltech 数据集上得到的平均精确度,取得了高于计算机视觉顶级会议CVPR2018 文献[22]中的实验结果,作为论文的一个突破点。

猜你喜欢

层级尺度损失
胖胖损失了多少元
军工企业不同层级知识管理研究实践
财产的五大尺度和五重应对
基于军事力量层级划分的军力对比评估
职务职级并行后,科员可以努力到哪个层级
玉米抽穗前倒伏怎么办?怎么减少损失?
宇宙的尺度
任务期内多层级不完全修复件的可用度评估
菜烧好了应该尽量马上吃
损失