APP下载

基于Anchor-free的行人与车辆检测的研究*

2023-01-06于维纳

计算机与数字工程 2022年10期
关键词:类别规则速度

于维纳

(南京理工大学 南京 210000)

1 引言

行人与车辆目标检测,是计算机视觉领域和公共安全交通领域的重点研究方向。因为随着在智能驾驶方向,如汽车自动驾驶系统或者汽车辅助驾驶系统的高速发展,行人与车辆的目标检测在视频监控、公共安全等领域的均有着广泛的应用。

Anchor-free方法在目标检测人车方面的网络结构设计,目前有三大方向:基于key-point的算法(CornerNet[1]、CornerNet-lite[2]、CenterNet[3]、ExtremeNet[4]、Reppoints[5]),基于anchor-point的算法(CSP[6]、FCOS[7]、Foveabox[8]、DenseBox[9]、UnitBox[10]、DuBox[11]),结合Anchor-free和Anchor-based的算法(FSAF[12]、GA-RPN[13])等方法。以上的方法在本文的数据集上,测试效果均不理想,有的是精度高速度慢,有的是速度快精度低。本文提出的方法,在轻量级的目标检测的网络上,增加一种误检抑制的方法,从而在不降低速度的情况下,提高检测的精度。

2 基于Anchor-free方法的行人与车辆检测

2.1 基于CornerNet-lite的目标检测方法

本文使用的目标检测的骨干网络是基于key-point的CornerNet-lite方法。而CornerNet-lite又是在CornerNet的基础上进行了优化。

CornerNet的主要思想是将框的左上角及右下角的两个角点看作一组关键点。如图1所示,主干网采用了Hourglass Network,主干网后紧跟两个prediction modules分支,其中一个检测top-left corners,另一个检测bottom-right corners,最后对两组corner进行筛选,组合,修正得到object的一对corners,从而定位object的box。对于每一个分支有三条线路,即用一个卷积网络预测所有同一类别的样本的左上角点或者右下角点的heatmap,及一个检测到角点的embeding vector,还有用于对点的位置进行修正的offsets。此模型简化了模型的输出,同时移除了anchor的设计步骤。

图1 CornerNet网络架构图

基于CornerNet-lite,是通过减少每个像素的处理过程来加速inference,其结合了SqueezeNet及MobileNet的思想,同时,引入了一个新的backbone hourglass,利用了1×1的卷积,bottleneck层及深度分离卷积。

2.2 误检抑制方法

基于关键点的单阶段检测CornerNet-lite,通过检测一组关键点来检测目标,进而移除了anchor,但由于其缺乏对目标全局信息的参考,仍然具有局限性。同时,每个目标由一组关键点组成,算法对边界框比较敏感,同时,无法确定哪组关键点属于同一个目标物。因此,如实验中,经常会产生一些不正确的边界框,导致误检的检测框较多。为了提高mAP,减少误检率,本文提出同类别抑制匹配规则。

本文在基于CornerNet-lite的基础上做了改进。但在其它的Anchor-free方法中,基于key-point的算法也存在此问题。因为key-point方法存在不同点的匹配问题,而本文提出的“同类别抵制匹配算法”,就是为了解决不同点的错误匹配问题而应运而生的。本文算法增加了一个观察每个候选区域的视觉模式的功能,进而可以判断每个边界框的正确性。本文通过增加一个类别信息来探索proposal区域的信息,本文创新点在于,如果预测的边界框与ground truth有较高的IoU,则预测出相同类别的概率要高,反之亦然。因此,在进行inference结束后,当通过判断两个同类别的bounding box是否是包含关系,若是包含关系,则根据类别本身的长宽比规则抵制冗余框的产生。

经试验证实,此方法在存在feature-level噪声的情况下更加稳定,有助于准确率及召回率的提升。

3 数据集

3.1 本文数据集

本文构造了一个新的大规模的数据集,由长时间的某几个交通路口的监控视频组成,涵盖真实世界的一些基本情况,如烈日、阴天、雨雪、夜晚、白天等不同场景,这些场景基本涵盖了现实世界所有的场景。

本文经过视频采集、标注数据、数据增强来完成相对应的数据集。

3.1.1 数据增强

采集的数据往往很难覆盖掉全部的场景。数据增强是扩充数据样本规模的一种有效的方法。在实施过程中,主要有两种方式:离线增强和在线增强。离线增强:对已采集到的数据集进行相应的变换,使得训练数据集得以扩充,以用于训练模型。在线增强:在训练过程中,根据batch获取到训练数据后,对batch数据进行相应的变换。

数据增强的方法,主要有以下几种方法:颜色操作、几何操作、边界框操作。图像的增强是一种正则,增加训练的数据量,使网络能够学习到图像在不同形态下的特征,增强模型的泛化能力。同时也能够增加噪声数据,提升模型的鲁棒性。

3.1.2 训练和测试集

本文将数据集分为三部分,如图1所示。训练集包括13251个图片(详细信息显示表2),测试集包括4417个图片,验证集包括4417个图片。训练集、测试集、验证集以6∶2∶2的比例进行分割,且每个集合都包含不同时间不同摄像头不同场景下的图片。

表2 各类型数据集的分配情况

4 实验

4.1 实验环境

所 有 实 验 均 在Intel(R)Xeon(R)CPU ES-2620 v4@2.10GHz上 进 行,使 用NVIDIA 1080Ti GPU、62GB内存。所有程序都用Python_3.7编写,并使用了CUDA 10.1和PyTorch 1.0.0。

4.2 评价指标

目标检测问题同时是一个回归和分类问题。首先,为了评估定位精度,需要计算IoU(Intersection over Union,介于0到1之间),其表示预测框与真实框(ground-truth box)之间的重叠程度。IoU越高,预测框的位置越准确。因而,在评估预测框时,通常会设置一个IoU阈值(如0.5),只有当预测框与真实框的IoU值大于这个阈值时,该预测框才被认定为真阳性(True Positive,TP),反之就是假阳性(False Positive,FP)。

对于二分类,AP(Average Precision)是一个重要的指标,这是信息检索中的一个概念,基于precision-recall曲线计算出来。对于目标检测,首先要单独计算各个类别的AP值,这是评估检测效果的重要指标。取各个类别的AP的平均值,就得到一个综合指标mAP(Mean Average Precision),mAP指标可以避免某些类别比较极端化而弱化其它类别的性能这个问题。

对于目标检测,mAP一般在某个固定的IoU上计算,但是不同的IoU值会改变TP和FP的比例,从而造成mAP的差异。COCO数据集提供了官方的评估指标,它的AP是计算一系列IoU下(0.5:0.05:0.9)AP的平均值,这样可以消除IoU导致的AP波动。其实对于PASCAL VOC数据集也是这样,Facebook的Detectron上的有比较清晰的实现。

除了检测准确度,目标检测算法的另外一个重要性能指标是速度,只有速度快,才能实现实时检测,这对一些应用场景极其重要。评估速度的常用指标是每秒帧率(Frame Per Second,FPS),即每秒内可以处理的图片数量。当然要对比FPS,你需要在同一硬件上进行。另外也可以使用处理一张图片所需时间来评估检测速度,时间越短,速度越快。

4.3 结果分析

为了验证提出算法的有效性,基于采集的安防数据集,对CornerNet-lite网络模型的识别性能进行了分析和比较。

本文使用CornerNet-lite训练后的网络模型在未增加“同类别抑制匹配规则”和增加了此规则的实验结果图片,如图2和图3所示。

图2 误报抑制前后对比

图3 误报抑制前后对比

由图2可以看出,在无“同类别抑制匹配规则”的左侧子图中,两个行人中的一个存在一个多余的检测框,而在使用了“同类别抑制匹配规则”的右侧子图中,将多余的检测框得以去掉。其余图也存在类似的情况,如图3中车辆存在多余的检测框。

在使用了“同类别抑制匹配规则”后,一些多余的检测框得以去掉,此些误报抑制后,mAP有了显著的提升。表明本文提出的方法有效且新颖。

本文对速度的评估,使用的是处理一张图片所需要的时间,测试结果如表3。

表3 不同图片所需要的时间

经过以上的测试得出,图片的分辨越高,图片处理的时间越长。故在后期,为达到可以实时检测的目的,在得到原始图片大小后,都统一调整到640*480,以提高检测速度。值得说明的是图片由高分辨率调整到低分辨率后,mAP的值,几乎没有下降。

然而,本文的检测结果中也存在一定的缺点,有时存在一些目标未检测成功,即漏检问题,这些问题将在今后的工作中加以解决。

5 结语

为了解决基于Anchor-based方法的目标检测的相关问题,提出使用基于Anchor-free方法的目标检测,针对采集的数据集,进行相应的人工标注及离线和在线的数据增强方法,得到训练数据集后,采用多种训练策略进行模型的训练。在前向推理过程时,使用“同类别抑制匹配规则”来抵制冗余框的产生,提高了mAP。通过实验结果充分证明了本文提出的算法的有效性和新颖性。

猜你喜欢

类别规则速度
行驶速度
撑竿跳规则的制定
论陶瓷刻划花艺术类别与特征
数独的规则和演变
速度
一起去图书馆吧
让规则不规则
TPP反腐败规则对我国的启示
比速度更速度——“光脑”来了
选相纸 打照片