APP下载

基于改进Faster R-CNN的复杂背景红外车辆检测算法

2022-06-09赵维骏郭一亮焦国力

激光与红外 2022年4期
关键词:特征提取权重卷积

顾 燕,李 臻,杨 锋,赵维骏,朱 波,郭一亮,吕 扬,焦国力

(北方夜视科技(南京)研究院有限公司,江苏 南京 211102)

1 引 言

随着汽车制造工业的发展,小型轿车的城市人均拥有量逐年攀升,城市主要道路上的车流量也在不断上升。一方面由于智慧城市概念的兴起和计算机视觉技术的发展,传统的基于人工的交通管理与规划正在被智能算法逐步替代[1]。另一方面,车辆的检测识别也是实现无人安全驾驶的必要手段。

传统的图像车辆检测算法通常通过经典图像处理方法实现检测功能,这种采用人工提取图像特征的方法,主要有背景差分法[2],帧差法[3],以及光流法[4],等车辆实时检测方法。这类基于人工特征提取的图像处理算法经典、简单,但缺点也比较明显,其算法设计往往过于主观性,检测精度不高,稳定性较差。

基于人工智能的深度神经网络目标检测算法目前主流有两个方向,一个方向为设计有紧密-稀疏(Dense-Sparse)候选结构的二阶段目标检测方法,如Faster R-CNN[5]、Fast R-CNN[6]等,另一个方向是紧密(Dense)无区域建议的端到端检测算法,如YOLO系列[7]、SSD[8]等。就国际通用的算法精度评价标准AP而言,前者的计算精度远高于后者。而对Faster R-CNN的改进已经广泛应用于道路交通标志检测[9-10]、道路异物检测、道路拥堵状态检测、运动行人检测[9]等方面,在车辆目标检测方面,魏子洋[11]等通过用k-means聚类改进锚框生成方式的方法提高了Faster R-CNN检测车辆的精度,刘泽康[12]等通过融合目标的边缘信息,陈飞[13]等通过融合特征图信息提高了Faster R-CNN的车辆检测精度。

本文针对Faster R-CNN的特征提取层,并提出了改进方法,避免了车辆目标因尺度差距过大而引起的检测精度低的问题,改变Faster R-CNN的NMS方法增强网络对多目标重叠情况的鲁棒性,本文首先设计了多感受野特征提取网络Tri-VGG,不同感受野的特征信息通过深度融合来提升Faster R-CNN的检测精度。其次,对RPN(Region Proposal Network)网络中的非极大值抑制(NMS,Non-Maximum Suppression)方法进行了探索,设计了一种改进的soft-NMS算法。最后,设计了一种参数调整和训练策略,解决了在实验中的过拟合问题。最终本文设计的检测算法的评价准确率AP达到了85.32 %,比原始的Faster R-CNN算法提高了5.86 %。

2 模型改进

2.1 神经网络特征提取机制的改进

针对红外视频下车辆目标像素大小差距过大的问题,文献[14]中提出不同尺度感受野卷积核对于不同尺寸的目标有偏向性,尺度大的感受野卷积核偏向于大目标,相反,尺度小的感受野卷积核偏向于小目标,因此本文设计了一种多尺度感受野并行提取特征的方法。但直接使用多个感受野的卷积核采样再融合的方法并不可取,因为这会使神经网络出现过拟合,不仅算法精度不会有明显提高,而且会消耗大量的计算成本。

解决上述问题可以采用空洞卷积(Dilated Convolution),权重因子共享原则进行多个感受野的并行采集。空洞卷积间隔采样原理示意如图1所示。

图1 空洞卷积原理示意图Fig.1 Schematic diagram of dilated convolution principle

改进模型的特征提取层神经网络由三路权重共享以及并行采集融合的卷积神经网络组成。特征提取层的整体流程示意如图2所示。其中,Conv表示卷积层(Convlution Layer)。

图2 特征提取网络流程Fig.2 Process of feature extraction network

每一路神经网络的下采样结构由4个卷积层及其正则化和激活层以及2个最大池化层(maxpool)组成,卷积核尺寸为3×3,于是每一路的感受野为3×3,5×5,7×7。卷积层通道数依次为64、64、128、128。卷积核步长(stride)为1,填充(padding)为1。此外,将每一路网络的下采用结构中的梯度冻结,即权重冻结,减缓神经网络的过拟合情况。

采用九层二维卷积层和三层最大池化层构成并行特征采集器的每一个通道,这类似于VGG16的原始结构,但是三路权重仅有一路权重用于共享,通过元素相加的形式将三路特征提取网络进行融合,生成的特征图传递到RPN网络,还需要经过一层正则化-激活-最大池化层处理,特征提取网络的总体流程示意图如图2所示。

每一路特征图的尺寸应当始终保持一致,本文将非空洞卷积网络中的卷积层填充系数设置为1,步长系数设置为1;将一路空洞卷积层的膨胀系数设置为2,则3×3大小的卷积核等效于5×5大小的感受野,卷积核填充系数为2,步长系数设置为1;另一路空洞卷积层的膨胀系数为3,则3×3大小的卷积核等效于7×7大小的感受野,卷积核填充系数为3,步长系数为1。

这样设计的原因是为了使得三路网络共享一组权重,实验中发现,如果同时不同的权重对三路网络进行训练则会出现由参数冗余导致的网络过拟合,会出现损失函数无法收敛、检测精度无法提高、训练时间过渡延长等问题,于是我们采用权重共享策略来避免过拟合问题。三路网络在训练和预测时只使用一组共享权重,即从初始化到训练完成都是共享的,这种共享权重的方式可以减小计算成本从而大大提升算法速度。并行特征提取网络的结构示意图如图3所示,网络之间的每一层卷积层共享权重。

图3 并行提取网络示意图Fig.3 Schematic diagram of parallel extraction network

2.2 NMS过程的改进

针对红外视频内车辆在视野中重叠概率较高的问题,对Faster R-CNN边框回归中的NMS方法改进进行了探索。

Faster R-CNN在RPN网络过滤生成的锚框时使用了非极大值抑制NMS(Non-Maximum Suppression)方法。其大致过程是对于重叠部分较多的检测框进行概率排序,只保留其中概率最高的检测框,而将其余检测框直接取消。但是对于道路上的车辆检测,视野中出现目标重叠的情况十分常见,因此直接将相近的检测框取消会降低算法的检测精度。

作为生物圈中的一员,人类的活动对生物圈有重要影响。为了让学生有切身体会,在本课中,教师请学生阅读书本上的4个案例,要求小组讨论,并发挥联想交流启示。

文献[15]提出了一种基于IOU权重函数的Soft-NMS方法,但是这种方法的计算时间开销会随图片尺寸的变化呈指数级增长,且对于非密集图片的检测精度没有明显的提升。

基于上述问题基于Soft-NMS进行了改进,即对于与分数最大的框的IOU小于Nt1的检测框不作处理,对IOU介于Nt1和Nt2之间的检测框作线性权重衰减,而对IOU大于Nt2的框直接取消。

2.3 训练策略

2.3.1 VGG预训练

改进后的Faster R-CNN在ROI Pooling层的分类网络仍采用VGG16的三个全连接层(Fully connection Layer)加一层softmax的决策网络结构,而特征提取部分的前四个卷积层也与VGG16的结构相同。于是可以先采用基于VGG16分类网络的Faster R-CNN训练数据集,将训练得到的权重分配给相应的层,如图4所示。

图4 VGG16权重预训练策略Fig.4 Weight pre-training strategy based on VGG16

将VGG16网络前四层分配给特征提取层的下采样部分,并且为了防止参数冗余将下采样层学习率设置为0,使其不再参与学习。将VGG最后四层分配给Faster R-CNN的分类器,作为分类器的预训练权重继续参与学习。

2.3.2 权重衰减和dropout策略

训练网络时,为了避免可学习参数过多导致神经网络出现过拟合现象,本文采用L2正则化(1)抑制网络中的所有权重,避免某一部分权重出现过高或过低的现象。

(1)

其中,L0为Faster R-CNN中的RPN网络总损失函数;n为训练集样本量;λ是一个调整对权重的超参数;ω为神经网络中的可学习参数,即神经网络权重。

此外,本文采用dropout方法对神经网络中的最后几层分类层进行训练。dropout是一种神经网络随机失活的策略,在训练中随机失活部分卷积核,使其权重降为0,这样可以动态的平衡分类层中各卷积核的重要性,可以有效规避因网络可学习参数过多导致的过拟合问题。

3 实验及分析

本文的采用验证平台:硬件资源显卡NVIDIA TITAN XP×2,软件环境Ubuntu16.04LTS系统,Pytorch1.3.1编程框架,并且采用了CUDA 10.0 GPU加速环境。

3.1 数据集的准备

为了增强实验的说服力,我们采用公开的FIRL数据集。该数据集分为两个部分,不仅提供了带人工标注的热成像数据集,而且第二个部分提供了对应的无标注RGB彩色图像,用于训练和验证神经网络。数据通过车载RGB相机和热成像仪器采集获得。FIRL数据集内一共有5个类别,我们对数据集处理,将其他类别的标注屏蔽,保留数据集轿车和其他两类,并将其合并一类,命名为“车辆”。

FIRL数据集共有三类输入图像,分别为RGB图像、8比特红外图像、16比特红外图像,本文仅采用8比特红外图像作为实验数据集,其中训练集有8862张图像;测试集有1366张图像;不设置验证集。所有图像的尺寸均为640×512×3,如图5所示。

图5 FIRL数据集输入图像Fig.5 Input image from FIRL dataset

此外,为了提升算法权重的鲁棒性,在训练时对输入的图像进行随机翻转、对称、附加高斯噪声等图像增强操作。

3.2 实验细节

本文采用国际通用的评价标准“平均精确率(Average Precision,AP)”为评价标准来评价神经网络模型检测性能。

为了对比soft-NMS对算法检测精度的影响,首先采用原始的Faster R-CNN对数据集进行训练,循环14次,batch大小为16张图片,前四层卷积层初始学习率Rl=0,其余层初始学习率Rl=0.001,每一个循环学习率下降,比率为0.1,RPN候选框取300个/张,权重衰减常数为0.0001。然后在Faster R-CNN的RPN网络采用改进的soft-NMS的进行训练,其他参数同上。

实验中发现,soft-NMS的阈值Nt1取值范围在0.3到0.5,Nt2取0.7~0.9之间时优化效果较明显,检测AP如表1所示。

表1 改进的soft-NMS不同取值对应的APTab.1 AP values corresponding to different values of improved soft-NMS

选取改进的soft-NMS的两个阈值分别取Nt1=0.4,Nt2=0.9的模型作为对比,训练结果每10个batch打印一次,结果如图6所示。

图6 改进的soft-NMS与NMS方法损失函数及AP对比Fig.6 Comparison of improved soft-NMS and NMS methods in loss function and AP

图例SNMS和NMS分别代表基于soft-NMS和NMS的算法由损失函数曲线图和AP曲线可以看出,是否采用改进的soft-NMS对于损失函数的收敛影响并不显著,但是采用soft-NMS方法可以略微增加目标检测的准确度,改进后的算法AP达到了82.31 %,相较于改进之前79.46 %提高了约2.85 %。

同样地,用基于改进的soft-NMS方法、VGG16网络作为特征提取层的Faster R-CNN作为对照设计实验检验Tri-VGG网络对算法检测性能的影响。batch大小取16,循环14次,前四层卷积层初始学习率Rl=0,其余层初始学习率为Rl=0.001,每一个循环学习率下降,比率为0.1,RoI候选框取256个/张,权重衰减常数为0.0001。实验结果每10个batch打印一次,结果如图7所示。图例中的VGG16表示特征提取层为VGG16的网络,Tri-VGG1表示不采用权重共享、不采用预训练策略以及不采用正则化方法的Tri-VGG特征提取网络,Tri-VGG2表示采用权重共享及预训练策略、权重衰减系数为0.0001、dropout系数为0.4的Tri-VGG特征提取网络。

图7 Tri-VGG与VGG16特征提取层的Faster R-cnn损失函数及AP对比Fig.7 Comparison of Tri-VGG and VGG16 feather extraction layer in Faster R-cnn loss function and AP

由实验结果发现,未采取任何训练策略的Tri-VGG特征提取网络的损失函数无法进一步收敛,而算法的检测精度却无法提升,这是因为存在参数冗余,也就是过拟合现象。

于是我们对该网络采取了冻结预训练卷积层、权重共享、权重衰减、dropout等方法避免网络的过拟合,在实验中发现,随着dropout系数的增长,网络的过拟合现象起初会得到较好的改善,但是如果dropout系数超过0.4,网络的检测性能的不稳定性就会较为突出,每次试验的结果波动较大,于是本文采用的dropout为0.4是缓解网络过拟合的前提下,较为稳妥的选择。由图7可以看出,经过预训练的Tri-VGG网络的收敛效果也有明显的提升,采用Tri-VGG的神经网络模型得到的AP达到了85.21 %,相较于原始的VGG神经网络模型高出了约3.01 %。

表2为几种算法的综合对比,实验结果表明,检测精度上一阶段网络检测模型稍逊于二阶段网络模型,而本文的模型相比RPN网络采用soft-NMS的Faster R-CNN模型AP提高了3.01 %,相比原始的Faster R-CNN检测算法AP提高了5.86 %。运算速度上,一阶段算法的运算速度略快于二阶段算法,本文的网络模型检测速度为20 f/s,在满足检测实时性的条件下,尽可能的提升了算法的检测精度。算法的可视化结果如图8所示。

表2 算法检测精度比较Tab.2 Comparison of detection accuracy of algorithms

图8 红外车辆检测算法可视化结果Fig.8 Visualization results of infrared vehicle detection algorithm

4 结 论

本文在Faster R-CNN网络基础上发展了一种权重共享的多感受野融合特征提取网络Tri-VGG,并且设计了改进的soft-NMS方法改进了Faster R-CNN的第二次NMS过程,并且设计了训练策略防止网络过拟合,使得改进的多尺度特征融合的Faster R-CNN网络对于拥堵路况的小型车辆的AP最高达到了86.65 %,车辆检测AP达到了85.32 %,比采用了改进soft-NMS的Faster R-CNN高了3.01 %,比原始的Faster R-CNN网络高了5.86 %。后续的研究可从优化Faster R-CNN的边框回归机制、改进网络的损失函数以及提高算法检测速度等方向进行。

猜你喜欢

特征提取权重卷积
权重望寡:如何化解低地位领导的补偿性辱虐管理行为?*
基于3D-Winograd的快速卷积算法设计及FPGA实现
权重常思“浮名轻”
卷积神经网络的分析与设计
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
从滤波器理解卷积
基于Daubechies(dbN)的飞行器音频特征提取
为党督政勤履职 代民行权重担当