马一种遥感图像车辆检测方法

2022-08-01马志龙倪佳忠

北京测绘 2022年5期

马志龙倪佳忠

(1. 杭州天图地理信息技术公司, 浙江杭州 310007;2. 浙江省测绘科学技术研究院, 浙江杭州 311100)

0 引言

遥感图像可高效、快速地获得部分区域的地面数据,是区域规划、地表测量、军事侦测等重要数据来源[1-3]。借助遥感图像检测区域内车辆,是遥感图像应用的重要研究方向,主要是借助卫星遥感图像快速确定车辆的类型和位置;借助人工智能目标检测方法检测遥感图像,可节约大量人力物力。

传统遥感图像目标检测算法效率低、精度较差,如何借助人工智能算法快速判定遥感车辆信息已成为热点研究方法。张曼等人[4]提出改进YOLO-V2算法(you only look once V2)[5],减少YOLO-V2模型主干网络的卷积层数和维度,并结合特征金字塔算法,增加目标检测模型的多尺度检测能力。舒军等人[6]提出在YOLO-V3网络(you only look once V3)[7]加入104×104特征分辨率的检测模块,同时增加主干特征提取网络的层数。方青云等人[8]提出使用轻型主干特征提取网络替代YOLO-V3模型的主干网络[7],同时借助聚类算法计算锚框的交并比,有效地提高了模型检测效率。谢俊章等人[9]等人提出改进YOLO-V4算法(you only look once V4)[10]检测遥感图像,首先使用K均值聚类算法计算检测目标锚框,然后对主干特征提取网络引入残差结构提高模型特征提取能力,最后在双向融合骨干网络(path aggregation network,PAnet)[11]结构使用光滑非单调激活函数[12],增强模型的非线性特征提取能力。钟志峰等人[13]提出一种轻型化的改进YOLO-V4网络,借助手机深度学习网络[14]替代原YOLO-V4主干网络,并用加权双向特征金字塔结构替换原YOLO-V4的特征融合网络。窦其龙等人[15]对YOLO-V5模型(you only look once V5)[16]的主干提取网络进行优化,并对自适应锚点框重新设定锚点框尺寸,加快模型训练和检测速度。

为了降低单批次训练数据大小对归一化层的影响和非极大值抑制算法锚框对遮挡车辆漏检等问题,本文提出一种改进的YOLO-V5算法。首先群归一化层(group normalization,GN)[17]代替原YOLO-V5的归一化层(batch normalization,BN),有效地消除了单批次训练数据尺寸对模型的影响;然后使用软非极大值抑制算法(soft non-maximum suppression, Soft-NMS)[18]替换YOLO-V5中非极大值抑制算法,防止因遮挡漏检车辆。

1 YOLO-V5算法

目标检测比较流行的目标检测方法主要分为两大类：一阶和二阶目标检测算法,二阶目标检测主要是基于区域卷积神经网络(region-based convolutional neural networks,RCNN)改进方法,该类方法检测精度高,但算法效率较差;一阶目标检测主要基于YOLO改进方法,该类方法检测速度较快,具有更好的范化性。在综合吸收YOLO系列前四代网络结构优缺点后,YOLO-V5算法彻底解决了YOLO系列算法的高效率、低精度的问题。YOLO-V5网络主要分为4个部分：输入端网络、骨干网络、多尺度特征融合网络和预测网络。

1.1 输入端网络

YOLO-V5算法的输入端也可分为3个部分：马赛克数据增强、自适应锚框构建和自适应图像缩放。

1.1.1马赛克数据增强

马赛克数据库增强主要是通过对训练数据集图像进行随机缩放、随机剪裁和随机排布等方式拼接,以增加数据集的数量,提高模型的适应性。

1.1.2自适应锚框计算

通过遗传算法与K均值算法相结合,迭代计算得到最大可能召回率的锚框,以此得到自适应锚框，可更好地检测目标,提高模型的检测精度。

1.1.3自适应图片缩放

为了增加目标检测算法推理效率,YOLO-V5算法提出自适应图像缩放方法,该方法根据图像长宽值缩放,并对图像添加黑边,以减少计算量。

1.2 骨干网络

骨干网络主要包括焦距模块和跨级局部网络模型(cross stage partial network,CSPNet),焦距模块对输入YOLO-V5骨干网络前的训练图像进行切片操作,把训练图像中每隔一个像素拿到一个值,单张训练图像可得到4张降采样图像,如图1所示。焦距操作不仅扩展了通道空间,而且二倍降采样了特征图。

图1 Focus模块

1.3 多尺度特征融合网络

YOLO-V5算法的多尺度特征特融合网络,采用了特征金字塔和特征融合网络结构,并且借鉴了CSPNet网络的交叉阶段融合结构,有效地增加了网络特征融合能力,具体如图2所示。

图2 多尺度特征融合网络

1.4 损失函数

预测包括边界框损失函数和非极大值抑制(non-maximum suppression, NMS),YOLO-V5使用范化性交并比损失函数作为边界框的损失函数,有效解决了边界框不重合的问题,并且提高了预测框回归的速度和精度。在目标检测预测阶段使用加权非极大值抑制,对多目标和有遮挡的目标增强了识别能力,获得了最优目标检测框。

2 改进YOLO-V5算法

2.1 GN归一化层

为了防止训练模型中,出现梯度消失和梯度爆炸等现象,以及增加模型的训练速度,需在每层中添加归一化层。BN算法是最为常用的归一化方法,主要对单批次训练数据归一化,该方法简单，效果较好,但对GPU资源要求较高。由于单张航拍图像数据较大,过多张单批次训练航拍图像会消耗大量的GPU资源,为此本文提出借助GN算法归一化YOLO-V5模型训练数据。

GN归一化方法在计算均值和标准差时,仅对每个样本特征图通道分为G组,然后每组有C/G个通道,C为特征通道数量,然后分别计算每组通道的均值和标准差,分别为

式中,C为每个样本特征通道数量；H、W分别为特征图的长和宽,由均值和标准差可得到归一化特征层为

式中,ε为偏重;γ和β分别是缩放和平移因子,为可学习参数。

2.2 Soft-NMS算法

非极大值抑制算法是目标检测的重要组成部分,首先按照锚框得分从高到低排序,然后选中得分最高的锚框,并与被选中锚框重叠的检测框抑制。非极大值抑制算法会导致相邻且具有重叠部分的目标丢失,严重影响YOLO-V5算法的稳定性。为了防止目标重叠影响YOLO-V5算法的鲁棒性,本文提出使用软性非极大值抑制算法筛选锚框,具体过程如下：

输入：B={b1,b2,…,bN},S={s1,s2,…,sN},Nt;

B集合为检测到所有预测框,S集合为各个预测框得分,Nt为阈值。

输入：预选框集合B={b1,b2,…,bN},预选框得分集合S={s1,s2,…,sN},非极大值抑制算法阈值Nt;

开始：

While B集合不为空 do

对预选框的得分S排序

预选框B根据得分大小排序

Forbi属于B则

si=sif(iou(M,bi))

结束

返回预选框和预选框得分

结束

通过衰减与检测框M有重叠的相邻检测框的检测分数是对NMS算法的有效改进。越是与M高度重叠的检测框,越有可能出现假阳性结果,它们的分数衰减应该更严重。因此,我们对NMS原有的分数重置函数做如下改进：

Soft-NMS的改进有两种形式,一种是线性加权的

(5)

一种是高斯加权的

(6)

3 实验结果与分析

3.1 实验数据

本文使用DOTA航拍遥感数据集[19]训练模型,搭建Opencv+Pytroch1.2深度学习软件平台,具体测试环境：英伟达2080Ti显卡,CUDA版本10.1,编译语言Python3.6,Batchsize大小为4。

3.2 评价方法与指标

常借助召回率(Recall)、精准率(Precesion)、平均精确度(average precision,AP)和各类别平均精确度(mean average precision,mAP)判断目标检测方法的优劣性,召回率和精准率分别表示为

式中,R为召回率；P为精准率；T为测试集中正样本被预测为正样本的数量;F为测试集中遗漏样本的数量,F为错误预测样本的数量。很多情况下,仅借助召回率和精准率很难评价检测算法的优劣性,故需结合这两个参数计算AP值,计算公式如下：

(9)

式中，N为测试集中样本数量；P(k)为精准率；R(k)为召回率；C为检测目标种类数；AP通过计算召回率和精准率折线图的面积得到。mAP为目标检测的平均识别准确度,由AP计算平均值得到。帧率(frames per second, FPS)为目标检测模型每秒钟检测图像数量,可衡量不同算法的检测效率。

3.3 实验结果分析可以

本文算法目标检测效果如图3所示,不同尺度的车辆均被检测出来,目标体积虽小,仍可准确定位车辆位置和种类信息。在训练阶段,本文使用GN归一化层替代原YOLO-V5中的BN层,可有效消除单批次训练训练数据大小对模型训练的影响,避免出现梯度消失和梯度爆炸;使用Soft-NMS算法替代NMS算法,更有效地定位车辆,防止因树荫或大楼遮挡造成目标丢失。由表1知,本文所提改进YOLO-V5算法相较原YOLO-V5算法mAP提高了1.53,FPS增加0.17。

(a)目标1

表1 各种目标检测算法识别结果

4 结束语

本文根据遥感图像车辆目标检测研究现状,提出一种改进YOLO-V5算法。对YOLO-V5归一化层改进,有效消除了模型对单批次训练数据大小的影响,增加模型训练速度;使用Soft-NMS算法框选车辆目标预选框,可增加YOLO-V5算法抗车辆目标遮挡能力。改进后YOLO-V5算法稳定性更好,漏检率下降,可更好地部署在遥感车辆检测场景中。但对较大尺寸航拍图像训练难度较大,消耗显卡资源较多,进一步改进中将借助分割法训练航拍图像模型。