用于多尺度道路目标检测的优化定位置信度改进算法

2023-09-06罗文广叶洪涛林朝俊

小型微型计算机系统 2023年9期

关键词：置信度尺度标签

刘悦,张璐,罗文广,叶洪涛,石英,林朝俊

1(武汉理工大学自动化学院,武汉 430070)

2(国网电力科学研究院武汉南瑞有限责任公司,武汉 430070)

3(广西汽车零部件与整车技术重点实验室(广西科技大学),广西柳州 545006)

1 引言

基于计算机视觉的道路场景目标检测是无人驾驶领域的研究基础,并被广泛应用于辅助驾驶、视频监控、车辆行人跟踪等任务.道路目标检测通过预测带有类别标签的包围框(Bounding box,Bbox)来检测城市道路上的车辆、行人等目标,算法的准确率和实时性直接影响到无人驾驶车辆的安全性能和反应速度,因此道路场景下的目标检测仍然是无人驾驶领域的热点问题.近年来,随着人工智能技术的飞速发展,基于深度学习的道路场景目标检测算法已经成为主流[1],从设计原理来看可以分为双阶段、单阶段以及1.5阶段3类.

双阶段算法R-CNN[2]是深度学习在目标检测领域的开山之作,在此基础上,Fast-RCNN[3]采用选择性搜索方法(Selective Search)[4]生成感兴趣区域(Region of Interest,RoI),并通过ROI及其提取的特征进行检测.Faster-RCNN[5]进一步提出改善区域建议网络(Region Proposal Network,RPN)提取RoI来优化网络结构,实现了端对端检测,推动了道路场景目标检测的发展.以上双阶段算法均通过Rol Pooling或RoI Align[6]实现特征对齐,算法结构复杂、推理时间长,专注于提升准确率却牺牲了实时性[7],难以直接应用于道路场景.

为了满足道路场景的实时性要求,以YOLO系列[8-11]、SSD系列[12-14]为代表的单阶段算法应运而生.YOLO系列算法将检测问题转化为回归式问题,直接预测目标相应的包围框以及其所属类别的概率,从而缩短了推理时间.SSD系列算法通过多尺度特征图进行预测,提高了城市道路上不同尺度目标的检测精度.以上单阶段算法通过逐像素预测结构简化了神经网络,满足了实时性要求,但检测结果严重依赖于精细的训练技巧,应用于复杂的道路场景时不够准确.

1.5阶段算法在检测精度和实时性之间取得了平衡,适合用于道路场景目标检测.这类算法不仅具有双阶段算法的特征对齐性质,而且采用了单阶段算法的逐像素预测结构.AlignDet[15]通过对比RoI Align和卷积计算中的im2col发现两者可以转换,提出RoIConv根据计算得到的偏移量实现特征对齐.RepPoints[16]则直接预测偏移量作为可变形卷积(Deformable Convolutional)[17,18]的offset实现特征对齐,同时以上算法在输出部分均采用逐像素预测结构.

然而道路场景视野宽阔、目标尺度跨度大,以上3类算法均未能解决多尺度道路目标检测困难的问题.此外,这些算法在后处理阶段均存在检测质量表征不合理问题.在非极大值抑制(Non-Maximum Suppression,NMS)[19]过程中,以上算法直接采用类别标签的概率作为分类置信度来表征检测质量,然后对候选结果进行排序以剔除冗余包围框.但分类置信度只能衡量分类质量而没有考虑定位质量,用来表征检测质量显然不合理.IoU-Net[20]基于特征对齐网络,预测包围框及其对应真实框之间的交并比(Intersection over Union,IoU)作为定位置信度来衡量定位质量,提高了检测精度.文献[21]基于IoU设计了一种非线性变换的定位置信度指标,提升了车辆行人的检测效果.但IoU只有在特征对齐网络中才能生效,难以应用于单阶段算法.单阶段acnhor-free算法FCOS[22]逐像素预测点到包围框的中心度centerness作为定位置信度,应用于道路场景具有较好的精度和实时性.ATSS[23]对FCOS和RetinaNet[24]进行对比分析,证明了centerness的有效性.

定位置信度决定了NMS阶段的结果走向,直接影响最终的检测精度,其重要性不言而喻,但目前鲜有针对道路场景下定位置信度的研究,其原因在于研究框架的构建较为困难.双阶段算法具有特征对齐的性质,但不满足centerness所需的逐像素预测结构;单阶段算法采用逐像素预测,但不满足IoU所需的特征对齐性质,以上两类算法均无法作为研究框架.而目前最新的1.5阶段算法兼具特征对齐和逐像素预测双重特性,道路场景目标检测选用该网络架构,对定位置信度进行研究与改进十分便利,且能兼顾精度和实时性.本文选择1.5阶段算法中最具代表性的RepPoints研究定位置信度对多尺度道路目标的敏感性,并根据研究结果提出优化定位置信度改进算法,解决了检测质量表征不合理问题,提高了多尺度目标检测精度.本文的主要贡献有:

1)基于RepPoints构建了定位置信度研究框架,研究定位置信度对多尺度道路目标的敏感性;

2)基于尺度敏感性研究结果提出了混合定位置信度,提高了检测质量表征方法的合理性;

3)提出了CIoU定位置信度进一步区分重叠程度相同的包围框,提高了IoU的区分度;

4)结合混合定位置信度和CIoU定位置信度得到优化定位置信度改进算法,解决了检测质量表征不合理问题,只需增加极少参数,就能显著提升多尺度目标的检测精度.

2 道路目标的检测质量表征方法

常规的道路场景检测算法采用输出层预测的类别标签概率作为分类置信度,来表征包围框的检测质量.检测质量由分类质量和定位质量两部分组成,分类质量由分类置信度分数进行衡量,定位质量由包围框与真实框的IoU进行衡量,其计算公式为:

(1)

式(1)中,boxgt表示真实框,boxdet表示包围框.

对于道路场景目标检测,仅采用分类置信度表征检测质量、不考虑定位质量显然不合理.如图1所示,包围框1和包围框2的分类结果均为行人,包围框2的分类置信度为0.853,低于包围框1的0.906,但包围框2和真实框的IoU为0.738,明显高于包围框1.如果采用分类置信度表征检测质量,那么定位质量较差但分类置信度最高的包围框1在NMS阶段被保留为检测结果,但实际上包围框2分类正确且定位更准.分类置信度与IoU相关性极低,所以分类置信度最高的包围框往往检测质量不是最高,以上检测质量表征不合理问题直接导致了算法精度降低.

图1 常规检测质量表征方法Fig.1 Conventional representation of detection quality

在网络中增加一个定位置信度分支,预测一个衡量定位质量的置信度分数可以使检测质量的表征更合理.将预测的定位置信度乘以分类置信度作为检测质量分数,用作NMS阶段的排序指标,能够兼顾分类质量和定位质量.目前定位置信度主要有IoU和centerness两种.IoU直接采用最终定位质量的衡量指标作为定位置信度,需要在结构复杂的特征对齐网络中才能生效,其计算公式如式(1)所示.由公式可知IoU定位置信度没有考虑中心点距离、长宽比等几何因素,无法区分重叠程度相同的包围框,对此本文将在4.2节进行改进.Centerness计算像素点到对应包围框的中心度,间接采用位置信息表示定位质量,只需在逐像素预测网络中就能生效[23],其计算公式为:

(2)

其中,l*、r*、t*和b*表示预测像素点到包围框4条边的距离.

IoU和centerness都可以用来衡量定位质量,但目前的道路场景检测算法均对不同尺度的目标使用相同的定位置信度,没有考虑到两者对多尺度道路目标的敏感性不同.

3 定位置信度敏感性研究

本节研究常用的两种定位置信度对多尺度道路目标的敏感性.首先构建研究框架并介绍实验设置,然后通过对比实验考量IoU和centerness对多尺度目标的精度影响,并从计算原理出发分析对比实验结果,最后统计标签分布进一步验证计算原理分析.

3.1 定位置信度研究框架构建

本文基于1.5阶段检测算法RepPoints构建定位置信度研究框架.RepPoints通过可变形卷积实现特征对齐,具体如图2所示.首先在特征图上逐像素学习N(N=9)个语义关键点坐标offsets,offsets经过解码和转换得到包围框,即可由真实框进行监督.当可变形卷积计算到黑色像素点时,其对应的3*3卷积核加上网络预测的offsets,形状变成阴影部分的9个点.不同于原始卷积核对应区域仅包含部分特征,阴影部分的9个点组成的区域映射回原图基本包含目标的完整信息.在网络的输出部分,RepPoints逐像素进行分类、回归.因此RepPoints兼具特征对齐和逐像素预测双重特性,对IoU和centerness均适用,适合作为定位置信度研究框架.

图2 RepPoints中的特征对齐过程Fig.2 Feature alignment in RepPoints

研究框架总体结构如图3所示.输入的道路场景图像首先经过ResNet提取特征、FPN融合特征,得到道路场景特征通过可变形卷积实现对齐,最后在网络的输出部分,基于对齐的特征图逐像素进行检测并额外预测一个定位置信度.定位置信度分支和回归分支共享特征,通过一个1*1卷积输出结果,能避免特征扩散,保证每个像素点上信息的独立性.此外,该分支仅使用正样本作为训练样本,避免大量负样本影响训练.在该框架下,只需改变该分支的标签,即可在网络中使用不同定位置信度.

图3 定位置信度研究框架Fig.3 Research framework of localization confidence

3.2 实验设置

运行环境.本文的实验均在Python环境下进行,操作系统为64位的 Ubuntu 20.04,深度学习框架为Pytorch1.5;硬件配置为CPU Intel(R)i5-10400F;内存16G;GPU NVIDIA GeForce RTX 3060.

数据集与评价指标.本文选择主流的道路场景数据集Cityscapes[25]作为道路场景下目标检测数据集,Cityscapes包含了50个不同城市的道路场景图像,训练集和测试集分别包含2975张和500张带有标注的图片.

本文使用全类平均准确度(Mean Average Precision,mAP)衡量算法性能[26],mAP值越高,表示检测性能越强,s代表目标的面积,使用APS衡量道路场景中的小目标(096)检测效果[27].使用FPS(每秒传输帧率)作为衡量算法实时性的指标.

实验参数设置.本文使用ImageNet预训练的ResNet-50作为骨干网络.在训练过程中,将Cityscapes数据集中的图片调整至适合道路场景实际应用的大小,使其短边小于640,长边小于1280.

此外,在训练中使用了随机梯度下降(SGD)优化器.学习率设置为0.00125,权重更新的动量设置为0.9.将批处理大小设置为1,并训练237200次迭代,并在第166041和第213481次迭代时将学习率下降为0.000125和0.0000125,每23720次迭代保存每个网络临时模型.

3.3 定位置信度对多尺度道路目标敏感性研究

对比实验.首先通过定位置信度对比实验,考量IoU和centerness对道路场景中多尺度目标的精度影响,实验结果如表1所示.IoU作为定位置信度时总体效果优于centerness,相比于baseline,mAP提升了1.1%,对各尺度目标检测精度均有提升,尤其是中、小目标提升明显,其中小目标精度APS提高了0.9%,中目标的精度APM提高了1.2%;Centerness对大目标作用明显,APL提高1.6%,但检测小目标时精度下降,总体作用效果不明显.

表1 定位置信度对比实验结果Table 1 Comparative experimental results of localization confidence

计算原理分析.从定位置信度的计算原理出发分析上述对比实验结果.根据公式(1)和公式(2)可以分别计算IoU和centerness的标签值,当应用于不同尺度的目标时,这两种定位置信度的标签由于计算原理的不同存在显著差异,具体如图4所示.

图4 定位置信度计算原理示意图Fig.4 Calculation principle of localization confidence

大目标中正样本点较多,如图4中的行人,其centerness的标签值由物体中心向四周呈发散状递减趋势,由于距离目标中心越近的像素点预测得到的包围框检测质量越高[23],因此centerness中包含的位置信息能够有效过滤远离目标中心的包围框,保留靠近目标中心且定位质量高的包围框,从而提升大目标精度.而当centerness应用于小目标时,这种通过位置信息过滤冗余包围框的方式存在一定缺陷,图4中的车辆仅包含一个正样本,其对应的centerness标签值非常小,导致其预测的包围框在NMS阶段被错误剔除.在道路场景中存在较多这样的小目标,因此小目标精度APS降低.从计算原理分析可知,centerness仅对大目标敏感.

IoU标签值由公式(1)计算得到,仅包含定位精度信息,而与目标的大小无关,所以IoU标签值始终较大.图4中IoU作为定位置信度时,只要包围框定位准,即使是仅有一个正样本点的小目标,其IoU标签值也可以很大.因此,IoU对各个尺度的目标检测效果均有提升,尤其是对小目标和中目标更为敏感.

标签分布统计.对定位置信度的标签分布进行统计,以验证计算原理分析.随机抽取300张道路图像,基于RepPoints统计每张图片中IoU和centerness的标签值,得到其分布如图5所示.

图5 IoU和centerness标签值分布情况Fig.5 Distribution of IoU labels and centerness labels

由图5可知,centerness的标签值总体相对较小,甚至有部分标签值集中在0.1和0.2之间.这些由极小标签监督的centerness对应于图4中的小目标,降低了APS.和centerness不同,不论目标大小,大多数IoU的标签值都大于0.7.以上标签分布统计印证了表1中的对比实验结果和图4所示的计算原理.

综上所述,定位置信度对道路场景下多尺度目标的敏感性研究结果如下:IoU作为定位置信度时整体效果优于centerness,对于大目标,两者都有助于提高检测精度;对于中目标和小目标,IoU更为敏感,而centerness失效.根据以上结论即可对多尺度目标有针对性地使用定位置信度.

4 优化定位置信度改进算法

本节基于RepPoints提出一种用于多尺度道路目标检测的优化定位置信度改进算法,首先根据敏感性研究结果提出混合定位置信度(Mixed localization confidence),然后针对IoU无法区分重叠程度相同的包围框,提出基于回归损失的CIoU定位置信度(CIoU localization confidence),最后将两者结合,得到优化定位置信度改进算法.

4.1 基于尺度敏感性的混合定位置信度

单一的定位置信度仅从一个指标出发衡量包围框的定位质量,对于多尺度道路场景不够全面,因此考虑将两种定位置信度融合,以结合两者的优势.但IoU和centerness侧重不同,盲目融合只会适得其反.因此本文提出基于尺度敏感性的混合定位置信度,根据敏感性研究结果对定位置信度进行融合.

混合定位置信度和一般定位置信度的区别在于监督信息的不同,即标签值不同.由定位置信度的敏感性研究可知,IoU对小目标和中目标更敏感,同时对大目标也能起到效果,而centerness仅对大目标敏感,对小目标和中目标检测效果不佳,因此在确定定位置信度的标签值时,小目标和中目标都只使用IoU作为标签值,仅对大目标进行定位置信度融合,融合后的定位置信度不仅包含IoU反映的定位精度信息,同时通过centerness包含的位置信息进一步区分包围框的定位质量.混合定位置信度标签值m的计算公式为:

(3)

式(3)中,γ为平衡因子,用于调整IoU和centerness的比重.混合定位置信度根据不同的目标尺度敏感性有选择地融合定位置信度,提高了NMS阶段检测质量表征方法的合理性.

4.2 基于回归损失的CIoU定位置信度

定位置信度IoU的标签值由真实框和回归分支预测的包围框计算得到,即定位置信度分支和回归分支直接相关.目前回归分支的损失函数均直接基于IoU进行设计[28],但是仅用IoU无法区分重叠程度相同的包围框,且包围框和真实框不重叠时,该损失会出现梯度消失问题,导致收敛速度减慢.GIoU在IoU损失中引入惩罚项以缓解梯度消失问题[29],DIoU损失[30]在惩罚项中考虑了包围框与真实框之间的中心点距离,在此基础上,CIoU损失进一步考虑了框的宽高比[30],解决了IoU损失的梯度消失问题,并能进一步区分重叠程度相同的包围框,其公式为:

(4)

式(4)中,ρ为包围框和真实框中心点的欧氏距离,c为最小外接矩形的对角线距离,v是衡量长宽比一致性的参数,其定义为:

(5)

其中,wgt和hgt为真实框宽和高,wdet和hdet为包围框的宽和高.

IoU用作定位置信度时存在和回归损失函数相同的问题,因此本文提出基于回归损失的CIoU定位置信度,首先在交并比的基础上考虑中心点距离和宽高比,其计算公式为:

(6)

进一步考虑定位置信度和回归损失函数的区别.回归损失函数直接反映包围框与真实框的检测效果,而定位置信度还需在NMS阶段和分类置信度共同作用才能表征检测质量,其值的大小直接决定了对于边界框指导作用的强弱,而惩罚项的累加必然会导致定位置信度减小,进而减弱对检测质量的表征的影响.为了加强定位置信度的指导作用,对CIoU进行改进,将计算公式修改为:

(7)

改进后的CIoU定位置信度不仅综合考虑了几何因素,并且保持了较大的标签值,在后处理阶段衡量定位质量时,能够更好地反映包围框和真实框的重叠方式,从而进一步区分重叠程度相同的包围框.

最后,将混合定位置信度和CIoU定位置信度结合,将公式(3)中的IoU替换为公式(7)中的CIoU,得到优化定位置信度,其标签值n的计算公式为

(8)

式(8)中,α为调整CIoU和centerness比重的平衡因子.优化定位置信度不仅根据目标尺度调整定位置信度,还进一步优化IoU,使其考虑中心点距离和宽高比.在NMS阶段,优化定位置信度改进算法将预测的定位置信度乘以分类置信度作为排序得分,解决了RepPoints中包围框的检测质量表征不合理问题,提高了多尺度目标的检测精度.具体的算法实现如算法1所示.

算法1.优化定位置信度改进算法.

初始化：包围框集合B={b1,b2,…,bn},包围框对应的分类置信度集合C={c1,c2,…,cn}、优化定位置信度集合L={l1,l2,…,ln},NMS阈值σ.

输出：包围框集合D以及对应的检测质量分数集合S

1.D←Ø

2.S←{ci*li|i=1,2,…,n}

3.whileB≠Ø do

4.m←argmaxS

5.M←bm

6.D←D∪M;B←B/M

7.forbj∈Bdo

8.if IOU{bm,bj}>σthen

9.B←B{bj}

10.S←S/{sj}

11.end if

12. end for

13.end while

14.returnD,S

5 实验与分析

本节对改进算法进行实验,实验设置和2.2节相同.首先分别验证混合定位置信度和CIoU定位置信度的有效性,然后对两种策略进行消融实验并进行结果分析,最后将本文算法与其它主流的道路场景检测算法对比,本文算法具有最高的检测精度.

5.1 有效性验证实验

1)混合定位置信度有效性验证

为了验证混合定位置信度的有效性,首先确定公式(3)中的平衡因子γ.由定位置信度敏感性研究结果可知,IoU总体作用效果优于centerness,而centerness对大目标的精度提升更为明显,因此平衡因子γ调整两者的比重时,仍然以IoU作为混合定位置信度的主体,适当增加centerness以加入位置信息.依次取γ=0.1,0.2,0.3,0.4,0.5,结果如表2所示.随着γ的增加,网络的检测精度先增大后减小,当γ=0.3时达到最优,后续实验中γ均取0.3.可见适当增加位置信息确实能够结合IoU和centerness的优势,使定位置信度更合理,符合定位置信度对多尺度道路目标的敏感性研究结果.

表2 平衡因子γ实验结果Table 2 Experimental results of equilibrium factor γ

RepPoints应用混合定位置信度前后在道路场景下的检测性能对比如表3所示,mAP较baseline提高了2.1%,较IoU定位置信度提高了1.0%,由于位置信息的加入显著提升了大目标的检测效果,APL提高了4.5%.多尺度目标检测精度均得到了明显提升,显然混合定位置信度有效.

表3 混合定位置信度实验结果Table 3 Experimental results of mixed localization confidence

2)CIoU定位置信度有效性验证

本实验对CIoU定位置信度的有效性进行验证,实验结果如表4所示,其mAP相比于IoU定位置信度进一步提升了0.5%.使用GIoU、DIoU以及公式(6)所示的标准CIoU作为定位置信度时,由于训练初期包围框定位精度较低,惩罚项过大导致部分标签为负,模型无法正常收敛.而本文改进后的CIoU在考虑中心点距离和宽高比的同时保持了较大的标签值,降低了模型训练难度,显然CIoU定位置信度有效.

表4 CIoU定位置信度实验结果Table 4 Experimental results of CIoU localization confidence

5.2 消融实验与结果分析

首先确定优化定位置信度中的平衡因子α,得到混合定位置信度和CIoU定位置信度共同作用时最优结果.同样适当增加centerness,依次取α=0.1,0.2,0.3,0.4,0.5,结果如图6所示,随着α的增加,检测精度先增大后减小,并在α=0.3时达到最优,因此公式(8)中的平衡因子同样取0.3.

图6 平衡因子α实验结果Fig.6 Experimental results of equilibrium factor α

接着对本文提出的优化定位置信度改进算法进行消融实验,实验结果如表5所示.在混合定位置信度和CIoU定位置信度单独作用时,mAP分别提升2.1%和1.6%,两者共同作用时精度提升了2.4%.多尺度目标检测精度较原始算法均有明显提升,其中APS提升1.5%,APM提升2.7%,APL提升4.3%,显然两者可以共同作用.此外,定位置信度分支只增加了极少的计算量,因此算法的实时性并没有下降.优化定位置信度用于多尺度道路目标检测时,能够在保持算法实时性的同时显著提升检测精度.

表5 改进算法消融实验结果Table 5 Experimental results of improved strategy fusion

对优化定位置信度在NMS过程中的实际作用效果进行可视化,如图7所示,对于大目标,优化定位置信度将CIoU和centerness融合作为标签,和IoU作为定位置信度相比,将包围框1的定位置信度从0.59抑制至0.57,将包围框2的定位置信度从0.738提升至0.762,扩大了高质量包围框在NMS过程中的优势,最终保留了包围框2;对于圈中的小目标,优化定位置信度直接采用包围框和真实框的CIoU作为标签,相比于分类置信度更高的黄色框,网络选择了分类正确且优化定位置信度得分更高的包围框4.优化定位置信度解决了多尺度道路目标检测质量的表征不合理问题,检测结果更加合理.

图7 优化定位置信度效果可视化Fig.7 Visualization of optimized localization confidence

优化定位置信度改进算法应用前后的检测结果如图8所示.城市道路场景中存在较多小目标,RepPoints算法应用于这些目标时容易出现误检情况,如图8(a)将rider误检为person和bicycle,且包围框质量均较差.使用本文算法后误检情况得到显著改善,将检测质量分数为0.65的高质量包围框保留为检测结果.此外,本文算法有效提升了道路场景的检测精度,图8(b)中圈出部分实际上属于背景,使用本文算法后包围框更集中于有效目标,定位不够准确的情况得到了很大改善.

图8 优化定位置信度改进算法检测结果Fig.8 Detection results of optimized localization confidence

5.3 改进算法性能分析

将本文算法与其它主流的道路场景检测算法进行对比,包括Cascade-RCNN、FCOS、ATSS等,在设置相同实验参数的情况下,结果如表6所示.

表6 改进算法性能对比Table 6 Performance comparison of the improved algorithm

在主流的道路场景检测算法中,Cascade-RCNN的检测精度最高,FCOS的实时性最好.与这些算法相比,本文算法取得了最高的mAP(34.6%),超过了Cascade-RCNN,比FCOS高出2.8%,显著提升了Reppoints的多尺度目标检测精度,取得了最高的中目标检测精度(35.9%)和最高的大目标检测精度(57.7%).同时,本文算法保持了较好的实时性(12.3FPS),检测速度高于多数主流检测算法,比Cascade-RCNN高出2.6FPS,应用于道路场景时可以显著提高目标检测的性能.

6 结论

本文从定位置信度出发研究和改进道路场景目标检测算法.首先基于RepPoints构建研究框架,并根据研究结果提出了基于尺度敏感性的混合定位置信度.接着提出了基于回归损失的CIoU定位置信度,改善了IoU定位置信度无法区分重叠尺度相同的包围框的缺陷.最后将以上两者结合,得到优化定位置信度改进算法.本文算法通过解决RepPoints在NMS阶段的检测质量表征不合理问题,显著提升了道路场景下多尺度目标的检测精度.该算法的局限性在于目前仅适用于1.5阶段算法,因此下一步工作拟将优化定位置信度拓展至双阶段算法和单阶段算法.