APP下载

Fast Stereo-RCNN三维目标检测算法

2022-10-15迟旭然朱永英王春立史良宇李锦峰

小型微型计算机系统 2022年10期
关键词:分支关键点精度

迟旭然,裴 伟,朱永英,王春立,史良宇,李锦峰

1(大连海事大学 信息科学技术学院,辽宁 大连 116026)

2(大连海事大学 环境科学与工程学院,辽宁 大连 116026)

3(大连海洋大学 海洋与土木工程学院,辽宁 大连 116026)

4(北陆先端科学技术大学院大学,日本 石川 9231292)

E-mail:peiwei@dlmu.edu.cn

1 引 言

随着智能机器人、无人驾驶等产业的飞速发展[1],对环境感知技术提出了新的挑战[2].激光雷达是复杂多变未知场景三维目标检测的首选[3].但激光雷达成本高,目标识别率低,多与视觉方案融合识别目标,限制了激光雷达的应用和普及.而以低成本、高性能为特征的基于视觉的三维目标检测则承担起产业发展的重任,引领产业变革,促建“千帆竞发,百舸争流”的生态.

Chen等人在2016年提出了Mono3D[4]目标检测算法,该方法分两步进行目标检测,第1步根据先验假设密集采样,生成三维候选框.第2步三维候选框投影生成二维检测框,Faster-RCNN[5]提取特征,依据语义、上下文、先验信息计算检测框的损失函数,精确提取三维检测框.Mono3D用复杂的先验信息提取三维检测框,存在损失函数误差累计问题,平均检测精度为2.38%.候选框密集采样与多个先验特征融合计算量大,检测速度为3秒/帧.

Li等人在2019年提出了基于Faster-RCNN的Stereo-RCNN[7]三维目标检测算法.Stereo-RCNN将双目图像作为网络的输入,取代了网络的深度输入,两个FPN(Feature Pyramid Networks)[8]以及RPN(Region Proposal Network)[5]网络同时对左右图像进行候选框的生成,Mask-RCNN[9]关键点检测粗略计算三维检测框,经由左右目标感兴趣区域配准精确确定三维检测框,在KITTI数据集上的检测效果提升了近30%,平均检测精度达到了40.61%,检测速度为0.3秒/帧.

Sun等人在2020年提出了Disp-RCNN[10]算法,设计了一个实例视差估计网络,仅对感兴趣物体上的像素进行双目视差预测,事先要学习一个特定类别的形状模型,以便准确估计视差.同时针对训练中视差标注不足的问题,用统计形状模型生成密集视差来实现地面仿真,这种方式不需要激光雷达点云,使算法有更广泛的适用性,同时该算法在KITTI数据集上的平均检测精度达到了43.62%,虽然检测精度有所提升,但由于其要对双目视差进行预测,增加了额外的计算量,检测速度为0.42秒/帧.

Chen等人在2020年提出了DSGN[11]算法,在平面扫描体中建立相对应的立体约束,并转化为三维几何体,用于三维规则空间的预测.同时设计了一个单一的网络,提取用于立体匹配的像素级特征和用于目标识别的高级特征,其在KITTI上的平均检测精度达到了57.48%,已高于一些基于激光雷达的算法,但模型较复杂,计算量大,检测速度为0.67秒/帧.

综上所述,在产业需求和科研工作者的共同推动下,基于视觉的三维目标检测算法的性能有了大幅提升,精度从2.38%提升到57.48%,直逼激光雷达.但检测速度离产业实时性需求还有较大差距,成为目前基于视觉的三维目标检测算法瓶颈之一.鉴于此,本文提出一种基于Stereo-RCNN的Fast Stereo-RCNN算法,致力于提高检测精度的同时大幅度提高检测速度,为基于视觉的三维目标检测产业应用提供技术支撑.

2 单支路Stereo-RCNN三维检测算法

Stereo-RCNN将左右视觉图像分别输入到左右两个支路中,左支路用于目标三维关键点检测,左右支路提取的特征图融合后用于检测车辆的二维检测框、航向角、三维尺寸等信息.双支路分别进行特征提取计算成本高,检测速度慢.单支路Stereo-RCNN三维检测算法只使用一个支路,其网络结构如图1所示.输入图像经过resnet101[12]初步特征提取,在金字塔网络中特征融合,再送入区域生成网络提取候选框,向特征图像上做映射,送入关键点检测分支与三维信息回归分支,最终联合两个分支的三维关键点信息与三维尺寸、二维框、航向角等信息进行三维中心点重构.单分支网络结构会削弱特征提取能力,因此要保持原检测精度,需提升网络特征提取能力和三维关键点检测能力.Fast Stereo-RCNN将从特征融合、关键点检测网络、区域生成网络3个方面进行优化.

图1 单支路Stereo-RCNN三维目标检测算法Fig.1 Single branch Stereo-RCNN three-dimensional target detection algorithm

3 Stereo-RCNN关键点检测

3.1 轻量区域生成网络

Stereo-RCNN使用FCN(Fully Convolutional Networks for Semantic Segmentation)[13]进行车辆底盘的关键点检测、车体三维中心点重构.因此关键点检测精度将直接影响后续三维检测精度.在进行关键点检测时,区别于回归方法、heatmap[14]方法,Stereo-RCNN使用分类方法,将车辆底盘关键点分为4个类别,如图2所示,二维框约束可减少计算量[7].虽然质量较高的候选框的二维坐标对关键点的约束会提升关键点提取质量,但区域生成网络会生成300个候选框,数量过多,质量参差不齐,其中一些质量较差的候选框,对关键点提取的影响较大.而过少的候选框不足以支撑车辆较多、遮挡严重等的复杂场景.针对这一问题需要在使用少量高质量候选框的同时强化关键点检测分支的关键点提取能力.

图2 关键点分类Fig.2 Convolution structure

3.2 二分支关键点检测网络

原关键点检测分支使用的是全卷积网络(FCN),如图3(a)所示,没有充分考虑像素与像素之间的关系,容易引发前景背景辨识错误的问题.针对该问题,引入一全连接分支对前景背景进行区分[15],锐化目标辨识能力.具体做法如图3(b)所示,使用两个卷积层C1_FC,C2_FC,其中第2个卷积层将通道数减半以减少计算量,在两个卷积层后面接上全连接层FC,形成增强分支.

图3 二分支关键点检测网络Fig.3 Two branch key point detection network

4 双层特征融合网络

4.1 双层特征融合网络

本节针对轻量区域生成网络的候选框难以应对复杂场景下的检测任务的问题,对FPN进行改进.

近日,浩鲸科技携手南京市公安局交通管理局打造的智慧交通综合应用平台二期项目正式通过初验。该平台整合一期项目数据和“一标三实”信息采集会战数据,可广泛用于开展路况拥堵态势分析、道路拥堵分析及大队工作监管等,助力南京市公安局交通管理局推进以大数据研判为支撑,信息主导警务的智慧新交管建设,帮助交警在面对日益复杂的道路状况和出行场景时,有效提升交通管理效能。

在FPN后增加一个自底向上的金字塔(PAN),增强定位能力[15].如图4所示,(a)为原FPN结构,(b)为新增的反向增强结构.

图4 双层特征融合网络结构Fig.4 Two-layer feature fusion network architecture

图4中每一层之间的特征融合都采用卷积核大小为3×3,步长为2的卷积结构,每次卷积后图大小都缩小为原来的一半.这种反向增强后的FPN可提供更加准确的定位信息及强语义信息.

在车辆较多、遮挡严重等复杂场景下,期望得到强定位信息,但进行特征融合时使用1×1的卷积核会丢失一些定位信息.因此,本文把进行3×3卷积后的N2保留,将包含底层强定位信息的P2与N2进行融合,以增强N2的定位能力.

4.2 多层级感受野

原来的特征金字塔网络最终的输出是经3×3卷积之后的4个特征图.但是进入RPN网络的还有池化后的P5,如图4(c)所示,它在RPN中的作用主要是扩大网络的感受野以及增加局部上下文信息.本文将图4(a)中语义信息最强的P5与图4(b)中语义信息最强的N5融合、池化作为RPN的感受野,进一步增加局部上下文信息.

5 Fast Stereo-RCNN

Fast Stereo-RCNN网络结构图5(b)与原算法图5(a)对比如图5所示.resnet101提取的特征进入双层特征融合网络进行高层级与低层级特征融合,得到的4种分辨率特征图在轻量区域生成网络中生成候选框.在训练时使用nms(Efficient non-maximum suppression)[16]取IOU(Intersectionover Union)从高到低排序的前512个候选框,而在检测时仅取前10的候选框,经过ROIAlign[9]层将候选框与特征图进行映射,固定特征图的尺寸.使用固定尺寸的特征图分别做三维关键点检测以及车体尺寸、朝向角、二维框的检测.相较于原始网络,使用双层特征融合网络来缩短特征融合的传递路径,避免在传递的过程中丢失过多的语义信息,增强定位能力,同时为轻量区域生成网络提供多层级感受野;轻量区域生成网络生成少量候选框,在减少检测时间的同时固化了三维关键点;使用二分支关键点检测网络锐化目标的辨识能力.

图5 Fast Stereo-RCNN三维目标检测算法与原算法网络结构对比

6 实验及结果分析

本节共分4部分,第1部分介绍实验环境以及评估指标;第2部分为关键点检测增强分支的对比实验,第3部分为前置网络、双层特征融合网络、轻量区域生成网络之间的对比实验.第4部分为Fast Stereo-RCNN与近几年提出的三维目标检测算法精度速度对比.

6.1 实验环境和评估指标

本章节实验运行环境中使用的CPU为Intel(R) Core(TM) i-9700k,显卡为GeForce RTX 2080,脚本语言为Python 3.6.7.

本文使用mAP[17]作为算法的评估指标.IOU为预测的边框与真实的边框的交集和并集的比值,本节中的mAP值均为IOU为0.7下的预测值.

本文所用的数据集来自KITTI[18](包括行人和车辆的左右视觉图像共24.7G),分为汽车、卡车、行人、自行车4个类别,训练时只针对汽车这一个类别进行训练,训练样本如图6所示.数据集场景分为3个难度easy,mode,hard.场景难度越高,车辆的种类、数量越多,遮挡情况越严重.其中训练样本为6378枚,测试样本为3769枚,随机选取,无交集.

图6 训练图像示例Fig.6 Training image sample

6.2 针对二分支关键点检测网络的对比实验

为了验证二分支关键点检测网络的性能,本小节分别选取了resnet18与resnet101作为前置网络,实验数据如表1所示.以resnet18作为前置网络时,加上增强分支后检测精度提升近1%.以resnet101为前置网络时,检测精度提升近0.8%.实验数据表明在关键点检测分支中引入全连接层可以有效的进行像素级的前景背景区分,能够在不增加检测时间的前提下锐化目标辨识能力,提升三维检测精度.

表1 关键点检测增强前后检测精度和速度对比Table 1 Comparison of detection accuracy and speed before and after key point detection enhancement

6.3 针对前置网络与双层特征融合网络和轻量区域生成网络的对比实验

为了验证网络的特征提取能力与不同特征融合手段对三维检测速度和精度的影响,本小节选取resnet18与resnet101作为前置网络,FPN和双层特征融合网络结构进行特征融合,如表2所示.不同深度的前置网络都会出现底层特征到高层特征传递路径过长的问题.使用双层特征融合网络虽然会增加0.01s的检测时间,但是可以缩短特征传递路径,保留语义信息,增强定位能力,提升三维检测精度.resnet18作为前置网络时由于层数较少,特征提取能力较弱,三维检测精度较低.

表2 不同前置网络与特征融合网络的三维检测精度和速度对比Table 2 Comparison of 3D detection accuracy and speed between different front networks and feature fusion networks

为了验证在检测过程中区域生成网络生成过多的候选框不仅会显著增加计算量,而且大量质量参差不齐的候选框对三维关键点的约束有负面影响这一观点,本小节基于上小节的实验,分别选择不同数量的候选框以及不同前置网络和特征融合网络来进行实验.实验结果如表3所示,使用10个候选框而不使用双层特征融合网络可大幅度缩短检测时间,但仅在简单场景下小幅度的提升了精度,而在中等和复杂场景下检测精度都会下降.使用10个候选框同时使用双层特征融合网络会同时提升检测速度以及3个场景复杂度下的检测精度.实验数据表明,在简单场景下检测时选取过多的候选框,会存在质量较差的候选框对三维关键点进行约束,导致三维检测精度下降,使用数量较少质量较高的候选框不仅会提升检测速度,也会提升其在简单场景下的三维检测精度.复杂场景下由于车辆较多、候选框过少会导致检测精度下降,此时在特征融合部分使用双层融合特征网络,缩短底层特征到高层特征的传递路径来保留语义信息的同时增强底层的强定位能力,使其在复杂场景下的特征融合与特征提取能力得到进一步增强.综合数据对比,最终Fast Stereo-RCNN使用特征提取能力较强的resnet101作为前置网络,使用双层特征融合网络进行特征融合,检测时选取轻量区域生成网络以生成数量较少质量较高的候选框来约束三维关键点,使用二分支关键点检测网络提升其目标辨识能力,增强三维关键点检测能力.

表3 不同特征融合网络与候选框数量的三维检测精度和速度对对比

6.4 Fast Stereo-RCNN三维目标检测对比实验

Fast Stereo-RCNN与近几年其它三维目标检测算法的速度与精度对比如表4所示,在提升检测精度的同时检测速度是Stereo-RCNN的2.72倍,Fast Stereo-RCNN与近几年其它基于视觉的三维目标检测算法相比,在同精度水平上速度占优势.

表4 Fast Stereo-RCNN与其他三维目标检测算法的精度和速度对比Table 4 Comparison of accuracy and speed between F Stereo-RCNN and other 3D target detection algorithms

7 结 论

针对基于视觉的三维目标检测算法实时性较差这一问题,本文在Stereo-RCNN三维目标检测算法的基础上,改用单支路的网络结构以缩短检测时间;使用双层特征融合网络提升复杂场景下的特征融合与特征提取能力;在三维关键点检测分支中引入全连接层来锐化其目标辨识能力,进一步的提升关键点提取能力;在区域生成网络中使用更少的候选框来固化三维关键点.算法的平均检测精度达到了41.82%,比Stereo-RCNN算法提高了1.21%,同时速度达到了0.11秒/帧,是Stereo-RCNN算法的2.72倍.

猜你喜欢

分支关键点精度
基于不同快速星历的GAMIT解算精度分析
数字化无模铸造五轴精密成形机精度检验项目分析与研究
论建筑工程管理关键点
一类离散时间反馈控制系统Hopf分支研究
水利水电工程施工质量控制的关键点
软件多分支开发代码漏合问题及解决途径①
含有二阶幂零鞍点的双同宿环附近的极限环分支
近似边界精度信息熵的属性约简
利用定义法破解关键点
机械能守恒定律应用的关键点