采用稀疏3D卷积的单阶段点云三维目标检测方法

2022-09-20李悄李垚辰张玉龙唐文能曹鲁光左良玉

西安交通大学学报 2022年9期

深度学习已经在二维目标检测的视觉任务中取得了显著的进展

,在人脸识别

、车牌识别

和视觉目标跟踪

等领域得到充分应用。除了二维场景理解,三维目标检测对于现实世界的许多应用是关键而且密不可分的,例如自动驾驶与计算机视觉。最近的三维目标检测的方法利用不同类型的数据,例如单目图像、RGB-D图像和3D点云数据,最普遍使用的3D传感器是LiDAR(light detection and ranging)传感器,它能够形成3D点云,从而来捕捉场景的三维结构

。然而,点云数据通常是稀疏的和无序的,如何从不规则的点中提取出独特的特征成为三维目标检测任务中的关键性挑战。

根据特征提取过程中点云的表示形式,可将基于点云的三维目标检测方法分为两类:基于点的方法(又称为直接法)和基于网格的方法(包括俯视图法与体素法)。基于点的方法

大都采用PointNet或者PointNet++

网络中的集合抽象(set abstraction,SA)层对输入点云进行多层次的局部特征提取。PointRCNN

网络和3DSSD

网络等都是首先利用集合抽象层对输入点云进行下采样之后再进行下游任务的处理。此类方法在处理的过程中充分利用输入点云的几何特征,因此其能够获得更好的检测性能。由于此类方法在处理过程中需要堆叠多次下采样操作和邻域搜索操作,上述两类操作的时间复杂度分别为

(

)和

(

),使得其特征提取过程需要消耗大量的时间和计算资源。基于网格的方法将输入点云转化为规则的网格,例如3D体素

或2D俯视(bird’s eye view,BEV)图

,从而能够使用3D或者2D CNN提取特征。其中PointPillar

网络将点云转化为一个基于俯视图的二维网格,使用PointNet提取每个网格的特征构成一个二维特征图,将点云压缩成2D数据,减少了计算规模,可以直接利用二维卷积网络进行下游任务的处理。SECOND

网络作为体素法,则是将点云转化为三维体素并使用稀疏三维卷积直接提取特征。相比于基于点的方法,体素法仅需利用点云坐标将其划分到对应的网格中,该过程的时间复杂度为

(

),不需进行复杂的下采样和邻域搜索。虽然体素法会对点云进行体素特征编码的预处理,但是点云是稀疏的,大部分是空体素,稀疏三维卷积的应用使得体素法仅需处理少量非空体素,此举大大提高了其检测效率。点云处理的过程中带来了一定的信息损失,使得此类方法的检测精度通常低于基于点的方法。综上可得,基于点的直接法通常具有更好的性能,基于网格的方法通常具有更高的检测效率。因此,在室外交通场景等计算能力受限的场景中,提高基于网格方法的检测性能成为近年来的研究热点。

本文以SECOND网络为基准网络,提出了一种基于体素的单阶段三维目标检测方法Reinforced SECOND,该方法旨在进一步提高基于网格方法的检测精度。为了能够提高模型提取点云特征的能力,本文对基准网络中的点云处理方法和各个子网络都进行改进。

本文的体素特征编码网络在处理点云数据时提高了每个体素中点的信息保留,自适应地增强判别性点的特征以及抑制不稳定点。为了能够进一步解决连续稀疏卷积会丢失部分原始特征信息的问题,提出残差稀疏卷积单元,设计了残差稀疏卷积中间网络。提出的一种新颖的空间语义特征融合模块,自适应地融合低级空间特征和高级抽象语义特征,以提高区域提议网络的稳定性和鲁棒性。与基准网络相比,本文所提方法在KITTI测试集中的car类和cyclist类的3D检测精度在中等和困难等级上取得了不错的结果,这使得本文方法超越了当前的许多方法。

1 相关研究

1.1 基于点的三维目标检测

基于点云的三维目标检测方法,一般采用两种方式从不规则点云数据中提取出特征,第一种是基于点的方法。基于点的方法由PointNet(++)及其变体提供支持,直接从原始点云中提取特征。

(

)

将位置回归分成定位回归损失

和角度回归损失

reg-

。其中,本文采用的是角度回归的正弦误差损失的角度回归方式,解决了三维回归框0和π朝向角的区分问题,自然地根据角度偏移函数对IoU进行建模。角度回归损失

reg-

的正弦误差损失定义如下

1.2 基于网格的三维目标检测

直接从不规则点云数据中提取出特征,第二种方式根据一定的分辨率将点云划分为规则的连续的网格,并使用2D/3D CNN网络去提取特征。PIXOR

网络、ComplexYOLO

网络和PointPillars网络转换点云为2D BEV数据,沿着

轴和

轴划分为小的像素,从而使用手工特征来代表像素特征。以上方法虽然实现了计算量的下降,但是将点云压缩成2D数据,不可避免的出现特征信息的丢失。另外的方法是将点云沿着

轴、

轴和

轴均匀地划分为体素网格。早期的VoxelNet

网络和MVX-Net

网络将3D CNN应用于所有划分的体素,这导致网络性能不佳。事实上,大多数网格都是空的,对检测任务毫无用处。SECOND网络引入稀疏卷积

和子流形稀疏卷积

,避免大量不可用的空体素对计算资源的消耗,因此具有更快的推理速度。虽然基于体素的方法在计算上是高效的,但是在离散化过程中带来了信息丢失,从而降低了细粒度的定位精度。本文从点云处理方式和子网络上进行改进,最大限度提高模型的特征提取能力。

2 采用稀疏3D卷积的单阶段点云三维目标检测方法

2.1 点云分组

]

∈

=1,2,…,

(1)

式中:

表示点云点数,始终满足

≤

表示每个体素中的最大点数;

表示

个点的

轴、

轴和

轴坐标值

、

和反射强度

。

本文方法抛弃原来基准网络的体素特征编码层,受PointPillars

的启发,用一个10维向量来增强表示点

的输入特征,

、

分别表示体素所有点的

轴、

轴和

轴坐标的算术平均值;

、

分别表示体素中心点

轴、

轴和

轴坐标。每个体素的输入特征集合为

]

∈

=1,2,…,

(2)

最后,点云特征被编码为3D向量(

),其中

是最小批次中体素的最大数,

是点向量输入尺寸,本文为10。

2.2 网络模型

本节主要介绍网络结构,分为4个子网络:①堆叠三重注意力体素特征编码网络;②残差稀疏卷积中间网络;③空间语义特征融合2D CNN主干网络;④多任务检测头。图1给出了Reinforced SECOND的处理过程。该模型将点云作为输入,并通过体素特征编码网络将它们编码为体素表示。残差稀疏卷积中间网络提取3D稀疏特征图,并将

轴信息压缩为2D BEV特征。2D CNN主干网络在这一步实现了语义和空间特征的鲁棒提取。最后,多任务检测头生成检测结果。

2.2.1 堆叠三重注意力体素特征编码网络

本节主要介绍新设计的体素特征编码网络,称为堆叠三重注意力体素特征编码网络。体素化后的点云被编码为3D向量(

)。受PointPillars的启发,设计了一个新的体素特征编码网络。但是,在提取每个体素中的特征前,为后续操作能学习到每个体素更具识别能力和鲁棒的特征表示。参照TANet

网络,对体素特征编码网络引入堆叠三重注意力,它利用了多级特征注意力。通过联合考虑channel-wise、point-wise和voxel-wise注意力,重要的TA模块增强了每个体素的关键信息,同时抑制不稳定的点云。图2给出了TA模块的结构,同时对TA模块算法的具体流程和作用进行阐述。

一个体素网格

包含

个体素,被定义成

,…,

},其中

∈

表示体素网格

的第

个体素。

(1)point-wise注意力。假定体素

,按照通道维度对体素中的点特征进行最大池化操作,得到point-wise特征

∈

×1

,通过下面的操作得到体素

的point-wise注意力

∈

×1

(

)

(3)

分数概念的演变经历了四种途径，随之相伴的是人们对于数系的认识由整数系扩充为了有理数系.通过对分数演变顺序的分析，本研究提出了其对分数概念教学的一些启示，如教学实施的过程应分为四个具体阶段，在教学内容中应渗透比例思想、等价类思想，可将“测量”、“除法”两种分数产生途径作为数系扩充的重要教学点.

(2)channel-wise注意力。通过最大池化操作,在它们的point-wise维度上聚合通道特性,得到channel-wise特征

∈

1×

,通过下面操作得到体素

的channel-wise注意力

(4)

式中:

∈

和

∈

表示两个全连接层权重参数;

(·)表示ReLU激活函数。

(

)

(5)

堆叠两个TA模块来提取多层特征。第一个TA模块直接处理点云的原始特征,第二个模块处理高维特征。对于每个TA模块,对其输出和输入执行拼接/元素级和操作以融合更多特征信息,然后通过全连接层获得高维特征表示。通过堆叠三重注意力模块后,体素化的点云重新编码为3D向量(

),其中

是提取体素特征配置的TA模块的输出通道参数,设置为64。

三重注意力模块之后,再经过全连接层后,使用通道最大池化来提取每个体素的局部聚合和对称特征,得到尺寸为(

)的输出向量。图3给出了堆叠三重注意力体素特征编码网络的完整流程。最大池化后聚合每个体素内的点来提取尺寸为(

)紧凑的特征表示,用不同深浅的红色表示不同体素的特征向量。根据体素特征在网格中的原始空间位置对其进行排列,从而得到形状为

的体素网格特征表示,其中每个网格包含

维度特征,带颜色网格与前面的紧凑排列的相同颜色的特征向量一一对应,其中空白网格表示的是空的体素。

2.2.2 残差稀疏卷积中间网络

最典型的例子，莫过于“官渡之战”中，袁绍的谋士许攸离开袁绍，重新选择曹操。许攸的这一“重选”，彻底改变了袁绍与曹操的个人命运，也改变了历史的走向。合作者“重新选择”的原因，无非两条，一是软环境，一是硬环境。具体到许攸，主要是软环境出了问题。

简单堆叠三维稀疏卷积会丢失大量的前期信息。参照ResNet

网络,设计了残差稀疏卷积单元。该子网络可以利用残差稀疏卷积网络结构变得更深,加快网络的收敛速度,提取到更加重要的3D稀疏特征。本文将这种网络命名为残差稀疏卷积中间网络。它由一系列稀疏3D卷积(SpConv3D)和残差稀疏卷积(ResSpConv3D)单元组成。图4给出了ResSpConv3D单元结构,主要由恒等映射和残差映射组成,其中3×3×3 SpConv3D和1×1×1 SpConv3D分别表示卷积核大小为(3,3,3)和(1,1,1)的稀疏3D卷积。

唯一值得欣慰的是，英戈施塔特为R8 RWS提供了大尺寸的手套箱和座椅后方充足的储物空间（226升）。加之前部行李箱提供的额外112升的储物空间，奥迪车主可随心所欲地驾驶这辆座驾完成任何一段旅行。当然，R8 RWS出色的座椅也功不可没—舒适的坐垫、符合人体工程学的造型、丰富电动调节方向以及座椅加热功能使这辆奥迪跑车显得格外文明。或许有人会说，这些配置对于R8 RWS的身价来说根本算不了什么，那么不妨将它与价格是其两倍的法拉利812 Superfast进行对比。

其中一个ResSpConv3D单元表示为

(6)

（二）充分发挥惠农资源“粘合剂”功能，有效破解了农业农村发展瓶颈。由于“政担银企户”财金互动扶贫试点建立了多方合作的机制，为各方政策接入提供了平台，多项支农惠农资金主动或被动地“粘合”在一起，集中扶持农业农村发展。市县政府引导当地特色农业经营主体纳入财金互动政策的支持对象，并将原有的多项支农资金优先投向财金互动支持项目，改变了支农政策各自为政、小而散的状况，形成了政策合力。金融机构将国家原有的扶贫再贷款、支农再贷款政策整合起来，用于支持开展合作的信贷担保项目，农村信贷规模得到有效拓展。

(7)

+1=

(

)

(8)

残差稀疏卷积中间网络由Block1、Block2、Block3和Block4组成。将每个Block设计为SpConv3D和ResSpConv3D的组合,并使用一系列SpConv3D和ResSpConv3D将点云逐渐转换为1、2、4、8倍下采样尺寸的特征体。经过ToDense层将3D稀疏特征沿

轴堆叠,得到BEV特征图。图5给出了残差稀疏卷积中间网络概述。其中浅蓝色立方模块表示3D稀疏特征图,给出了它们的大小,同时给出Block1、Block2、Block3和Block4子模块的结构。表1给出了残差稀疏卷积中间网络参数信息。

、

代表卷积核大小、步幅大小和填充大小。标量以简单的方式使用,例如对于

代表层的输出通道数,

代表要应用的层数。其中,ResSpConv3D包含两个SpConv3D,都设置为

=3,

=1,

=1。

2.2.3 空间语义特征融合2D CNN主干网络

经过残差稀疏卷积中间网络,得到的压缩的BEV特征图作为区域建议网络的输入。为了准确检测目标,必须回归目标的精确位置且分辨每个回归框作为正/负样本,因此考虑到低级空间特征和高级的抽象语义特征。当堆叠卷积层获取到高级的抽象语义特征,会导致低级空间特征在最终的特征图有所下降。因此,简单堆叠卷积层的BEV特征提取模块难以获得具有丰富空间信息的特征。

新设计的2D CNN主干网络包括两组卷积群和空间语义特征融合模块。两个卷积群分别称为空间卷积群和语义卷积群,各自的输出分别为空间特征和语义特征。图6为提出的区域建议网络的结构图。

《南方日报》以及其所属的南方报业传媒集团的党性是不容置疑的，这从张军工作服上的党徽、优秀工作人员工位上摆放的“党群先锋岗”的标识等细节上，就可见一斑。因而，相较其他类型的印刷企业，南方印务拥有更强的政治责任。

2.2.4 多任务检测头

在得到空间语义特征融合模块融合得到的特征图后,将运用3种卷积核大小为1×1二维卷积作用于得到的特征图,输出的通道数分别为

、

和

,表示类别分类、位置回归和方向分类的输出通道数。其中图6(c)为多任务检测头示意图。使用多个不同尺寸的锚框支持多类检测。本文使用与基准网络相同的值,并遵循KITTI数据集基准的交并比(intersection over union,IoU)的阈值,并采用了与基准网络相同的框编码函数。

2.3 损失函数设计

2.3.1 位置回归的SmoothL1函数

F-PointNet

使用PointNet在2D图像目标框裁剪点云完成3D目标检测。PointRCNN网络借鉴2D检测器Faster RCNN

的思想,从整个点云生成3D建议。3DSSD网络最远点采样时,将欧氏度量(3DSSD中称为D-FPS)和特征度量(3DSSD中称为F-FPS)融合在一起,弥补下采样时不同前景实例内部点的损失。STD

网络提出从稀疏到密集的策略优化线框提议。VoteNet

网络采用霍夫投票进行目标特征分组。虽然通过PointNet(++)堆叠集合抽象层为点云特征学习提供了灵活的感受域,但是三维空间中的点检索需要巨大的计算成本,本文所提模型做到了较好的实时性。

本课程在中职主要培养的是绘图员，缺乏系统的专业理论知识，不能独立完成方案设计任务。而在高职培养的学生是面向初次就业岗位，具备效果图表现和初步设计能力；强调方法和手段的运用，重在培养基本技能。在普通高校培养的学生是面向二次就业岗位及未来发展岗位，侧重于创意设计，培养大型方案的综合设计能力，组织与协调工作。

reg-

(sin(

))

(9)

定位回归损失

定义如下

(10)

式中:下标p表示预测值;下标t表示编码值;

、

和

表示线框中心坐标;

、

和

分别表示线框的长、宽和高;

表示位置回归采用的是Smooth L1的损失函数。

2.3.2 分类的焦点损失函数

一般在KITTI场景的点云会预制多达70 000个锚框,然而只有极少的真值标注框,每个只对应4～6个目标框,这就导致前景框数和背景框数极不平衡。为解决此问题,引入焦点损失函数,其定义如下

本期“改革开放与舞台艺术”专题聚焦改革开放40年来河南的现代戏创作与演出历程，刊载的三篇文章，既有研究者对河南现代戏创作特点的分析及持续发展的经验总结，从文化环境、政策导向、创作观念等视角解析河南现代戏繁荣的原因；也有导演艺术家结合具体作品谈创作层面的实践过程与现代戏美学追求，对河南现代戏从学术研究与艺术创作的角度有较为全面的观照。他山之石，可以攻玉。以期为福建的现代戏创作，尤其是现实题材现代戏创作提供借鉴与参照。

(

)=-

(1-

)

ln(

)

(11)

式中:

表示样本属于真实类别概率;

和

是焦点损失函数的超参数,为了和基准网络实验对比,采用与基准网络相同的值。

2.3.3 多任务损失函数

对于每个类别,设置相同的损失函数。最终的多任务损失函数定义如下

(

reg-

原始的基准网络通过稀疏3D卷积代替传统的3D卷积提取点云场景中划分的体素的特征,这样大大降低了网络的计算成本。基准网络稀疏卷积中间层网络每个块都是一个3D稀疏卷积或者一个3D子流形稀疏卷积,接着是BatchNorm和ReLU操作。

(12)

式中:

表示分类损失,使用上面提到的焦点损失函数;

和

reg-

表示定位和角度的回归损失,使用Smooth L1函数;

表示方向分类损失,使用Softmax损失函数;

、

和

表示不同任务的损失函数在总体损失中所占的比重。为了和基准网络对比,本文采用与基准网络相同的损失函数的常数系数,

=1.0,

=2.0,

=0.2。

3 实验结果及分析

3.1 实验设置

本文以SECOND网络作为基准网络,尝试改进了其子网络:改进的无注意力机制的体素特征编码网络,记作NoAtten-VFE;堆叠三重注意力的体素特征编码网络,记作STA-VFE;残差稀疏卷积中间网络,记作ReSpConvNet;空间语义特征融合2D CNN主干网络,记作SSFF-2DCNN。

The statistical methods used in the present study were reviewed by Professor Konstantinos Triantafyllou,Medical School, National and Kapodistrian University,Athens, Greece who has been trained in biostatistics.

3.病理剖检。病死鸡剖析可见嗉囊充满积液，盲肠或小肠显著肿大，比正常肿大2～4倍，外表呈紫红色，肠腔充满凝固或新鲜的暗红色血液，盲肠壁变厚，浆膜层有针尖至米粒大小的灰白色糜烂点和紫色出血点间染，肠腔内充满许多混血内容物。

实验使用的点云

轴、

轴范围分别是

=[0 m,70.4 m],

=[-40 m,40 m],

=[-3 m,1 m]。选择的体素尺寸是

=0.05 m,

=0.1 m。因此,生成的体素网格大小是1 408×1 600×40。将

设置成5,作为每个体素中的最大点数,同时

设置成16 000,作为最小批量中的最大非空体素数。

训练的整个网络设置batch size为4,采用RTX 2080 Ti GPU,设置80 epochs。采用Adam优化器,初始学习率设置为0.003,指数衰减因子为0.8,每15个周期衰减一次。使用0.01的衰减权重,

为0.9,

为0.99。

在训练阶段,使用三维目标检测的数据增强策略。基准值内的点沿

轴方向按[-π

4,π

4]的均匀分布进行随机旋转,以获得基准值方位变化。此外,基准值沿

轴随机翻转点云。基准值使用[0.95,1.05]均匀分布的随机缩放因子进行全局缩放。这些基准值被随机采样放入原始样本中,以模拟有多个对象的场景。也采用从其他场景中随机“粘贴”一些新的基准值目标到当前的训练场景中进行基准值采样增强,模拟各种环境中的对象。

3.2 评估和对比

为了评价所提模型的性能,提供消融实验,在训练集上训练模型,并在验证集上验证结果。为了采用KITTI官方测试服务器对测试集进行评估,模型使用训练样本数据的80%对模型进行训练,剩余的20%数据用于验证。图7给出了KITTI验证集上对于4种场景的定性结果。通过实验结果可以看出,所提出的网络达到了意想不到的检测效果。KITTI数据集中一些未标记的对象也可以识别;对远处的小目标、遮挡严重的目标、截断严重的目标能达到较好的识别效果。同时为了客观比较所提方法与其他方法的实时性,在本实验硬件平台上对5种方法在KITTI验证集的3D检测速度进行对比。

测试集的平均均值精度结果用官方KITTI测试服务器上的40个召回位置计算。在验证集的运行速度,计算的是单帧检测时间/(s·帧

)。表2给出了所提方法在KITTI测试集上的精度性能,其性能优于之前的基准网络和许多其他方法。对于最重要的3D目标检测car类,KITTI测试集上的3D检测精度在简单、中等和困难难度级别上分别比基准网络提升了4.06%,5.85%,8.54%。而且,对于cyclist类来说,3D检测精度在简单、中等和困难难度级别上分别提升了6.95%,8.9%,8.53%。对于car类和cyclist类的BEV检测,本文方法在3个难度级别上也优于许多基于网格及基于点的方法。本文训练了一个同时用于car类和cyclist类检测的模型,而非基准网络为每个类别训练一个模型。

以上实验说明了网络在KITTI测试集上的有效性。在KITTI测试集上检测精度得到验证,表3给出了5种方法在KITTI验证集中3D检测速度的对比。由表3可知,本文所提出的基于体素的方法比PointRCNN、F-PointNet等经典的基于点的方法实时性更好,相比基准网络SECOND,所提方法检测速度变化不大。相比于基于点的方法,在处理过程中利用PointNet(++)的集合抽象层进行采样操作以及分组操作需要消耗大量的时间,本文方法仅需将点云划分到不同的网格中,不需进行复杂的采样和分组。稀疏三维卷积仅处理少量的非空体素,大大提升基于体素法的计算效率。

3.3 消融研究

所有模型都在训练集上进行训练,并在KITTI数据集的验证集上进行评估。本文使用11个召回位置计算平均均值精度,其中car类的旋转IoU阈值为0.7,cyclist类和pedestrian类的旋转IoU阈值为0.5。表4和表5给出了KITTI验证集中消融实验的3D和BEV检测性能。表4、5中基准子网代表的是采用基准网络的子网络结构。其中消融实验的设置分别以单独、两两结合以及总体结合展示本文改进点的贡献。其中包括3组单独实验,2组两两结合实验,1组总体实验。由于残差稀疏卷积中间网络和堆叠三重注意力体素特征编码网络输出特征维度关联,因此并没有提供残差稀疏卷积中间网络改进点的单独实验。

实验使用KITTI数据集,其中包含7 481个训练样本和7 518个测试样本。训练样本又分为训练集(3 712个样本)和验证集(3 769个样本)。对car类、cyclist类和pedestrian类3个类进行评估。KITTI数据集根据图像平面中边界框高度、遮挡和截断划分模型,评估难度分别为简单、中等和困难难度级别。因为对测试服务器的访问有限制,所有消融实验均使用验证集评估。按照官方KITTI评估指标,以平均均值精度(mean average precision,mAP)评价3D和BEV检测结果。

3.3.1 无注意力机制的体素特征编码网络的效果

通过与基准网络比较来验证提出的体素特征编码网络的有效性。表4给出KITTI验证集上3D检测性能,在替换NoAtten-VFE为特征编码网络后,模型在car类、cyclist类和pedestrian类的中等难度级别平均均值精度分别提升了0.14%、4.93%和3.93%,可见对占用点云较少的小物体检测效果提升较好。因为NoAtten-VFE引入了10维向量对point-wise特征进行增强表示,新的结构更好地提取voxel-wise特征,虽然小目标点云少,但是可以提取出更多特征。

3.3.2 堆叠三重注意力的效果

从表3中可以很清楚地看到主题学习模式与基于问题的学习模式各有优缺点，教师可根据自身是擅长设计学习活动，还是擅长提出问题，再结合实际情况选择模式，但不管哪种模式，对教师的专业知识、专业能力和专业情意要求都很高。

为了进一步提取体素的更具辨别力和鲁棒性的特征,在体素特征编码网络引入堆叠三重注意力。同样在KITTI验证集进行评估,如表4所示,采用STA-VFE模型和采用NoAtten-VFE模型的实验结果进行对比,在中等难度级别下,cyclist类和pedestrian类3D检测精度分别提升了0.22%、0.39%,同时car类依然有轻微的下降,下降了0.09%,但是困难难度级别下的car类确提升0.21%。说明加入堆叠三重注意力增强了体素编码网络对体素的关键性特征的提取能力。

3.3.3 残差稀疏卷积的效果

针对体素特征编码网络引入堆叠三重注意力的改进,发现KITTI验证集中car类中等难度级别3D检测平均均值精度略有下降。根据STA-VFE网络的输出特征维度特点,设计了相应的残差稀疏卷积网络,尝试改进稀疏卷积网络来提高检测效果。如表4和表5所示,将STA-VFE与ReSpConvNet结合的模型,与只引入STA-VFE的模型对比,car类在简单、中等和困难难度级别上的3D检测精度分别提高了0.84%、0.57%和0.4%。同时BEV检测精度在不同类的所有难度等级下都有一定提升。说明了残差稀疏卷积单元相比普通稀疏3D卷积对于car类有更好的检测提升效果。因为残差稀疏卷积的短连接结构,相当于在每个卷积又加入了上一层特征的全部信息,一定程度上保留了更多的点云原始信息。

俄罗斯一直在缓慢地开发自主水下载具，同时进口民用和两用型。迄今俄罗斯开发了最著名的中型尺寸“大键琴”系列自主水下载具。几个大型项目正在研发中，包括：(1) “大键琴”-2P-2M，由大型特种任务宿主潜艇(如“别尔哥罗德”号)运载；(2) “代用品”远程自主诱骗机，由大型潜艇发射，用于辅助突破北约反潜防御网；(3) 由“红宝石”设计局设计的“头足纲”系列自主水下载具，具有相对大的船首声呐，可装备两枚轻型鱼雷，可执行反潜任务。

3.3.4 空间语义特征融合模块效果

如表4所示,SSFF-2DCNN在和STA-VFE两两结合,或者与STA-VFE+ReSpConvNet总体结合的模型,都做到进一步提升了各个类不同难度级别下的在KITTI验证集3D精度。说明了本文提出的空间语义特征融合模块能够有效地融合2D CNN的低级空间特征和高级语义特征。

词人通过将自己的感情经历付诸诗词，从女性的角度书写闺中生活的寂寥与无奈，压抑与无聊。凭栏的状态更能表现作者的百无聊赖的心情。登高望远，却不见归人。

3.教师对现代教育技术运用不熟练。很多教师很少使用多媒体教学，没有把现代教育技术与传统教学方法有机融合在一起，取长补短，提高课堂教学效率。

4 结论

针对点云体素化的三维目标检测方法点云的特征提取能力不足的问题,本文提出了一种基于体素的单阶段三维目标检测(Reinforced SECOND)方法。改进的点云分组方式,对单个体素特征实现更合理的表示,并提出了一种堆叠三重注意力体素特征编码网络,该子网络增强了体素中对检测任务有着重要贡献的关键特征,同时抑制不相关噪声特征。提出残差稀疏卷积单元,设计了残差稀疏卷积中间网络,保留了3D稀疏特征图更丰富的信息,解决了连续卷积会丢失部分有效信息的问题。在区域建议网络中,提出了轻量级的空间语义特征融合模块,实现自适应地融合低级空间特征和高级抽象语义特征。在KITTI数据集的实验结果表明,与以前许多方法相比,本文方法有效提升了三维目标检测性能。

[1] 陈科圻,朱志亮,邓小明,等.多尺度目标检测的深度学习研究综述 [J].软件学报,2021,32(4):1201-1227.

CHEN Keqi,ZHU Zhiliang,DENG Xiaoming,et al.Deep learning for multi-scale object detection:a survey [J].Journal of Software,2021,32(4):1201-1227.

[2] 张帆,赵世坤,袁操,等.人脸识别反欺诈研究进展 [J].软件学报,2022,33(7):2204-2240.

ZHANG Fan,ZHAO Shikun,YUAN Cao,et al.Recent progress of face anti-spoofing [J].Journal of Software,2022,33(7):2204-2240.

[3] 陈晋音,沈诗婧,苏蒙蒙,等.车牌识别系统的黑盒对抗攻击 [J].自动化学报,2021,47(1):121-135.

CHEN Jinyin,SHEN Shijing,SU Mengmeng,et al.Black-box adversarial attack on license plate recognition system [J].Acta Automatica Sinica,2021,47(1):121-135.

[4] 孟琭,杨旭.目标跟踪算法综述 [J].自动化学报,2019,45(7):1244-1260.

MENG Lu,YANG Xu.A survey of object tracking algorithms [J].Acta Automatica Sinica,2019,45(7):1244-1260.

[5] 田永林,沈宇,李强,等.平行点云:虚实互动的点云生成与三维模型进化方法 [J].自动化学报,2020,46(12):2572-2582.

TIAN Yonglin,SHEN Yu,LI Qiang,et al.Parallel point clouds:point clouds generation and 3D model evolution via virtual-real interaction [J].Acta Automatica Sinica,2020,46(12):2572-2582.

[6] QI C R,LIU Wei,WU Chenxia,et al.Frustum PointNets for 3D object detection from RGB-D data [C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ,USA:IEEE,2018:918-927.

[7] SHI Shaoshuai,WANG Xiaogang,LI Hongsheng.PointRCNN:3D object proposal generation and detection from point cloud [C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway,NJ,USA:IEEE,2019:770-779.

[8] YANG Zetong,SUN Yanan,LIU Shu,et al.3DSSD:point-based 3D single stage object detector [C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway,NJ,USA:IEEE,2020:11037-11045.

[9] YANG Zetong,SUN Yanan,LIU Shu,et al.STD:sparse-to-dense 3D object detector for point cloud [C]∥2019 IEEE/CVF International Conference on Computer Vision (ICCV).Piscataway,NJ,USA:IEEE,2019:1951-1960.

[10] QI C R,LITANY O,HE Kaiming,et al.Deep hough voting for 3D object detection in point clouds [C]∥2019 IEEE/CVF International Conference on Computer Vision (ICCV).Piscataway,NJ,USA:IEEE,2019:9276-9285.

[11] CHARLES R Q,SU Hao,KAICHUN Mo,et al.PointNet:deep learning on point sets for 3D classification and segmentation [C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway,NJ,USA:IEEE,2017:77-85.

[12] QI C R,YI Li,SU Hao,et al.PointNet++:deep hierarchical feature learning on point sets in a metric space [C]∥Proceedings of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY,USA:Curran Associates Inc.,2017:5105-5114.

[13] SHI Shaoshuai,WANG Zhe,WANG Xiaogang,et al.Part-

net:3D part-aware and aggregation neural network for object detection from point cloud [EB/OL].[2021-12-09].https:∥doi.org/10.48550/arXiv.1907.03670.

[14] SINDAGI V A,ZHOU Yin,TUZEL O.MVX-net:multimodal VoxelNet for 3D object detection [C]∥2019 International Conference on Robotics and Automation (ICRA).Piscataway,NJ,USA:IEEE,2019:7276-7282.

[15] YAN Yan,MAO Yuxing,LI Bo.SECOND:sparsely embedded convolutional detection [J].Sensors,2018,18(10):3337.

[16] ZHOU Yin,TUZEL O.VoxelNet:end-to-end learning for point cloud based 3D object detection [C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ,USA:IEEE,2018:4490-4499.

[17] LANG A H,VORA S,CAESAR H,et al.PointPillars:fast encoders for object detection from point clouds [C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway,NJ,USA:IEEE,2019:12689-12697.

[18] SIMON M,MILZ S,AMENDE K,et al.Complex-YOLO:an Euler-region-proposal for real-time 3D object detection on point clouds [C]∥Computer Vision:ECCV 2018 Workshops.Cham,Switzerland:Springer International Publishing,2019:197-209.

[19] YANG Bin,LUO Wenjie,URTASUN R.PIXOR:real-time 3D object detection from point clouds [C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ,USA:IEEE,2018:7652-7660.

[20] REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks [C]∥Proceedings of the 28th International Conference on Neural Information Processing Systems:Volume 1.Cambridge,MA,USA:MIT Press,2015:91-99.

[21] GRAHAM B.Sparse 3D convolutional neural networks [EB/OL].[2021-12-09].https:∥doi.org/10.48550/arXiv.1505.02890.

[22] GRAHAM B.VAN DER MAATEN L.Submanifold sparse convolutional networks [EB/OL].[2021-12-09].https:∥doi.org/10.48550/arXiv.1706.01307.

[23] LIU Zhe,ZHAO Xin,HUANG Tengteng,et al.TANet:robust 3D object detection from point clouds with triple attention [C]∥Proceedings of the AAAI Conference on Artificial Intelligence.Palo Alto,CA,USA:AAAI Press,2020:11677-11684.

[24] HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al.Deep residual learning for image recognition [C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway,NJ,USA:IEEE,2016:770-778.

[25] KU J,MOZIFIAN M,LEE J,et al.Joint 3D proposal generation and object detection from view aggregation [C]∥2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).Piscataway,NJ,USA:IEEE,2018:1-8.