面向多模态交互式融合与渐进式优化的三维视觉理解

2024-06-01何鸿添陈晗刘洋周礼亮张敏雷印杰

计算机应用研究 2024年5期

何鸿添陈晗刘洋周礼亮张敏雷印杰

摘要：三維视觉理解旨在智能地感知和解释三维场景，实现对物体、环境和动态变化的深入理解与分析。三维目标检测作为其核心技术，发挥着不可或缺的作用。针对当前的三维检测算法对于远距离目标和小目标检测精度较低的问题，提出了一种面向多模态交互式融合与渐进式优化的三维目标检测方法MIFPR。在特征提取阶段，首先引入自适应门控信息融合模块。通过把点云的几何特征融入图像特征中，能够获取对光照变化更有辨别力的图像表示。随后提出基于体素质心的可变形跨模态注意力模块，以驱使图像中丰富的语义特征和上下文信息融合到点云特征中。在目标框优化阶段，提出渐进式注意力模块，通过学习、聚合不同阶段的特征，不断增强模型对于精细化特征的提取与建模能力，逐步优化目标框，以提升对于远距离、小目标的检测精度，进而提高对于视觉场景理解的能力。在KITTI数据集上，所提方法对于pedestrian和cyclist等小目标的检测精度较最优基线有明显提升，证实了该方法的有效性。

关键词：三维视觉理解；多模态；交互式融合；渐进式注意力；目标检测

中图分类号：TP391 文献标志码：A 文章编号：1001-3695（2024）05-039-1554-08

doi：10.19734/j.issn.1001-3695.2023.08.0383

3D visual understanding oriented towards multimodal interactivefusion and progressive refinement

Abstract：3D visual understanding aims to intelligently perceive and interpret 3D scenes， achieving a profound understanding and analysis of objects， environment， and dynamic changes. As its core technology， 3D object detection plays an indispensable role. For the problem of low detection accuracy of distant targets and small targets in current 3D detection algorithms， this paper proposed a 3D object detection method called MIFPR， which was oriented towards multimodal interactive fusion and progressive refinement. In the feature extraction stage， this algorithm introduced an adaptive gated information fusion module firstly. Incorporating the geometric features of the point cloud into the image features results in a more discriminative image representation for handling variations in lighting conditions. Subsequently， the proposed voxel centroid-based deformable cross-modal attention module was to drive the fusion of rich semantic features and contextual information from images into the point cloud features. During the proposal refinement stage， this algorithm introduced a progressive attention module. By learning and aggregating features from different stages， it continuously enhanced the models ability to extract and model fine-grained features， progressively refining bounding boxes. This gradual refinement of the proposal helps improve the detection accuracy of distant and small objects， thereby enhancing the overall capability of visual scene understanding. The proposed method shows significant improvement in the detection accuracy of small objects like pedestrian and cyclist on the KITTI dataset compared to the state-of-the-art baseline. This confirms the effectiveness of the proposed approach.

Key words：3D visual understanding; multimodal; interactive fusion; progressive attention; object detection

0 引言

三维视觉理解旨在让机器能够像人类一样准确地感知和理解三维世界。它通过分析传感器数据，获取物体的位置、形状、大小和类别等信息，构建对真实场景的高维度认知模型。在自动驾驶领域，三维视觉理解显得尤为重要，因为它能赋予无人驾驶车辆灵敏的场景理解能力，使之能够实时准确地感知交通参与者、行人、障碍物以及道路标识等关键目标，从而提高驾驶的安全性和决策的效率。目标检测作为三维视觉理解的核心技术，其对物体的识别与定位，以及后续的碰撞避免、路径规划、运动预测等有着重要指导作用［1］，对于三维视觉场景的理解至关重要。

随着深度学习与计算机视觉领域的飞速发展，研究和技术人员已经在三维目标检测领域开展了广泛的研究，提出了许多先进的检测方法，目标检测的精度也在不断提升。由于仅采用激光雷达（LiDAR）点云的单模态三维目标检测方法缺乏纹理、色彩与上下文信息，且容易受到遮挡，导致在很多场景下的检测精度不佳，所以目前主流的三维目标检测方法大多是基于点云与图像的多模态融合的。

然而，现有的多模态三维目标检测算法中，普遍存在一个现象，即对于近处的大目标检测精确度较高，但是对于远距离的车辆（car），或者行人（pedestrian）、骑自行车的人（cyclist）等小目标的检测性能较差。考虑到行人和骑自行车的人是道路上的弱势交通参与者，其行为的不可预测性比汽车高，且更容易受到周围环境的影响，准确地检测和识别这些小目标，对于避免潜在的交通事故至关重要，尤其是在拥挤的城市街道和繁忙的路口。同样地，正确地识别远距离目标有助于提前预测交通流量和车辆行驶方向，从而作出更加智能的驾驶决策。在高速公路等场景中，远距离汽车的检测对于合理的车道变换和超车决策起着重要作用，有助于减少事故风险。

经过深入的分析，导致以上现象主要是由于现在的多模态检测算法存在以下问题：

a）目前主流的多模态检测方法通常都只是利用图像特征来增强点云特征，特征的单向流动可能会导致两种模态特征交互的不完全，从而无法充分地利用不同传感器信息的互补性［2］。

b）现有的多模态融合检测方法大多是将图像特征通过投影矩阵以逐点或逐体素的方式与点云特征进行加权融合。这种融合方式虽然在像素级进行了精细的特征聚合，但是会由于融合点的稀疏性而丢失图像特征中的密集模式（即破坏了图像特征的语义一致性），因为单一像素中包含的语义信息和特征较少，且无法建模与邻域像素的关联关系，最终多模态融合的效果不理想。

c）常见的两阶段三维目标检测方法在目标框优化（proposals refinement）阶段都是使用的单个优化网络。然而LiDAR在扫描时，得到的点云质量可能因为物体大小和距离的不同而有所差异。受扫描角度和距离等因素的影响，点云中不同物体的分布也存在较大差异，对于遮挡或较远的物体，点云可能会出现较多的缺失点。在这种复杂的场景下，目标框优化阶段采用单个网络来进行预测和回归，导致模型对于精细化特征的学习能力比较有限，无法较好地检测出较小的目标。

针对问题a）b），本文设计了多模态交互式融合网络，点云特征首先通过门控信息融合自适应地对图像进行增强，从而获取更鲁棒的图像特征。接着提出了可变形跨模态注意力模块，借助动态生成的采样偏移，更好地聚合参考点周围几个关键点的特征，从而获取更多的上下文信息和特征，实现更加充分的融合。通过双向交互式的特征融合，实现了特征的双向流动和相互转换融合，解决了现有方法中特征单向流动所导致的不同模态特征交互不完全不充分的问题。针对问题c），在目标框优化阶段，提出了渐进式注意力模块，通过逐步注入不同子优化阶段的特征，實现特征的聚合，进一步提升模型对于精细化特征的提取能力，不断优化以生成高质量的三维目标框，从而提升对于小目标的检测精度。

本文主要贡献如下：

a）在特征提取阶段，提出了多模态交互式融合网络（multimodal interactive fusion network，MIF-Net），通过自适应门控信息融合（adaptive gated information fusion，AGIF）模块与可变形跨模态注意力（deformable cross-modal attention，DCMA）模块，实现了级联的双向特征交互，为三维目标检测提供了更全面更鲁棒的特征表示。

b）在目标框优化阶段，设计了渐进式注意力模块，利用多个子优化阶段的结构来替代传统的单个网络结构，通过不断学习、聚合不同阶段的特征，增强模型对于细微特征的捕获能力与建模能力。

c）在广泛使用的KITTI公开数据集上定量、定性地评估了本文方法。在验证集和测试集上，本文方法对于所有目标的平均检测精度（mean average precision，mAP）分别达到了80.54%和60.57% AP，均超过了现有的其他三维目标检测方法，尤其是对于远距离目标和小目标，相比现有方法，检测精度提升更明显，充分证明了本文方法的有效性。

1 相关工作

三维视觉理解是利用三维场景中的信息进行分析和推理，以实现对环境中三维目标的智能感知与认知，即实现三维目标检测与识别。本文将从基于点云的单模态三维目标检测方法、基于图像-点云融合的多模态三维目标检测方法及基于多阶段优化的目标检测方法三个方面进行概述。

1.1 基于点云的单模态三维目标检测

由于LiDAR点云能够反映物体在三维空间中的位置，且不容易受光照变化的影响，相比相机图像具有更高的稳定性和可靠性，所以近年来基于点云的单模态三维目标检测技术受到了广泛关注，大批研究人员进行了深入研究，并取得了丰富的研究成果。Qi等人［3，4］率先提出的PointNet和PointNet++，通过使用原始点云数据作为输入来处理点云的不规则性。Zhou等人［5］提出的VoxelNet，将点云划分为体素（voxel），并使用堆叠的体素特征编码层来提取体素特征。进一步地，Zheng等人［6］提出了SE-SSD，模型包括一个教师网络和一个学生网络，通过引入知识蒸馏的思想，在保持效率的同时，提升了检测性能。 Shi等人［7］提出了直接使用点云进行检测的网络模型PointRCNN，利用文献［4］的网络来学习与以自下而上的方式生成的三维目标边界框前景点相关的语义线索。同年，Shi等人［8］深度整合了三维稀疏卷积的有效性和类似于文献［4］的集合抽象灵活的感受野，提出了PV-RCNN模型，以学习更多的判别语义；Sheng等人［9］提出的模型CT3D设计了一个区域到点的编码，同时考虑到编码点的全局和局部通道特性，采用了通道重加权的方法来增强标准Transformer解码器，以扩大特征解码空间，从而提高目标检测的精度。

尽管点云包含了丰富的几何信息，但是由于其是无序且非结构化的［10］，所以在不同物体相对传感器的空间距离、位姿角度不同的情况下，物体表面的密度、点数和空间关系存在一定差异，存在固有的稀疏特性［11］，造成了信息的不完整与数据密度的不均匀。相比之下，二维的图像中的像素密集且布局紧凑，能够提供更稠密、精细的纹理信息和语义特征，但受限于输入模态的单一性，导致基于点云的单模态三维检测方法对于远距离目标和小目标的检测精度较低。

1.2 基于图像-点云融合的多模态三维目标检测

考虑到不同传感器之间往往存在互补性［12］，研究人员考虑通过利用相机图像和激光雷达点云的信息互补来提升检测模型的精确度和鲁棒性，进行了大量研究和探索。迄今为止，已经提出了一系列基于图像与点云融合的多模态三维目标检测方法［13～20］。这些方法按照融合时机和位置的不同，可以分成早期融合（early fusion）、中期融合（middle fusion）和晚期融合（late fusion）三种。

基于早期融合的方法［13，14］，指的是在点云进入三维目标检测器之前，将图像的知识整合到点云当中。为了能够充分利用原始表示，Qi等人［13］提出了F-PointNet模型，首先将图像通过二维检测器生成二维边界框并挤压成三维视锥体（frustum），然后将这些视锥区域应用于激光雷达点云，减少了搜索范围。Vora等人［14］提出的PointPainting模型，把图像通过语义分割网络获得逐像素的语义标签，随后通过投影将语义标签附加到三维点云上来丰富点云特征，从而提高检测精度。

基于中期融合的方法［15～19］通常在三维目标检测器的骨干网络、候选目标框生成阶段或RoI细化阶段融合图像特征和点云特征。文献［15，16］先后提出了EPNet和EPNet++，以逐点的方式增强具有不同分辨率级别的图像特征的点特征的语义信息。Chen等人［17］提出了网络模型Focals，通过把体素的中心投影到图像上，应用焦点稀疏卷积（focal sparse convolution），对重要性大于阈值的体素融合对应像素的图像特征。Zhang等人［18］提出Faraway-Frustum，首先對相机图像进行实例分割，进而通过转换矩阵得到某个目标对应的视锥区域内点云，通过聚类算法估计质心，以获取目标的深度值，从而回归三维目标边界框。Wang等人［19］提出了PA3DNet，设计了伪形状分割，减少了多模态融合方法对不同传感器标签的依赖。

基于晚期融合的方法［20］对来自三维目标检测器和基于图像的二维目标检测器的输出进行操作。通过融合二维和三维边界框融合以产生更准确的三维检测结果。Pang等人［20］提出CLOCs，通过引入一个包含成对的2D-3D边界框的稀疏张量，并从这个稀疏张量中学习最终的目标置信度分数。

早期融合的方法通常以顺序的方式进行多模态融合和三维目标检测，且需要利用复杂的二维检测或语义分割网络，从而造成了额外的推理延迟。晚期融合的方法侧重于实例级聚合，只对不同模态的输出进行多模态融合，无法整合不同模态的深度特征和丰富的语义信息。中期融合的方法能够更深入地聚合多模态的特征表示，从而更好地实现不同模态特征信息的互补。为了能够更充分地利用更稠密、更细粒度的图像特征，实现不同模态之间的融合增强，本文方法采用中期融合的方法来实现图像和点云的多模态特征融合。

1.3 基于多阶段优化的目标检测

受到分而治之（divide and conquer）哲学理论的启发，带有级联检测器的多阶段目标检测方法［21～23］引起了越来越多的关注。Cai等人［21］首先将这种思想运用于二维目标检测当中，提出了Cascade R-CNN模型，设计了一系列用递增IoU阈值训练的级联检测器，每个阶段检测器的输出被馈送到下一阶段，以迭代地细化边界框。Wu等人［22］将多阶段子网络级联的思想运用到三维目标检测当中，提出了CasA，利用注意力机制来级联多个子网络，从而逐步细化目标框。Cai等人［23］以级联范式分配多个基于体素化点云的检测器，提出了3D Cascade RCNN，根据点的稀疏度级别重新加权每个目标框的任务权重，以增强优化网络的学习能力。

多阶段优化的方法已经被广泛探索并证明在二维目标检测中是有效的，然而针对三维点云的研究仍处于起步发展阶段。本文将在三维目标检测上开展多阶段优化方法的研究。

2 本文方法

在特征提取阶段，为了解决现有方法中多模态特征的单向流动导致的不同传感器信息交互不完全的问题，提出了多模态交互式融合网络（multimodal interactive fusion network，MIF-Net）。首先对点云特征进行投影，通过自适应门控信息融合模块计算相关权重，动态地将点云特征融合到图像特征中，实现图像特征的增强。随后针对主流方法采用逐点/逐体素进行特征融合时，由于点云稀疏性而导致图像语义特征一致性被破坏的问题，提出了可变形跨模态注意力模块，通过计算每个非空体素的质心在图像特征图（feature map）上的参考点，学习自适应的偏移和权重，灵活地感知参考点周围不同像素的相关性，通过可变形跨模态注意力实现图像特征与点云特征的深度融合。接下来，将融合特征通过候选区域生成网络（region proposal network，RPN）生成3D候选目标框，并送入目标框优化网络（proposal refinement network，PRN）。

在目标框优化阶段，为了解决传统方法采用单个优化网络导致对于细微特征学习能力不足的问题，提出了渐进式注意力模块。通过逐步学习与聚合不同阶段的特征，提升模型对于精细化特征的提取能力，不断优化3D边界框，以生成最终准确的3D边界框预测。

2.1 多模态交互式融合

现有的多模态三维目标检测器［15，17，24，25］大多都是利用图像特征以逐点、逐体素进行通道融合或采取注意力的方式来增强点云特征。这些方法虽然能从图像中提取出语义特征并聚合到点云特征中，但是不同模态特征的单向流动可能会导致信息交互的不完全，无法充分地利用不同传感器信息的互补性。针对这个问题，在特征提取阶段，本文设计了多模态交互式融合网络，主要包括两个部分：自适应门控信息融合模块与可变形跨模态注意力模块。通过从点云到图像和从图像到点云的双向特征交互融合，有助于获取对光照变化更有辨别力的图像表示，同时增强后的图像特征能够给点云特征带来更丰富、更鲁棒的纹理、上下文信息与语义特征，从而增强目标检测的精确度。

2.1.1 自适应门控信息融合

为了能够把点云的几何信息融入图像特征中，实现图像的增强，从而获取更鲁棒的图像特征，受文献［26］启发，本文设计了一个自适应门控信息融合模块。具体结构如图2所示。

该模块首先把经3D骨干网络提取的体素化点云特征投影到相机域中，得到点云投影特征Fv-cam。将其与经2D骨干网络提取的图像特征Fc点乘后，分别通过两个二维卷积层得到两个权重wv和wc。将权重图分别与Fv-cam和Fc逐元素相乘得到两个模态的加权特征图Fw-v和Fw-c，最后将两者拼接后生成图像增强特征图Fc-enhanced。自适应门控信息融合操作的公式如下：

2.1.2 可变形跨模态注意力

虽然通过逐点/逐体素来加权融合图像对应像素点特征的方法［15～17］计算相对简单，但是单一像素中包含的信息和特征较少，且无法获取邻域像素的关联关系，这对于远距离目标和小目标的学习很不友好。为了解决以上问题，受文献［27，28］启发，本文提出了基于体素质心的可变形跨模态注意力模块，结构如图3所示。

经3D骨干网络提取的点云特征，选取其中的非空体素，通过计算体素的质心Vicentroid来表示每个体素特征的位置，计算公式如下：

其中：n为非空体素内的点数量。

随后利用相机投影矩阵Euclid Math OneMApcam-lidar计算体素质心在图像平面的参考点Pi。

其中：RC为校准旋转矩阵和相机标定矩阵的组合。

其中：Wm和W′m是可学习的权重值；M是自注意力的头数；K为参考点附近采样点的个数；ΔPmqk表示第m个注意力头中第k个采样点的采样偏移量；Amqk是一个用于在聚合图像特征上生成注意力分数的多层感知机（multilayer perceptron，MLP），在本文中，与文献［27］一致，k取为4。

通过可变形跨模态注意力模块，可以增强点云特征对于参考点周围像素的感知能力与建模能力，获取更多上下文信息。经图像增强后的点云特征与原始点云特征拼接后得到最终的融合体素特征Fv-enhanced。遵循文献［17，29］的操作，把Fv-enhanced送入RPN中进行进一步处理。首先把融合体素特征在Z轴方向进行压缩，通过2D特征提取网络鸟瞰图（birds eye view，BEV）特征图，然后使用两个预测头来分别预测类别和回归边界框，以生成3D候选目标框，用于后续的目标框优化。

2.2 渐进式注意力优化

目前大多数的两阶段三维目标检测器，在目标框优化阶段均采用单个网络对3D边界框进行一次回归。在这种情况下，用低IoU阈值（如0.5）训练的目标检测器通常会产生噪声检测，并且随着IoU阈值的提升，检测器性能会呈下降趋势，对于小目标的学习能力会变弱，难以适应较为复杂的场景。受文献［22］的启发，本文设计了渐进式注意力模块（progressive attention module，PAM）来解决这个问题。

不同于现有的多级二维目标检测网络［21］中，仅通过简单的级联结构来聚合每个单独子网络进而细化边界框，渐进式注意力模块通过逐渐注入不同阶段的特征，并利用注意力机制［30］来学习不同阶段特征的重要性并不断聚合，循序渐进地优化目标框，以生成最终的3D目标检测，具体结构如图4所示。

其中：h为多头注意力的头数；s∈{1，2，…，S}表示第s个子优化阶段；dk是一个缩放因子。

最后一个阶段的特征分别经过两个全连接层来实现置信度预测和最终的目标框回归。

2.3 网络训练与推理

其中：α是平衡不同损失的超参数，在本文的实验中设置为1。

与文獻［17，29］类似，本文将RPN损失设计为分类损失和候选目标框回归损失的组合：

在验证阶段，通过调用训练阶段的最优模型来进行推理，以得到最终的3D预测结果。

3 实验与结果分析

3.1 数据集与评价指标

本文使用KITTI［31］公开数据集验证所提模型的有效性。KITTI数据集是由德国卡尔斯鲁厄理工学院和丰田工业大学芝加哥分校联合赞助的用于自动驾驶领域研究的数据集，由一个64线的激光雷达和两个摄像头传感器进行采集，被广泛应用于三维目标检测任务。该数据集包括7 481个训练样本和7 518个测试样本，遵循与文献［15～17，21，22］相同的数据集划分规范，将7 481个训练样本划分为训练集（3 712个）和验证集（3 769个）。由于7 518个测试样本没有公开的标签，所以，本文不仅在测试集上验证了模型的性能，还通过KITTI官方，在测试集上进行了评估。

沿用与先前方法［15～17，21，22］相同的评估指标，即计算40召回阈值（R40）下的平均精度AP3D。在该指标中，car、pedestrian和cyclist的IoU阈值分别为0.7、0.5和0.5。

3.2 实验环境与实施细节

本文实验在Ubuntu 18.04系统下进行，采用PyTorch 1.7深度学习框架，硬件配置为NVIDIA GeForce RTX 3090，24 GB显存，Intel Xeon CPU E5-2630 v4 @ 2.20 GHz×40，256 GB RAM。

训练过程中参数设置如下：采用adam_onecycle优化器，初始学习率0.01，权重衰减系数0.000 000 1，训练80个epoch，批量大小2。

本文选用文献［17］作为baseline。点云的取值范围沿X、Y、Z轴分别为（0，70.4）（-40，40）和（-3，1）。初始化阶段进行点云体素化，每个体素大小为0.05 m×0.05 m×0.05 m。在实验训练和验证推理阶段，输入图像的大小为375×1242，使用在COCO数据集上预训练的DeepLabV3［32］骨干网络来进行图像特征的提取。本文采用了三个子优化阶段（即三个渐进式注意力模块），其中多头注意力的头数为4。

在训练阶段，对于car、pedestrian和cyclist目标，前景和背景分类IoU thresholds在每个子优化阶段保持一致，θH设为u=0.75，0.65，0.65，θL设为u=0.25，0.15，0.15。边界框回归IoU thresholds随着子优化阶段的增加而逐渐增大。对于car目标，θreg设置为u=0.5，0.55，0.6，对于pedestrian和cyclist目标，θreg均设置为u=0.45，0.5，0.55。

3.3 实验结果分析

3.3.1 对比实验

为了验证本文方法的有效性，在KITTI数据集上与近几年三维目标检测的一些SOTA算法进行了比较。表1、2总结了在40召回率下，简单（easy）、中等（moderate）和困难（hard）三种不同难度样本的检测精度，其中包括了基于点云的单模态方法和基于图像-点云融合的多模态方法。其中modality中，L表示仅采用LiDAR点云作为输入，L+I表示采用LiDAR点云与相机图像作为输入。

表1显示了在KITTI验证集上的检测结果。本文方法对中等难度的car和cyclist的检测精度分别比baseline（Focals）提升1.75%和4.55%，pedestrian类别的检测精度更是提升了10.43%。pedestrian和cyclist两个类别不同难度的样本检测精度均超过了其他SOTA算法。car类别的困难样本检测精度达到了最佳，简单和中等样本虽然没有取得最高的精度，但是相对其他多模态方法，也有较好的检测性能。在KITTI验证集上，所有样本的平均精度（mAP）比第二名的PA3DNet［18］高出了4.06%。表2显示了在KITTI测试集上的检测结果。本文方法对于car的简单和困难样本，检测精度分别比baseline提升0.18%和0.31%，car所有样本的平均精度（mAP）比baseline提升0.17%。与表现最好的方法EPNet++相比，本文方法对于car的困难样本，pedestrian的简单样本以及cyclist的所有难度样本的检测精度分别超出1.19%、0.41%、4.21%、5.27%和6.73%，所有样本的平均精度（mAP）达到了65.7%，比EPNet++高出1.47%。

可以看到，本文方法对于pedestrian和cyclist等小目标，以及car的困难目标的精测精度提升比较明显。提升主要来自于设计的多模态交互式融合网络以及渐进式注意力模块，将点云的几何特征与相机图像语义、纹理、色彩信息充分融合的同时，在目标框优化阶段增强了对于精细特征的提取能力，从而提升了对于远距离目标和小目标的学习能力以及对三维视觉场景的理解能力、感知能力。

此外，本文将部分实验结果可视化，以进一步展示模型的性能，如图5所示。从图5（a）可以发现，对比同样是采用多模态双向特征融合的EPNet++，本文方法能够检测出EPNet++漏检的远端的pedestrian目标。这是由于提出的渐进式注意力模块能够通过聚合多个子网络的特征，不断提升模型对于细微特征的提取能力和聚合能力，从而增强小目标的检测精度。

从图5（b）（c）可以发现，本文方法可以在光线较强或者较暗的情况下，检测出Focals漏检的远端的car目标。这是由于自适应门控信息融合模块首先利用点云特征对图像特征进行了增强，从而获取了对光照变化更鲁棒的图像特征表示，同时增强后的图像特征能给点云特征带来更准确、更有辨别力的语义特征。从图5（d）可以发现，本文方法能够检测出单模态方法PV-RCNN漏检的car目标。这是由于本文设计的多模态交互式融合网络，通过引入稠密的图像特征来弥补单模态点云在遮挡比较严重的情況下，由于点云缺失或密度低而导致的漏检问题。

由此可见，本文方法能够充分利用图像的语义信息来丰富点云特征，以获取更深层次的语义信息和上下文信息，并在边界框细化阶段增强网络的学习能力与建模能力，从而提升对于远距离目标及小目标的检测性能。

3.3.2 消融实验

1）不同模块贡献消融本文针对AGIF、DCMA和PAM三个模块，以AP3D （R40）作为评价指标，在KITTI验证集上针对中等难度（moderate）样本的检测精度进行了6组消融实验，结果如表3所示。

由1、2组实验和4、5组实验分析可知，DCMA模块通过有效地把图像特征丰富的语义特征与纹理信息融合到点云特征中，从而提高检测的性能；由2、3组实验和5、6组实验分析可知，仅采用DCMA模块进行多模态特征单向流动的特征融合，虽然能提升检测精度，但是有点过于直接，AGIF模块能够在图像特征融合到点云特征前，首先用点云特征自适应地对图像特征进行增强，从而产生更具有辨识力的图像特征，进而取得更佳的检测效果；由1、3组实验分析可知，PAM模块能够让模型学习、聚合不同细化阶段之间的特征，从而增强模型对于局部细节特征的建模能力，以提高检测的准确率。

2）不同距离目标检测消融本文将KITTI验证集的目标划分成四个距离区间（0～10 m）（10～20 m）（20～30 m）和（>30 m），对比本文方法与baseline对于不同类别的中等难度目标，在不同距离范围内的检测精度及所有样本的平均精度，如图6所示。

由圖6可知，对于超过30 m的远距离car目标，检测精度比baseline提升了6.27%；对于pedestrian和cyclist目标，在0～10 m，10～20 m，20～30 m和>30 m内，本文方法分别提升了9.76%、17.88%、9.71%、4.87%和4.36%、1.8%、4.39%、3.65%。

由此可见，本文方法对于car、pedestrian和cyclist，在不同距离范围内的检测精度均有提升。尤其是对于pedestrian和cyclist等小目标及远距离car目标的检测性能提升更为明显。

3）子优化阶段数量消融对于在边界框细化阶段选用多少个子优化阶段，本文在KITTI验证集上进行了消融实验，如表4所示。可以发现，采用多个子优化阶段渐进式地细化目标框，能够有效提升三维目标检测的性能，其中选用3个子优化阶段与4个子优化阶段，对于car和pedestrian的检测性能非常接近，但是对于cyclist目标，采用3个子优化阶段的性能更佳，这可能是由于模型出现过拟合的结果。为了节省显存与计算资源，获得更高的三维目标检测精度，本文采用了3个子优化阶段。

4 结束语

本文提出了一种面向多模态交互式融合与渐进式优化的三维目标检测方法MIFPR，设计了一种从点云到图像和从图像到点云的多模态双向交互式融合网络。在特征提取阶段，通过自适应门控信息融合模块来实现点云特征对于图像特征的增强；通过基于体素质心的可变形跨模态注意力模块来将图像中的语义信息、纹理特征融合到点云特征中，使得点云的特征更加丰富，更具有泛化性。在目标框优化阶段，通过渐进式注意力模块，能够逐步增强模型对于精细化特征的提取能力，提升对于远距离目标和小目标的学习能力与检测精度，从而提高对于三维视觉场景的理解与感知能力。为了验证本文方法的有效性，在KITTI验证集和测试集上分别与现有的SOTA检测算法进行对比实验，实验结果表明，本文方法在KITTI测试集上，所有目标的平均检测精度（mAP）达到了65.7%。在KITTI验证集上，mAP达到了80.54%，尤其是针对pedestrian和cyclist等小目标，检测指标超过了现有的其他三维目标检测方法，证实了本文方法的有效性。

参考文献：

［1］Qian Rui， Lai Xin， Li Xirong. 3D object detection for autonomous driving：a survey［J］. Pattern Recognition， 2022，130： 108796.

［2］李佳男，王泽，许廷发. 基于点云数据的三维目标检测技术研究进展［J］. 光学学报， 2023，43（15）：296-312. （Li Jianan， Wang Ze， Xu Tingfa. A survey on 3D object detection in point clouds［J］. Acta Optica Sinica， 2023，43（15）：296-312.）

［3］Qi C R， Su Hao， Mo Kaichun， et al. PointNet： deep learning on point sets for 3D classification and segmentation［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway， NJ： IEEE Press， 2017： 652-660.

［4］Qi C R， Yi Li， Su Hao， et al. PointNet+： deep hierarchical feature learning on point sets in a metric space［C］//Advances in Neural Information Processing Systems. Red Hook，NY： Curran Associates Inc.， 2017： 5099-5108.

［5］Zhou Yin， Tuzel O. VoxelNet： end-to-end learning for point cloud based 3D object detection［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2018： 4490-4499.

［6］Zheng Wu， Tang Weiliang， Jiang Li， et al. SE-SSD： self-ensembling single-stage object detector from point cloud［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2021： 14494-14503.

［7］Shi Shaoshuai， Wang Xiaogang， Li Hongsheng. PointRCNN： 3D object proposal generation and detection from point cloud［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2019： 770-779.

［8］Shi Shaoshuai， Guo Chaoxu， Jiang Li， et al. PV-RCNN： point-voxel feature set abstraction for 3D object detection［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway， NJ： IEEE Press， 2020： 10529-10538.

［9］Sheng Hualian， Cai Sijia， Liu Yuan， et al. Improving 3D object detection with channel-wise transformer［C］//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway， NJ： IEEE Press， 2021： 2743-2752.

［10］霍威樂，荆涛，任爽. 面向自动驾驶的三维目标检测综述［J］. 计算机科学， 2023，50（7）：107-118. （Huo Weile， Jing Tao， Ren Shuang. Review of 3D object detection for autonomous driving［J］. Computer Science， 2023，50（7）： 107-118.）

［11］郭毅锋，吴帝浩，魏青民. 基于深度学习的点云三维目标检测方法综述［J］. 计算机应用研究， 2023，40（1）： 20-27. （Guo Yifeng， Wu Dihao， Wei Qingmin. Overview of single-sensor and multi-sensor point cloud 3D target detection methods［J］. Application Research of Computers， 2022，40（1）： 20-27.）

［12］张新钰，邹镇洪，李志伟，等. 面向自动驾驶目标检测的深度多模态融合技术［J］. 智能系统学报， 2020，15（4）： 758-771. （Zhang Xinyu， Zou Zhenhong， Li Zhiwei， et al. Deep multi-modal fusion in object detection for autonomous driving［J］. CAAI Trans on Intelligent Systems， 2020，15（4）： 758-771.）

［13］Qi C R， Liu Wei， Wu Chenxia， et al. Frustum PointNets for 3D object detection from RGB-D data［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2018： 918-927.

［14］Vora S， Lang A H， Helou B， et al. PointPainting： sequential fusion for 3D object detection［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2020： 4604-4612.

［15］Huang Tengteng， Liu Zhe， Chen Xiwu， et al. EPNet： enhancing point features with image semantics for 3D object detection［C］//Proc of European Conference on Computer Vision. Cham： Springer， 2020： 35-52.

［16］Liu Zhe， Huang Tengeng， Li Bingling， et al. EPNet+： cascade bi-directional fusion for multi-modal 3D object detection［J］. IEEE Trans on Pattern Analysis and Machine Intelligence， 2022，45（7）： 8324-8341.

［17］Chen Yukang， Li Yanwei， Zhang Xiangyu， et al. Focal sparse convolutional networks for 3D object detection［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2022： 5428-5437.

［18］Zhang Haolin， Yang Dongfang， Yurtsever E， et al. Faraway-Frustum： dealing with lidar sparsity for 3D object detection using fusion［C］//Proc of IEEE International Intelligent Transportation Systems Conference. Piscataway， NJ： IEEE Press， 2021： 2646-2652.

［19］Wang Meiling， Zhao Lin， Yue Yufeng. PA3DNet： 3-D vehicle detection with pseudo shape segmentation and adaptive camera-LiDAR fusion［J］. IEEE Trans on Industrial Informatics， 2023，19（11）： 10693-10703.

［20］Pang Su， Morris D， Radha H. CLOCs： camera-LiDAR object candidates fusion for 3D object detection［C］//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway， NJ： IEEE Press， 2020： 10386-10393.

［21］Cai Zhaowei， Vasconcelos N. Cascade R-CNN： delving into high quality object detection［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2018： 6154-6162.

［22］Wu Hai， Deng Jinhao， Wen Chenglu， et al. CasA： a cascade attention network for 3-D object detection from LiDAR point clouds［J］. IEEE Trans on Geoscience and Remote Sensing， 2022， 60：1-11.

［23］Cai Qi， Pan Yingwei， Yao Ting， et al. 3D cascade RCNN： high quality object detection in point clouds［J］. IEEE Trans on Image Processing， 2022，31： 5706-5719.

［24］Yoo J H， Kim Y， Kim J， et al. 3D-CVF： generating joint camera and LiDAR features using cross-view spatial feature fusion for 3D object detection［C］//Proc of the 16th European Conference on Computer Vision. Cham： Springer， 2020： 720-736.

［25］Zhang Zehan， Shen Yuxi， Li Hao， et al. Maff-Net： filter false positive for 3D vehicle detection with multi-modal adaptive feature fusion［C］//Proc of International Conference on Intelligent Transportation Systems. Piscataway， NJ： IEEE Press， 2022： 369-376.

［26］Kim J， Koh J， Kim Y， et al. Robust deep multi-modal learning based on gated information fusion network［C］//Proc of Asian Confe-rence on Computer Vision. Cham： Springer， 2018： 90-106.

［27］Chen Zehui， Li Zhenyu， Zhang Shiquan， et al. Autoalignv2： defor-mable feature aggregation for dynamic multi-modal 3D object detection［C］// Proc of European Conference on Computer Vision. Cham： Springer， 2022： 628-644.

［28］Zhu Xizhou， Su Weijie， Lu Lewei， et al. Deformable DETR： deformable transformers for end-to-end object detection［C］//Proc of International Conference on Learning Representations. 2020： 1-12.

［29］Deng Jiajun， Shi Shaoshuai， Li Peiwei， et al. Voxel R-CNN： towards high performance voxel-based 3D object detection［C］//Proc of AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2021： 1201-1209.

［30］Vaswani A， Shazeer N， Parmar N， et al. Attention is all you need［C］//Advances in Neural Information Processing Systems. Red Hook，NY： Curran Associates Inc.， 2017： 5998-6008.

［31］Geiger A， Lenz P， Urtasun R. Are we ready for autonomous driving？The KITTI vision benchmark suite［C］//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2012： 3354-3361.

［32］Chen L C， Zhu Yukun， Papandreou G， et al. Encoder-decoder with atrous separable convolution for semantic image segmentation［C］//Proc of European Conference on Computer Vision. Cham： Springer， 2018： 801-818.