面向三维点云单目标跟踪的提案聚合网络

2022-06-21庄屹赵海涛

计算机应用 2022年5期

关键词：体素注意力物体

庄屹，赵海涛

（华东理工大学信息科学与工程学院，上海 200237）（∗通信作者电子邮箱haitaozhao@ecust.edu.cn）

面向三维点云单目标跟踪的提案聚合网络

庄屹，赵海涛*

（华东理工大学信息科学与工程学院，上海 200237）（∗通信作者电子邮箱haitaozhao@ecust.edu.cn）

与二维可见光图像相比，三维点云在空间中保留了物体真实丰富的几何信息，能够应对单目标跟踪问题中存在尺度变换的视觉挑战。针对三维目标跟踪精度受到点云数据稀疏性导致的信息缺失影响，以及物体位置变化带来的形变影响这两个问题，在端到端的学习模式下提出了由三个模块构成的提案聚合网络，通过在最佳提案内定位物体的中心来确定三维边界框从而实现三维点云中的单目标跟踪。首先，将模板和搜索区域的点云数据转换为鸟瞰伪图，模块一通过空间和跨通道注意力机制丰富特征信息；然后，模块二用基于锚框的深度互相关孪生区域提案子网给出最佳提案；最后，模块三先利用最佳提案对搜索区域的感兴趣区域池化操作来提取目标特征，随后聚合了目标与模板特征，利用稀疏调制可变形卷积层来解决点云稀疏以及形变的问题并确定了最终三维边界框。在KITTI跟踪数据集上把所提方法与最新的三维点云单目标跟踪方法进行比较的实验结果表明：在汽车类综合性实验中，真实场景中所提方法在成功率上提高了1.7个百分点，精确率上提高了0.2个百分点；在多类别扩展性实验上，即在汽车、货车、骑车人以及行人这4类上所提方法的平均成功率提高了0.8个百分点，平均精确率提高了2.8个百分点。可见，所提方法能够解决三维点云中的单目标跟踪问题，使得三维目标跟踪结果更加精确。

点云；目标跟踪；孪生网络；注意力机制；可变形卷积

0 引言

单目标跟踪已成为计算机视觉中的一个研究热点，被应用在自动驾驶、跟随机器人和安防系统等场景下［1］。基于可见光图像的二维跟踪方法面临着遮挡、光照、尺度变化等挑战。因此，需要在原始图像上增加额外维度的信息来解决这些问题。为了克服遮挡，深度图被用以增加可见光-深度（RGB-Depth， RGB-D）信息［2-3］。通过联合使用红外图像，可见光-红外（RGB-Thermal， RGB-T）信息可以帮助解决光照变化的问题［4-5］。上述两种方法依然无法解决尺度变化问题，并且在可见光信息弱化时可能导致跟踪失败。激光雷达获取的点云数据保留了物体的几何信息，在三维空间中给出了接近真实的物体描述，是避免尺度变化的首选表示方法［6］。

目前，可实现点云三维单目标跟踪的有基于点级特征跟踪器以及基于体素级特征跟踪器这两大类方法。基于点级特征跟踪器有：Giancola等［7］基于正则化三维形状补全（Shape Completion for 3D， SC3D）的思想，在理想前提下使用卡尔曼滤波器，采用余弦相似度比较候选对象潜层语义信息定位目标；Qi等［8］基于真实场景提出了P2B（Point-to-Box）方法，利用PointNet++［9］增强跟踪目标关键点特征，并基于VoteNet［10］设计网络用于回归潜在的目标中心；Fang等［11］基于PointNet++编码器，采用点级别特征的互相关操作设计3D-SiamRPN（3D-Siamese Region Proposal Network）通过区域提案网络确定最终的三维边界框。基于体素级特征跟踪器有：Zarzar等［12］提出了一个二维到三维形状补全（2D and 3D Shape Completion， 2D-SC3D）孪生跟踪网络，将原始点云体素化生成鸟瞰伪图代替穷举搜索，理想化选择候选对象。

基于点级特征的跟踪器对点的位置信息直接进行建模，着眼于代表目标部分的关键点实现跟踪，脱离了目标整体信息；基于体素级特征的跟踪器对原始点云进行体素划分，能够利用被跟踪物体的整体信息，但是会受到点云特征压缩后细节信息不突出的影响。以上两类跟踪器均受到了点云数据稀疏性导致的信息缺失影响，以及物体位置改变带来的形变影响。

针对上述问题，本文提出了体素级的提案聚合网络（Proposal-based Aggregation Network， PA-Net），在利用被跟踪物体整体信息实现区域提案后，进一步在最佳提案的感兴趣区域（Region of Interest，RoI）精细化确定物体的中心。相较于传统鸟瞰伪图的生成形式，PA-Net通过将点云数据分割成空间中的栅格体素，并整合每个体素中的各个点生成统一特征表示，包含了更加丰富的几何信息，更适合于三维目标跟踪。PA-Net主要由3个模块构成：1）模块一设计为一个分离式注意力机制模块，通过空间和跨通道注意力机制两部分来增加感受野，丰富了原始点云稀疏的特征；2）模块二用基于锚框的深度互相关孪生区域提案子网给出最佳提案，并给出了目标在搜索区域的整体方位；3）模块三根据最佳提案提取感兴趣区域目标特征，并提出了稀疏调制可变形卷积层，运用L1范数正则化，使得卷积核在拥有权重和偏移变量的同时受到稀疏矩阵的约束，更适应点云稀疏性的特征并解决了形变问题，在聚合预测结果后确定最终的边界框中心及偏转角度。在KITTI数据集上的实验结果表明，与当前先进的三维点云单目标跟踪方法相比，PA-Net对于各类物体，在跟踪成功率和精确率两个评价指标上都取得了更好的性能，并且对于同类物体，模型具备一定鲁棒性。

本文的主要工作如下：

1）构建了从整体信息定位到精细化确定物体中心的体素级提案聚合网络，解决了面向点云的三维单目标跟踪问题。

2）设计了稀疏调制可变形卷积层，并联合分离式注意力机制模块丰富了提取的特征，减少了由点云稀疏性带来的负面影响，解决了跟踪过程中的形变问题。

3）设计了利用最佳提案聚合感兴趣区域目标特征与模板特征来预测中心，实现了端到端的单阶段输出，避免了多阶段网络产生的计算冗余。

1 相关工作

1.1 孪生区域提案网络

基于孪生网络的方法在可见光图像跟踪方面发展迅速，利用两个权值共享分支，通过模板与搜索区域的相关性度量实现跟踪。文献［13］中提出了基于锚框定位的区域建议网络，通过回归中心以及边界框长宽来确定跟踪结果。改进孪生区域提案网络SiamRPN++［14］在上述基础上提出了一种深度可分离的相关结构，减少了参数量，增强了目标跟踪的稳定性和整体性能。由于二维图像跟踪中存在的尺度变换问题，往往利用两阶段的方法：对第一阶段的回归结果建立候选对象，第二阶段在候选对象中进行进一步的结果确定。基于图像的二维卷积网络体系结构，无法直接应用于三维点云数据，首先需要通过体素特征提取的方式，将原始点云转换为二维伪图像。

1.2 基于栅格的鸟瞰伪图特征提取

基于体素提取点云特征的网络通常都用在三维点云目标检测问题中。体素网络VoxelNet［15］作为体素网络里程碑式的方法，在三维目标检测上取得了令人满意的效果。Yan等［16］提出了SECOND（Sparsely Embedded CONvolutional Detection）稀疏卷积方法，利用稀疏卷积网络提高了VoxelNet的计算效率。这两种方法的特征提取过程需要用到三维卷积运算，对于时间和计算资源的消耗很大，很难应用于实时性要求强的跟踪场景。

Lang等［17］提出了一个名为点栅格PointPillars的检测器，将原始点云通过栅格化的形式转换成鸟瞰伪图，在目标检测问题的精度和速度上都有优势。PointPillars指出，在点云场景下，鸟瞰的俯视形式避免了前视、侧视中带来的遮挡，能够尽量多地在二维空间中保留物体的位置信息。文献［12］中将点云数据直接依照视图形式转换成鸟瞰图像。本文方法的具体操作为：基于点栅格形式将原始点云转化为二维伪图像，相较于传统的鸟瞰图像拥有更丰富的几何信息；利用PointPillars思想，通过保留深度范围，不对该维度进行体素划分，将方格体素转变为栅格体素，来学习的点云特征；利用全连接网络可以将深度方向的信息压缩至单位栅格体素中，将学习到的点云特征编码为二维伪图像，在此基础上可以实现二维卷积网络体系结构的应用。借助此方法的初步点云特征提取能够降低网络计算的时间消耗，使其满足三维单目标跟踪的实时性要求。

1.3 可变形注意力机制结构

注意力机制的运用能够帮助获取所有输入的全局依赖性以及更加详细的信息［18］。双流注意力机制网络（Dual Attention Networks， DANet）方法［19］采用了双重注意力模块，同时考虑了每个空间位置和通道的相关性，成功运用在语义分割领域。Dai等［20］提出了可变形卷积网络来处理目标检测中的变形问题，为卷积核的每个点学习一个新的偏移量，有助于匹配对象的实际形状，使得卷积区域始终覆盖在目标周围。Zhu等［21］在此基础上进一步给卷积核的点施加额外的调制权重，以此来增加特征处理自由度，增强了网络的表达能力。Yu等［22］结合了注意力机制和可变形卷积的优点，提出了可变形注意力机制网络（deformable Siamese attention networks，Siamattn），在基于可见光图像的跟踪问题中使用了一个可变形的注意力机制模块，使得目标对干扰和背景具有更强的辨别力。受到上述方法启发，本文设计了一个新的分离式注意力模块，对于卷积之前的特征从宽、高两个维度分别运用注意力机制，以集成更多的空间信息，丰富特征。在卷积之后使用跨通道注意力模块来融合更多的通道特征。为了更好适应特征稀疏的场景，对于调制可变形卷积的卷积核施加L1正则化约束，使得卷积核在受到偏移量、调制权重的约束下进一步变为稀疏矩阵。稀疏调制可变形卷积层只在最终输出层使用，在增强几何信息的同时平衡时间消耗。

2 提案聚合网络模型

真实场景下的点云三维单目标跟踪是通过在第一帧给出目标及其位置的条件下，逐帧对搜索区域内的目标进行定位。提案聚合网络PA-Net利用整体信息实现区域提案并聚合RoI的目标特征与模板进一步确定物体的中心。PA-Net由3个主要模块组成，如图1所示：1）分离式注意力机制模块；2）基于锚框的深度互相关孪生区域提案子网；3）基于目标-模板聚合特征的稀疏调制可变形卷积子网。

图1 提案聚合网络（PA-Net）的整体结构Fig. 1 Overall structure of Proposal-based Aggregation Network （PA-Net）

2.1 点云特征提取

原始点云中的每一个点的表达式是一个4维向量，分别由空间坐标位置（x，y，z）以及反射率r构成。首先为模板和搜索区域设置不同的裁剪区域范围（x-y平面不同，z平面相同）保证网格大小相同。设置了范围和网格大小，即确定了鸟瞰伪图像的空间大小，详见3.2.1节实验设置。

模板分支如图2所示。将这些点按照其位置离散成不同的栅格，并将原始点的维度与栅格中所有点的算术平均值距离和从栅格中心到x-y平面的偏移进行拼接。对于每个栅格，形成维度为的特征向量，由于点云的稀疏性，包含的点的数量是不同的，根据不同的目标，将每根柱子上的最大点数设为45，如果数据量太少，则采用零填充，通过全连接网络扩展特征后，获得维度为的栅格特征，并按照栅格的位置索引重新填充至原来的空间位置，最终获得形状大小为（C，h，w）的模板鸟瞰伪图以及形状大小为（C，H，W）的搜索区域鸟瞰伪图。

图2 点云栅格化特征提取Fig. 2 Rasterized feature extraction for point cloud

2.2 分离式注意力机制模块

卷积神经网络使用局部感受野进行特征的提取，没有综合考虑各个位置的联系和相关性。对于通道间的相关性也应着重考虑，使用空间注意力机制能够使每个位置都融合了其他空间位置信息。

式中，以宽方向为例，通过卷积层将原始特征通道维度（C）压缩至来获取查询键Q和重点键K并调整到形为（），通过矩阵乘法和列softmaxcol操作获得宽自注意力特征AW。

图3 空间注意力机制模块结构Fig. 3 Structure of spatial attention mechanism module

值特征VW也通过卷积层生成，在调整形状后与AW相乘并通过残差连接将标量参数与原始特征相加，最终获得宽维度自注意力特征FW，如式（2），同时重塑回原始形状大小。

同样的做法下获得高方向自注意力特征FH，最终通过元素加方式融合FH和FW得到空间自注意力特征XA。

传统通道注意力机制中，只考虑了单一的特征图通道与通道间的关系；而在跟踪过程中，文献［22］中提出了一种融合模板与搜索区域通道注意力机制的方法，使得模板和搜索区域的每个通道融合了自身其他通道的信息。参照空间注意力机制的做法，能够分别获得模板以及搜索区域的跨通道注意力机制特征，如图4所示。

图4 跨通道注意力机制模块结构Fig. 4 Structure of cross-channel attention mechanism module

卷积之前的特征图，存在通道少但是宽高较大的特点，对于使用空间注意力机制更加有利，每个位置能融合更多位置的信息。而经过多次卷积后的特征图则恰恰相反，将跨通道注意力机制运用到卷积后的特征图，能够融合到更多深层维度信息。因此将这两部分分离，分别作用于卷积前后。

2.3 基于锚框的深度互相关孪生区域提案子网

模块二的特征学习采用了自上而下的卷积结构生成多个分辨率生成特征，并使用跨通道注意力模块融合模板和搜索区域信息，集成相应特征。在使用卷积神经网络的方式提取图像特征时，往往通过加深网络层数、增加卷积核的大小的方式来换取特征通道数的增加，从而提取到更复杂的特征。这样的做法不可避免地带来了空间分辨率下降的缺陷，导致空间信息丢失。为了平衡这一特点的优劣，本文采用多分辨率提取方法，在卷积下采样提取特征的同时，针对产生的不同分辨率特征图分别进行自注意力机制运算，最后在统一空间分辨率的基础上，融合不同分辨率下的注意力特征，如图5所示。

对于原始特征图，卷积神经网络分别进行2倍、4倍以及8倍的下采样，对于每一次卷积下采样的特征图，首先使用跨通道注意力机制模块得到不同分辨率大小的注意力特征图，随后分别进行1倍、2倍以及4倍上采样，从而能获得3张高和宽大小为原始特征图的一半、通道数为原始特征图的4倍且空间分辨率一致的注意力特征图。

与传统的串联特征方式不同，参考文献［14］中利用深度互相关层代替传统互相关，本文对于各个分辨率特征先进行互相关，如式（3）所示：

式中：模板空间注意力特征ZA与搜索区域空间注意力特征XA在卷积块嵌入函数的作用后在互相关层进行组合；“*”操作代表以ZA在空域上的特征映射作为卷积核，在XA空域特征映射上进行卷积操作，从而实现在空间区域搜索模板的操作；bc代表各个位置的偏差值。

随后通过分类融合卷积块以及锚框偏移融合卷积块，对于得到的前背景分类，从中确定前景置信度最高的最优区域索引，根据该索引在锚框偏移中确定回归变量从而可以确定最佳提案。设定预定义的锚框，可以使得训练过程稳定快速，详见3.2.2节中的实验设置。深度互相关的做法可以有效降低计算成本和内存使用，图5中各个卷积块的具体参数设置在表1中给出。

2.4 基于目标-模板聚合特征的稀疏调制可变形卷积子网

PA-Net在模块二中获得最佳提案后，在模块三中利用感兴趣区域池化在搜索区域注意力特征中确定物体所在位置。为了获取物体在跟踪过程中的状态变化信息，将池化选择的目标特征与原始模板特征在通道维度级联，实现特征聚合来保证信息获取的完整性。非刚性物体以及刚性物体朝向改变引起目标形变问题，使用传统卷积中的固定卷积核难以覆盖目标所在的完全区域得到详细的几何信息。在文献［23］的启发下，本文提出了稀疏调制可变形卷积，如图6所示。

图5 卷积与深度互相关示意图Fig. 5 Schematic diagram of convolution and deep cross-correlation

表1 卷积模块参数设置Tab. 1 Parameter setting of convolution modules

对于输入的聚合特征，实现三分支、相同大小预测图的输出，分别对应中心位置、中心偏差以及偏转角度。根据中心位置的最佳预测，相对应地来确定最终边界框的中心偏差大小以及偏转角度。与此同时，中心偏差会聚合前一阶段最佳提案的预测中心来确定物体最终的中心位置，以此实现精确化的中心定位。

图6 稀疏调制可变形卷积结构Fig. 6 Structure of sparse modulated deformable convolution

2.5 损失函数

模块二中的分类损失Lcls参照了焦点损失［24］。首先，根据锚框的设定使用正阈值（positive_threshold）或者负阈值（negative_threshold）来匹配概率pa，如式（5）。在此基础上设置了一个平滑的标记Ts，以此来增强分类的泛化能力，防止过度拟合。

式中：Ts设定为0.01；Ia表示锚框与真实框的重合比例IoU（Intersection over Union）。通过Ts对pa的约束，可以改进得到本文使用的带参数惩罚的焦点损失，如式（6）：

模块二中的框回归损失Lreg、模块三中的中心损失Lctr以及角度损失Lrot，均使用SmoothL1损失函数［25］。模块二中只对水平方向参数进行回归来确定提案，如式（7）所示：

稀疏调制可变形卷积中的L1正则化约束作为Lspa参与损失函数的运算，如式（10），权重wk参照式（4）。

将上述所有损失汇总为提案聚合网络的最终损失L，如式（11）：

3 实验与结果分析

3.1 实验环境

实验在硬件环境为Inter Core i7-8700CPU @3.20 GHz、64 GB内存、Nvidia 1080Ti显卡，软件环境为Ubuntu16.04、Python3.7、Pytorch1.1.0的平台上进行训练和测试。

实验用的数据集基于KITTI跟踪数据集［26］，仅使用点云数据。利用21个室外场景和4种不同类型的目标物体测试了PA-Net的性能，为了公平比较实验结果，在数据集分割、跟踪序列生成和评估度量中均遵循了文献［8］中的设置。数据集分为以下几个部分：场景0～16用于训练，场景17～18用于验证，场景19～20用于测试。通过在一个场景中连接每一帧来生成跟踪序列，在序列中跟踪目标出现并提供真实边界框（Ground Truth， GT）。在汽车（Car）类别上做了综合性实验，在其他的类别如货车（Van）、骑车人（Cyclist）、行人（Pedestrian）上做了扩展性实验，消融实验在汽车类别上进行。评估指标设置为单目标跟踪的一次评估（One Pass Evaluation， OPE）［27］。成功率被定义为预测框和GT之间的IoU的接受者操作特性（Receiver Operating Characteristic， ROC）曲线下面积（Area Under Curve， AUC）。精确率定义为0～2 m的误差下中心之间欧氏距离的AUC。

3.2 实验设置

3.2.1 栅格化细节

对于汽车以及货车类的三维空间范围内的模板裁剪区域的水平范围x、y设置为，高度范围z设置为；搜索区域的水平范围设置为，高度设置为；网格大小的水平分辨率为0.16 m。对于骑车人和行人，模板的裁剪区域水平范围设置为；搜索区域的水平范围设置为，高度范围不变；相应的网格水平分辨率为0.04 m。

3.2.2 锚框细节

汽车和货车的锚框的宽度、长度和高度设置为（1.60，3.90，1.56） m，在匹配操作中的正负阈值分别设置为0.60和0.45。对于行人，锚框的宽度、长度和高度为（0.60，0.80，1.73） m，正负阈值分别为0.70和0.35。骑车人的锚框宽度、长度和高度为（0.60，1.76，1.73） m，匹配使用0.50和0.35的正负阈值。

3.2.3 训练

展会期间，多个全球印刷行业的重要会议及商会、协会等行业组织的行业交流活动会举办，展会形成了一个促进全球印刷行业交流发展的平台。

随着跟踪物体轨迹的变化，模板采集到的点云数量也会随着跟踪过程增加或减少，更新模板的过程会对跟踪的实际效果产生影响。对于模板的更新策略，本文采用第一帧GT和上一帧预测框中的点云数据进行合并后采样的融合更新策略（模板统一采样点数量为512），如图7所示，既保留了被跟踪物体的初始信息，同时也融合进了目标跟踪过程的状态变化信息。为了增加训练样本，在上一个GT上添加微小的随机偏移来扩充数据。

图7 模板点云合并采样的融合结果（汽车）Fig. 7 Fusion result of merged sampling of template point cloud（Car）

搜索区域样本的采样点数量统一为1 024，根据不同类别将上一帧的预测框的长宽进行固定大小的放大，具体为：汽车和货车设置为2 m，骑车人设置为0.6 m，行人设置为0.3 m。训练过程的优化器使用Adam优化器［28］，初始学习率为0.001，经过10个周期后下降80%。批大小设置为16。PA-Net在大约100个周期后可以获得令人满意的结果，训练中损失函数的收敛曲线如图8所示。

图8 训练与验证中的损失函数曲线Fig. 8 Curves of loss in training and validation

3.2.4 测试

为了逐帧推断跟踪序列中的三维边界框，首先将第一个GT中的点云数据作为模板，将后续预测结果中的点云与之相合并形成新的模板。与训练过程相似，在当前帧中，将前一帧的搜索结果扩大了2 m（汽车和货车）、0.6 m（骑车人）和0.3 m（行人）。

3.3 综合性实验

实验选择汽车类，在相同数据集划分下将PA-Net与SC3D［7］、2D-SC3D［12］、P2B［8］以及3D-SiamRPN［11］进行比较，结果见表2。搜索区域分别基于对前一帧预测、前一帧GT或当前帧GT生成。基于当前帧GT与前一帧GT是理想化情况，在满足实际跟踪要求的前提下，对短期跟踪性能进行评估。PA-Net在两种理想情况下的性能都相较其他方法有了较大提高，可以看出PA-Net在短期跟踪性能上拥有优势。

重点讨论真实跟踪场景中使用前一帧测试的结果，不依赖于GT。从表2中可以看出，PA-Net无论在成功率还是精确率上都相较其他方法有所提高，分别将指标提高到59.0%、75.2%，相较于后一名的57.3%、75.0%，分别提升了1.7个百分点、0.2个百分点。以下所有实验都是基于前一帧预测，以符合现实场景。

3.4 扩展性实验

PA-Net在扩展性实验上同样取得了较好的效果，将其在汽车、货车、骑车人和行人类别上同3.3节中列举的方法进行了比较，如表3所示。由表3可以看出，PA-Net在所有类别上均优于其他方法，4种类别的平均成功率、平均精确率分别为47.5%、67.7%，相较于后一名的46.7%、64.9%，分别提升了0.8个百分点、2.8个百分点。值得注意的是，PA-Net在货车以及骑车人类上存在显著优势，意味着PA-Net可以用更少的训练数据来学习目标的整体并预测实际中心。

为了测试模型的鲁棒性，考虑到货车与汽车相似，而骑车人类别可能包含行人的潜在信息，因此使用在汽车类上训练的模型来测试货车，使用在自行车上训练的模型来测试行人，货车的成功率、精确率分别为40.9%、48.3%，行人的成功率、精确率分别为33.0%、65.1%，相较于原始模型性能有一定下降，但也能反映出模型具有一定的鲁棒性。

表2 汽车类上不同方法的综合性实验结果Tab. 2 Comprehensive experimental results of different methods on Car

表3 不同方法的多类别扩展性实验结果Tab. 3 Extensive experimental results on different categories of different methods

3.5 消融实验

针对PA-Net的特征丰富层以及聚合回归层进行了5组消融实验进行对比，结果如表4所示。表4中对特征丰富层的分离式注意力机制模块进行了消融实验，在聚合回归层同为传统卷积的情况下分别比较了特征丰富层使用无注意力机制的原始特征、将空间注意力机制和跨通道注意力机制并行使用下获得的注意力特征，以及分离式注意力机制特征下汽车类别上的结果。通过比较可以发现，注意力机制进一步丰富了特征，为模型也提供了更多有效信息，提高了跟踪精度。分离式注意力机制依照特征图的特性而设计，相较单纯地并行使用注意力机制性能有了进一步的提升。

在特征丰富层使用分离式注意力机制的条件下，对聚合回归层的稀疏调制可变形卷积使用进行消融实验，见表4，对比了使用传统卷积、调制可变形卷积以及本文的稀疏调制可变形卷积的最终结果。可以看出，可变形卷积的使用对于性能的提升较大，进一步验证了物体在跟踪过程中的形变问题主要反映在边界框旋转角度的变化以及非刚性体的运动状态变化，通过改变卷积核形状能够使得感受野的覆盖更加全面进而得到更精确的结果。同时，稀疏化权重矩阵所带来的性能提升也表明，对于存在稀疏性问题的跟踪任务，稀疏调制可变形卷积起到了改善效果。

本文在特征丰富层使用分离式注意力机制、在聚合回归层使用稀疏调制可变性卷积的组合方法取得了最佳的成功率和精确率，进一步验证了本文方法在点云三维单目标跟踪中能够提升精确度。

表4 PA-Net在汽车类上特征丰富层与聚合回归层的消融实验结果单位：%Tab. 4 Ablation experimental results of PA-Net in feature enriching layer and aggregated regression layer on Car unit：%

3.6 定性分析

在图9中给出了两种不同场景下，PA-Net与P2B的汽车跟踪结果。由图9结果可以看出，无论是在点云密集还是稀疏分布场景下，PA-Net都取得了更好的结果，尤其是在稀疏场景中，PA-Net的预测框更贴近真实框，并且在位置上保持稳定。在发生场景突变的情况下，从密集帧到稀疏帧，PA-Net比P2B更有优势，PA-Net的预测框比P2B的预测框更贴近目标中心。

对于上述两种场景，图10给出了物体的实际跟踪轨迹。图10（a）展示了长时间跟踪状态下PA-Net、P2B的跟踪轨迹与真实轨迹的对比结果，可以看出PA-Net的跟踪轨迹更加贴近真实结果，且在过程中轨迹相对平滑，没有发生突变，验证了PA-Net跟踪的稳定性。图10（b）所示为短时间跟踪场景的轨迹，通过点状图更加细节地展示了物体中心的实际位置，可以看出PA-Net相较P2B能够更加准确地贴近物体中心实现跟踪，保持稳定。

图9 汽车类上PA-Net与P2B的跟踪结果可视化对比Fig. 9 Visual comparison of PA-Net and P2B tracking results on Car

图11给出了消融实验不同特征丰富层下最终输出得到的分类热力图。经过sigmoid函数约束后的中心位置预测值被约束到0～1，分为前景与背景两类，越接近1代表是前景，即跟踪物体中心的概率越大。从图11（c）可以看出，在使用分离式注意力机制模块下，目标预测图中的热力值范围更加集中，表明引用注意力特征对于分类图起到了积极影响，使得前景背景的区分更加清晰。

图10 汽车类上PA-Net与P2B的跟踪轨迹Fig. 10 Tracking trajectories of PA-Net and P2B on Car

图11 不同特征丰富层作用下的分类热力图Fig. 11 Classification heat maps with different feature enriching layers

对扩展性实验的实际结果进行可视化，在不同输出层作用下对于物体中心预测的实际结果如图12所示。对比图12（a）与图12（b）可知，可变形卷积的使用使得对于物体中心的预测更加精准。对于点云分布较为稀疏的骑车人与货车类别，由图12（c）可知，稀疏调制可变形卷积的使用使得对于物体跟踪的边界框回归成功率以及中心预测精确率都有所提升。

对应图12中的结果，表5给出了PA-Net预测的中心位置、中心补偿以及偏转角度，并将其与真实结果进行了对比。对于三维空间中物体的中心，分别预测在三个维度方向上的值来共同确定，通过提案前景最优置信度最优区域对应的中心回归值，以及中心前景最优置信度区域对应的中心补偿值相加可以得到PA-Net预测的物体中心，比较真实中心点的位置，三个维度值的偏差均在10%以内。对于偏转角度，采用弧度制预测，实际的角度偏差在16%。由此可见，PA-Net在对于跟踪物体的中心预测以及边界框偏转角度的预测上可以满足一定的精度要求。

3.7 运行速度

表6给出了汽车类别下不同方法的实际运行速度。所有方法采用相同环境，在单个Nvidia 1080ti上进行测试。由表6可以看出，在预处理阶段3D-SiamRPN的运行最快，仅用时0.5 ms。由于PA-Net在预处理阶段进行栅格体素切分生成伪图，因此需要消耗较多时间，但在模型推理以及后处理模块相较于其他两种方法性能更优，消耗时间只需要5.6 ms以及0.3 ms。总体上看，与P2B相比，PA-Net在总体运行速度上仍存在进一步提升的空间。

图12 不同输出层作用下的物体边界框以及中心预测Fig. 12 Prediction of object bounding box and center with different output layers

表5 中心位置与偏转角度预测的结果Tab. 5 Results of predicted center position and deflection angle

表6 不同方法在汽车类上的运行速度Tab. 6 Running speeds of different methods on Car

4 结语

本文提出了一种解决点云三维单目标跟踪问题的提案聚合网络PA-Net，通过在最佳提案内定位物体的中心来确定三维边界框实现跟踪。本文方法利用分离式注意力机制模块，采用空间和跨通道注意力机制丰富特征信息，并利用稀疏调制可变形卷积层针对模板和搜索区域深度互相关得到最佳提案预测物体中心，解决了点云稀疏以及形变的问题。所提网络整体采用了单阶段输出形式，避免了计算冗余。实验结果表明，PA-Net在不同实验环境下都有较大的优越性。但体素栅格化的处理方式增加了在预处理阶段的耗时，在运行速度上PA-Net仍存在一定的提升空间。下一阶段将研究提高预处理阶段的运行效率并从点云数据中提取出更丰富和具有代表性的特征，在保证性能的同时，在更具挑战性的环境下进行测试。

[1] SMEULDERS A W M， CHU D M， CUCCHIARA R， et al. Visual tracking： an experimental survey ［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2014， 36（7）： 1442-1468.

[2] SHAO L， SHAH P， DWARACHERLA V， et al. Motion-based object segmentation based on dense RGB-D scene flow ［J］. IEEE Robotics and Automation Letters， 2018， 3（4）： 3797-3804.

[3] ZHOU Y， WANG T， HU R H， et al. Multiple Kernelized Correlation Filters （MKCF） for extended object tracking usingX-band marine radar data ［J］. IEEE Transactions on Signal Processing， 2019， 67（14）： 3676-3688.

[4] LI C L， ZHU C L， HUANG Y， et al. Cross-modal ranking with soft consistency and noisy labels for robust RGB-T tracking ［C］// Proceedings of the 2018 European Conference on Computer Vision， LNCS 11217. Cham： Springer， 2018：831-847.

[5] ZHU Y B， LI C L， TANG J， et al. Quality-aware feature aggregation network for robust RGBT tracking ［J］. IEEE Transactions on Intelligent Vehicles，2021， 6（1）： 121-130.

[6] 王红艳，郑伶杰，陈献娜.简述激光雷达点云数据的处理应用［J］.资源导刊，2015（S2）：44-45.（WANG H Y， ZHENG L J， CHEN X N. Brief introduction of the processing application of the point cloud data of lidar ［J］. Resources Guide，2015（S2）： 44-45.）

[7] GIANCOLA S， ZARZAR J， GHANEM B. Leveraging shape completion for 3D Siamese tracking ［C］// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2019：1359-1368.

[8] QI H Z， FENG C， CAO Z G， et al. P2B： point-to-box network for 3D object tracking in point clouds ［C］// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2020：6328-6337.

[9] QI C H， YI L， SU H， et al. PointNet++： deep hierarchical feature learning on point sets in a metric space ［C］// Proceedings of the 2017 31st International Conference on Neural Information Processing Systems. Red Hook： Curran Associates Inc.， 2017： 5105-5114.

[10] QI C H， LITANY O， HE K M， et al. Deep Hough voting for 3D object detection in point clouds ［C］// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway： IEEE， 2019： 9276-9285.

[11] FANG Z， ZHOU S F， CUI Y B， et al. 3D-SiamRPN： an end-to-end learning method for real-time 3D single object tracking using raw point cloud ［J］. IEEE Sensors Journal， 2021， 21（4）： 4995-5011.

[12] ZARZAR J， GIANCOLA S， GHANEM B. Efficient tracking proposals using 2D-3D Siamese networks on LIDAR ［EB/OL］. ［2021-02-13］. https：//arxiv.org/pdf/1903.10168v1.pdf.

[13] LI B， YAN J J， WU W， et al. High performance visual tracking with Siamese region proposal network ［C］// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2018： 8971-8980.

[14] LI B， WU W， WANG Q， et al. SiamRPN++： evolution of Siamese visual tracking with very deep networks ［C］// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2019：4277-4286.

[15] ZHOU Y， TUZEL O. VoxelNet： end-to-end learning for point cloud based 3D object detection ［C］// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2018：4490-4499.

[16] YAN Y， MAO Y X， LI B. SECOND： sparsely embedded convolutional detection ［J］. Sensors， 2018， 18（10）： Article No.3337.

[17] LANG A H， VORA S， CAESAR H， et al. PointPillars： fast encoders for object detection from point clouds ［C］// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2019：12689-12697.

[18] NAM H， HA J W， KIM J. Dual attention networks for multimodal reasoning and matching ［C］// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2017：2156-2164.

[19] FU J， LIU J， TIAN H J， et al. Dual attention network for scene segmentation ［C］// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE，2019： 3141-3149.

[20] DAI J F， QI H Z， XIONG Y W， et al. Deformable convolutional networks ［C］// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway： IEEE， 2017：764-773.

[21] ZHU X Z， HU H， LIN S， et al. Deformable ConvNets v2： more deformable， better results ［C］// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2019：9300-9308.

[22] YU Y C， XIONG Y L， HUANG W Let al. Deformable Siamese attention networks for visual object tracking ［C］// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE，2020： 6727-6736.

[23] 尚丽，苏品刚，周燕.基于改进的快速稀疏编码的图像特征提取［J］.计算机应用，2013，33（3）：656-659.（SHANG L， SU P G，ZHOU Y. Image feature extraction based on modified fast sparse coding algorithm ［J］. Journal of Computer Applications， 2013， 33（3）： 656-659.）

[24] LIN T Y， GOYAL P， GIRSHICK Ret al. Focal loss for dense object detection ［C］// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway： IEEE， 2017：2999-3007.

[25] SHAH J， QURESHI I， DENG Y M， et al. Reconstruction of sparse signals and compressively sampled images based on smoothl1-norm approximation ［J］. Journal of Signal Processing Systems， 2017， 88（3）： 333-344.

[26] GEIGER A， LENZ P， URTASUN R. Are we ready for autonomous driving？ the KITTI vision benchmark suite ［C］// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2012： 3354-3361.

[27] WU Y， LIM J， YANG M H. Online object tracking： a benchmark ［C］// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2013：2411-2418.

[28] KINGMA D P， BA J L. Adam： a method for stochastic optimization ［EB/OL］. ［2021-02-03］. https：//arxiv.org/pdf/1412.6980.pdf.

Proposal-based aggregation network for single object tracking in 3D point cloud

ZHUANG Yi， ZHAO Haitao*

（School of Information Science and Engineering，East China University of Science and Technology，Shanghai200237，China）

Compared with 2D RGB-based images， 3D point clouds retain the real and rich geometric information of objects in space to deal with vision challenge with scale variation in the single object tracking problem. However， the precision of 3D object tracking is affected by the loss of information brought by the sparsity of point cloud data and the deformation caused by the object position changing. To solve the above two problems， a proposal-based aggregation network composed of three modules was proposed in an end-to-end learning pattern. In this network， the 3D bounding box was determined by locating object center in the best proposal to realize the single object tracking in 3D point cloud. Firstly， the point cloud data of both templates and search areas was transferred into bird’s-eye view pseudo images. In the first module， the feature information was enriched through spatial and cross-channel attention mechanisms. Then， in the second module， the best proposal was given by the anchor-based deep cross-correlation Siamese region proposal subnetwork. Finally， in the third module， the object features were extracted through region of interest pooling operation by the best proposal at first， and then，the object and template features were aggregated， the sparse modulated deformable convolution layer was used to deal with the problems of point cloud sparsity and deformation， and the final 3D bounding box was determined. Experimental results of the comparison between the proposed method and the state-of-the-art 3D point cloud single object tracking methods on KITTI dataset show that： in comprehensive experiment of car， the proposed method has improved 1.7 percentage points on success rate and 0.2 percentage points on precision in real scenes； in multi-category extensive experiment of car， van， cyclist and pedestrian， the proposed method has improved the average success rate by 0.8 percentage points， and the average precision by 2.8 percentage points， indicating that the proposed method can solve the single object tracking problem in 3D point cloud and make the 3D object tracking results more accurate.

point cloud; object tracking; Siamese network; attention mechanism; deformable convolution

TP399

1001-9081（2022）05-1407-10

10.11772/j.issn.1001-9081.2021030533

2021⁃04⁃08；

2021⁃06⁃17；

2021⁃06⁃17。

庄屹（1996—），男，上海人，硕士研究生，主要研究方向：目标检测、目标跟踪；赵海涛（1974—），男，山东青岛人，教授，博士，主要研究方向：模式识别、机器学习。

ZHUANG Yi， born in 1996，M. S. candidate. His research interests include object detection， object tracking.

ZHAO Haitao， born in 1974，Ph. D.， professor. His research interests include pattern recognition， machine learning.