基于混合注意力机制和相关性估计网络的点云配准算法

2022-12-01李大双马希涛刘志国

天津大学学报(自然科学与工程技术版) 2022年3期

何凯，李大双，马希涛，赵岩，刘志国

何凯，李大双，马希涛，赵岩，刘志国

(天津大学电气自动化与信息工程学院，天津 300072)

点云配准是对同一物体上采集到的点云数据进行精确匹配，然而传统方法计算成本高，配准精度差．基于神经网络的算法也存在噪声干扰，在类别未见的点云数据上应用时效果不佳．为解决这一问题，本文提出了一种基于混合注意力机制和相关性估计网络的点云配准算法．考虑到点云内部特征的复杂性和点云对变换的随机性，提出一种混合注意力机制来提取关键特征信息，利用残差的方式进行连接，可以得到更具鲁棒性的点云特征．通过相关性估计网络对点云特征进行非线性激励，可以提高表达能力，获取点云对之间更紧密的相关性．在人工合成数据集ModelNet40和真实数据集ICL-NUIM上的仿真实验结果表明，本文算法在大尺度仿射变换下，对掺杂噪声、类别未见点云数据的配准精度有显著的提升，证明了其有效性．

点云配准；仿射变换；混合注意力机制；相关性估计网络

点云指的是利用测量仪器，在物体外观表面得到的点数据集合．由于测量视角的限制，通常需要在多个视角下对同一物体进行测量．如何利用采集到的点云数据来准确获得物体的空间变换关系，实现二者的完美匹配，是点云配准的关键．点云配准是三维重建技术的前提和基础，具有重要的研究意义．例如：在医学成像领域，精确配准的点云数据可有效解决成像模糊、缺失等问题；在机器视觉方面，点云配准效果决定了机器人的姿态估计精度，进而影响其行为判别和后续处理；在3D打印方面，点云配准精度直接决定了产品的精度．

Besl等[1]提出了迭代最近点(ICP)算法，通过邻近点查找建立点集之间的相关性，并重新计算对准的交替方式，来实现最小二乘优化；该方法仅可用于小尺度仿射变换估计，配准精度也很不理想．2004年，Tsin等[2]提出了基于点集之间的相关性方法，可用于检测点云中的异常点，提高了配准精度和算法的鲁棒性．2010年，Jian等[3]提出利用高斯混合模型，以概率分布形式来表现不同点云之间的相关性，可实现点云的局部配准．2014年，韩贤权等[4]提出了一种改进的粒子群优化算法，通过最小化法向量叉积代数和作为适应度函数，进行高效的全局搜索，可实现散乱点云的精确配准．2016年，葛宝臻等[5]引入邻域半径约束，提出了一种改进固有形状特征点的提取方法，再利用人工蜂群算法[6]进行优化求解，进而得到空间变换矩阵参数，提高了抗噪性和计算效率．上述传统方法配准精度差，计算成本较高．

近年来，随着点云数据量的不断增加，传统方法已不能满足实际工程的需要，基于深度学习的方法实现点云配准受到了越来越广泛的关注．例如：2017年，Qi等[7]提出了PointNet深度网络结构，采用对称的编码器和解码器，可直接处理无序的点云数据，但对大尺度变换和噪声较敏感，精度有限．2019年，Aoki等[8]通过将PointNet与传统方法相结合，提出PointNetLK模型，可将两个点云数据映射到相同的空间进行处理，同时采用循环神经网络减少了计算复杂性，在中等尺度变换和噪声等条件下提高了匹配精度．Wang等[9]提出了深度最邻近点(DCP)的方法，运用动态图卷积网络来挖掘点云的鲁棒性特征，采用注意力机制在深层特征中计算点的相关性，并利用奇异值分解矩阵来估计点云的仿射变换，可实现在未知类别点云数据的精确配准．2020年，Yew等[10]从空间和局部几何坐标来学习混合特征，使用退火等处理来减少初始对准结果的影响，采用迭代网络来计算待配准点云和目标点云的相关性矩阵，提高了对噪声、陌生类别，以及部分可视点云数据的泛化能力，但运算速度较慢．与传统算法相比，深度学习方法具有特征提取效率高、运算速度快等特点，在点云配准方面具有很大的优势，代表了未来的研究方向．然而，现有深度学习方法仍然容易受到大视角、噪声、类别多样性等因素的影响，匹配准确率有待提高．

为解决上述问题，本文提出了一种基于混合注意力机制和相关性估计网络的点云配准算法．采用混合注意力机制的方式关注更为细致的点云内部关键特征，以及点云对之间的空间联系．此外，本文提出了相关性估计网络，通过对编码后的多通道特征直接进行解码，可保留不同空间的特征信息，有助于提高特征的表达能力和相关性估计的准确性．

1 本文算法

图1 混合注意力机制和相关性估计网络结构

1.1 混合注意力机制

注意力机制能够有选择性地关注信息的部分内容，产生更具分辨能力的特征表示．例如：自注意力机制[11]能够获取点云内部点之间的依赖关系；互注意力机制[12]可以关注不同点云之间的特征相关性；多头注意力机制[13]通过平行计算多个输入特征信息，可以关注信息的不同部分．然而，上述注意力机制均存在一定的缺点：自注意力机制可有效保留点云内部的关联性，但缺失内部空间的位置信息，容易陷入局部最优；同时，缺失点云对之间的空间相对性，也会影响配准精度．相反，互注意力机制可以关注两个点云不同空间位置的相关性，得到点云对的空间关系；但忽视了点云的几何特性，容易检测到部分独立于关键点之外的异常点，产生误匹配．

图2 混合注意力机制模块

上述操作可表示为

输出注意力结果归一化后，利用多层感知器模块，使用前馈传播的方式来学习点云数据的内部特征，可以获得更精细的注意力表征．网络含有1层隐藏层，节点数为1024，采用全连接的方式，激活函数采用ReLU．通过隐藏层的设置，可以将原始点云特征空间分布映射到更高维度的隐空间当中，寻找潜在特征信息．

对于隐藏层的输出进行批归一化处理，以提升网络的泛化性能．隐藏层与输出层之间也采用全连接的方式，从高维空间映射到原始特征空间．网络的输出层和输入层节点数保持一致，并进行残差连接，再利用层归一化，以充分提取特征的关键信息，具体操作为

具体操作为

1.2 相关性估计网络

PointNet[7]是首个直接将点云数据作为输入的深度神经网络，受其启发，本文提出了一种简易的卷积神经网络，用于计算点云对之间的相关性，称为相关性估计网络(CE)．该网络由编码器和解码器两个部分组成，具体如图3所示．编码器共有4层，均采用相同的卷积、批归一化和ReLU激活操作，且参数共享；使用一维卷积，卷积核大小为1×1，以保持特征图大小不变，通过非线性激励来提升网络的表达能力，整合特征信息．编码器前一层的输出均作为后一层的输入，从第1层到第4层的输入通道数依次为80、64、128、256，第4层输出通道数为1024，编码过程为

式中：为激活函数；代表批归一化；代表卷积核大小为1×1的一维卷积；为混合注意力机制的输出．

1×1的卷积核可以在保持输入尺寸不变的情况下，实现全连接的通道数变化．编码器通过卷积操作，不断增加特征的通道数，将输入的特征从低维向高维空间进行非线性映射，不断挖掘多通道特征的隐藏信息，可以适应大尺度的仿射变换．

为了得到点云对之间的相关性矩阵，需要对高维特征进行解码．与编码器对称，解码器结构包含3层，采用相同的处理方式；从第1层到第3层的输入通道数依次为1024、512、256，第3层的输出通道数为128．逐步减少通道数，通过非线性激励获得特征之间的相关性；采用1×1的卷积操作得到通道数为16的相关性矩阵输出．

1.3 配准参数计算

高斯混合模型指的是多个高斯分布函数的线性组合．由于点云数据的不规则性，难以获得其分布规律；高斯混合模型可以通过多个高斯分布函数来拟合点云数据，再根据内部点的相关性来赋予不同分布函数的对应权重，从而有效获取点云数据的内部联系，提高配准精度．

利用均方差损失，可有效提高网络的收敛速度，得到精确的配准结果．

2 实验结果与分析

为了验证本文算法的有效性，将提出的混合注意力机制和相关性估计网络应用在高斯混合模型框架上，在合成点云数据集ModelNet40[15]和真实数据集ICL-NIUM[16]上进行测试，并与经典点云配准方法进行了比较．

2.1 数据集处理

ModelNet40数据集包含有Clean、Noisy和Unseen 3个子数据集．其中：①Clean包含40类不含噪声的点云数据，在点云对之间有明确的相关性，训练/验证集包含9843个点云对，测试集包含2468个点云对；②Noisy中加入具有(0，0.01)分布的高斯噪声，以更加贴近现实情况；③Unseen除了加入高斯噪声以外，在训练时选取20个类别的点云数据，测试时采用另外20个类别的点云数据，以更好地测试算法的通用性．

ICL-NUIM数据集是利用激光扫描得到的真实室内点云数据，采取与ModelNet40数据集相同的处理方式，数据集包含1478个点云对样本，其中1278个用于训练和验证，200个用于测试．

2.2 实验环境和参数设置

计算机配置为：CPU Intel Core i9-9900K；内存64G；GPU RTX 2080Ti；显存11G；Linux18.04系统，python编程环境，使用pytorch框架对点云数据进行配准．

网络训练时batch_size设为16，测试时设为32；采用Adam优化器，学习率设为0.001，迭代次数为100．训练样本和验证样本按照9∶1比例划分；验证损失迭代20次、损失函数值未改善时，学习率减半．仿射变换中平移变换沿坐标轴在[-0.5，0.5]中随机采样，旋转变换沿坐标轴在[0，180°]中随机采样．

2.3 实验结果分析

采用根均方误差(RMSE)对点云配准结果进行量化分析，其值越低表示配准效果越好，计算公式为

为了测试本文点云配准算法的有效性，在合成数据集ModelNet40的3个子数据集上，分别与几种经典算法进行了对比．其中：ICP是局部点云经典配准算法；FGR[17]是全局点云经典配准算法；PointNetLK、PRNet[18]、DCP和DeepGMR[19]是近年来具有代表性的基于深度学习的点云配准方法．点云配准后RMSE结果如表1所示．

从表1中可以看出，传统算法ICP容易陷入局部最优，在3个数据集上表现不佳；基于深度学习方法DCP在Clean和Noisy两个子数据集上表现较好，但在Unseen子数据集上效果较差，鲁棒性不佳；由于DeepGMR和本文算法是在高斯混合模型上进行配准，效果远优于其他算法，为便于对比，在DeepGMR提供的算法上进行仿真，结果保留小数点后6位．可以看出，大视角变换条件下大部分算法误差较大，加入噪声后性能更是不佳．对于未训练过的点云类别，算法普遍泛化能力较差；与之相比，本文算法能更好地关注点云特征的关键信息，对于大视角、含噪以及类别未见点云数据都具有良好的泛化能力，在3个合成数据集上指标均为最高，证明了算法的有效性．

表1 不同算法在合成数据集上配准效果对比

Tab.1 Comparison of the registration effects of different algorithms on a synthesized dataset

注：对比算法指标均采用文献[19]中的结果．

为了测试本文算法在真实点云数据集上的配准效果，分别利用本文算法和经典算法，对ICL-NUIM数据集进行配准，RMSE结果如表2所示．从表2中可以看出，由于真实点云数据的复杂程度比合成点云更高，因此大多数算法的配准效果不及在Model Net40数据集上的测试结果(如表1所示)；但本文算法的配准效果仍然最佳，证明其具有较强的泛化能力.

表2 不同算法在真实数据集上配准效果对比

Tab.2 Comparison of the registration effects of different algorithms on a real dataset

注：对比算法指标均采用文献[19]中的结果．

采用本文算法对不同点云数据集的配准效果如图4所示，其中，图4(a)～(d)分别代表在数据集ModelNet Clean、ModelNet Noisy、ModelNet Unseen和ICL-NUIM上的配准结果；左边一列代表待配准点云和目标点云，右边一列代表配准结果．从图中可以看出，本文算法能够精确地捕捉到关键特征信息，即使两个点云存在较大的空间差异，仍然能够获得比较理想的配准效果．

为了证明本文模块的有效性，分别进行了消融实验．在不同数据集上，分别采用不同网络结构：PointNet(PN)网络，本文相关性估计网络(CE)，本文混合注意力机制与PointNet网络(MA＋PN)，本文混合注意力机制和相关性估计网络(MA＋CE)进行配准．RMSE结果如表3所示．

图4 不同数据集点云配准结果对比

表3 不同网络结构点云配准效果对比

Tab.3 Comparison of registration effects using different network structures

从表3中可以看出，与传统PN网络相比，本文CE网络效果更佳．这是由于PN网络在编码层后做了最大池化操作，并将结果与编码层的输出进行了拼接，此举虽然可以消除冗余信息，但同时容易删去关键性特征；而本文CE网络是直接对编码层的输出特征进行解码，可保留更多的特征信息．此外，还可以看出MA＋PN优于PN网络，表明本文提出的混合注意力机制模块有助于关注点云对的主要特征，忽视无关信息．将本文提出的两个模块进行组合(MA＋CE)，配准效果最佳，证明了本文提出这两个模块的有效性．

为了验证本文网络模型的特征学习能力，与PointNet网络在ModelNet Clean数据集上训练时的RMSE曲线进行对比，结果如图5所示．其中，横坐标代表迭代步数．从图5中可以看出，PointNet网络收敛较慢，且在迭代步数达到8000时有很大的峰值波动；而本文模型指标仅在前2000步时浮动较大，随后便保持平稳，收敛速度明显加快，表明本文网络具有更强的特征学习能力．

2.4 算法复杂度分析

为了对网络的整体性能进行评价，在ModelNet40测试集上，采用不同算法对一个点云对进行处理，其平均运算时间如表4所示．其中，PRNet在采样点为3000时显存溢出，无法获得运算时间．从表中可以看出，本文算法的平均运算时间明显少于已有算法，仅略高于DeepGMR算法．这主要是引入了混合注意力机制模块所致，虽然时间略有增加，但有效提高了配准精度．

图5 不同模型训练结果对比

表4 不同点云配准算法的运算时间对比

Tab.4 Comparison of time comsumptions of different algorithms ms

注：对比算法指标均采用文献[19]中的结果．

3 结语

本文提出了一种混合注意力机制和相关性估计网络模型．利用混合注意力机制来关注点云数据的细节特征，增强了网络对重要信息的学习能力；其次，提出相关性估计网络，可充分保留不同空间的点云特征．在合成数据集与真实数据集上的仿真实验结果表明，本文算法可以获得更高的配准精度，泛化能力更强．本文算法仅适用于对完整的点云数据进行处理，实际工程中可能存在部分点云数据丢失的现象，这会导致内部点相关性的丢失，影响本文算法精度．未来需要进一步优化混合注意力机制模块，调整网络结构和参数配置，使得其在部分可见的点云数据上也能获得良好的配准效果．

［1］ Besl P J，McKay N D. A method for registration of 3-D shapes[J]. IEEE Trans on Pattern，1992，1067：239-256.

［2］ Tsin Y，Kanade T. A correlation-based approach to robust point set registration[C]// 8th European Conference on Computer Vision. Heidelberg，Berlin，2004：558-569.

［3］ Jian B，Vemuri B C. Robust point set registration using gaussian mixture models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2010，33(8)：1633-1645.

［4］韩贤权，朱庆，丁雨淋，等. 散乱点云数据精配准的粒子群优化算法[J]. 武汉大学学报(信息科学版)，2014，39(10)：1214-1220.

Han Xianquan，Zhu Qing，Ding Yulin，et al. Precise registration of scattered cloud data based on the particle swarm optimization[J]. Geomatics and Information Science of Wuhan University，2014，39(10)：1214-1220(in Chinese).

［5］葛宝臻，周天宇，陈雷，等. 基于改进ISS特征点与人工蜂群算法的点云拼接方法[J]. 天津大学学报(自然科学与工程技术版)，2016，49(12)：1296-1302.

Ge Baozhen，Zhou Tianyu，Chen Lei，et al. Point clouds registration algorithm based on improved ISS feature points and artificial bee colony algorithm[J]. Journal of Tianjin University(Science and Technol-ogy)，2016，49(12)：1296-1302(in Chinese).

［6］ Karaboga D，Basturk B. A powerful and efficient algorithm for numerical function optimization：Artificial bee colony(ABC) algorithm[J]. Journal of Global Optimization，2007，39(3)：459-471.

［7］ Qi C R，Su H，Mo K，et al. Pointnet：Deep learning on point sets for 3D classification and segmentation [C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu，USA，2017：652-660.

［8］ Aoki Y，Goforth H，Srivatsan R A，et al. Point-netlk：Robust & efficient point cloud registration using pointnet[C]// IEEE Conference on Computer Vision and Pattern Recognition. Long Beach，USA，2019：7163-7172.

［9］ Wang Y，Solomon J M. Deep closest point：Learning representations for point cloud registration[C]// IEEE Conference on Computer Vision and Pattern Recognition. Long Beach，USA，2019：3523-3532.

［10］ Yew Z J，Lee G H. RPM-Net：Robust point matching using learned features[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle，USA，2020：11824-11833.

［11］ Lin Z，Feng M，Santos C N，et al. A structured self-attentive sentence embedding[EB/OL]. https://arxiv.org/ abs/1703. 03130，2017-03-09.

［12］ Xiong C，Zhong V，Socher R. Dynamic coattention networks for question answering[EB/OL]. https:// arxiv.org/abs/1611.01604，2016-11-05.

［13］ Vaswani A，Shazeer N，Parmar N，et al. Attention is all you need[C]// Advances in Neural Information Processing Systems. Long Beach，USA，2017：5998-6008.

［14］ Hornik K，Stinchcombe M，White H. Multilayer feedforward networks are universal approximators[J]. Neural Networks，1989，2(5)：359-366.

［15］ Wu Z，Song S，Khosla A，et al. 3d shapenets：A deep representation for volumetric shapes[C]// IEEE Conference on Computer Vision and Pattern Recognition. Boston，USA，2015：1912-1920.

［16］ Choi S，Zhou Q Y，Koltun V. Robust reconstruction of indoor scenes[C]// IEEE Conference on Computer Vision and Pattern Recognition. Boston，USA，2015：5556-5565.

［17］ Wang Y，Solomon J M. Prnet：Self-supervised learning for partial-to-partial registration[C]// Advances in Neural Information Processing Systems. Vancouver，Canada，2019：8812-8824.

［18］ Zhou Q Y，Park J，Koltun V. Fast global registration[C]// European Conference on Computer Vision. Amsterdam，The Netherlands，2016：766-782.

［19］ Yuan W，Eckart B，Kim K，et al. DeepGMR：Learning latent Gaussian mixture models for registration[C]// European Conference on Computer Vision. Seattle，USA，2020：733-750.

A Point Cloud Registration Algorithm Using a Mixed Attention Mechanism and Correlation Estimation Network

He Kai，Li Dashuang，Ma Xitao，Zhao Yan，Liu Zhiguo

(School of Electrical and Information Engineering，Tianjin University，Tianjin 300072，China)

Point cloud registration aims to accurately match point cloud data collected from the same object. However，traditional methods encounter high calculation cost and poor registration accuracy difficulties. Algorithms based on neural networks have not been effective in handling noisy and unseen point cloud data. To address this problem，a point cloud registration algorithm using a mixed attention mechanism (MA) and correlation estimation (CE)network is proposed. Considering that point clouds have complex internal features and random transformations，the MA is designed to fuse and extract the key features，which can be made more robust through a residual connection. Subsequently，the point cloud features are better expressed with the nonlinear excitation of the proposed CE network，which can obtain a closer correlation between point cloud pairs. Experimental results for the artificially synthesized dataset ModelNet40 and real dataset ICL-NUIM show a significant improvement in the registration accuracy of noisy and unseen point clouds under a large affine transformation，which demonstrates the effectiveness of the proposed algorithm.

point cloud registration；affine transformation；mixed attention mechanism；correlation estimation network

TP391

0493-2137(2022)03-0299-07

10.11784/tdxbz202012072

2020-12-31；

2021-02-27.

何凯（1972— ），男，博士，副教授．

何凯，hekai@tju.edu.cn.

国家自然科学基金资助项目(62171314).

Supported by the National Natural Science Foundation of China(No. 62171314).

(责任编辑：孙立华)