改进的多尺度点云自编码器网络

2024-01-09朱映韬杜天放

电视技术 2023年11期

朱映韬，陈建，2*，万杰，黄炜，杜天放

（1.福州大学先进制造学院，福建泉州 362200；2.福州大学物理与信息工程学院，福建福州 350108）

0 引言

近年来，三维传感技术的普及和数据采集量的指数级增长导致点云数据量空前激增。点云数据在计算机辅助设计、自动驾驶汽车、虚拟现实和增强现实等众多应用中发挥着关键作用[1]。然而，对这些海量点云数据集进行有效存储和传输，仍是一个艰巨的挑战。对此，急需开发高性能的编码技术。

点云压缩（Point Cloud Compression，PCC）是3D 数据处理领域的一个关键技术，重点关注减少数据大小同时减少失真，以保留数据固有的几何和语义信息，总体目标是在压缩率和重建保真度之间取得平衡，确保重建不影响视觉或分析质量。

随着深度学习的革命性进展，基于学习的点云压缩引起了人们的广泛关注。其中的佼佼者甚至优于动态图像专家组（Motion Picture Expert Group，MPEG）提出的基于几何的PCC（Geometry-based Point Cloud Compression，G-PCC）和基于视频的PCC（Video-based Point Cloud Compression，V-PCC）。

1 相关工作

QUACH M[2]等人率先提出了一种使用卷积神经网络进行几何压缩和均匀量化的静态点云数据压缩的新方法，通过在编码端使用块分区来缓解对体素做卷积所产生的时间和空间复杂性，经过量化、熵编码输出重建点云。GUARDA A F R 等人[3]也提出了相似的方法，将单帧点云体素化并分割成同样大小的3D 块，二进制码流在解码端通过固定阈值二分类进行点云重构。点云的稀疏性可能导致预测占用概率的分布与实际占用概率的不匹配。QUACH M 等人随后提出GeoCNN[4]在解码端使用自适应阈值来纠正这个问题。

为了提升局部特征学习效果，WANG J 等人提出的PCGC[5]设计了一个多尺度端到端学习框架，通过通道熵建模来优化变分自动编码器网络。该团队提出进一步优化稀疏卷积[6]，仅对稀疏分布的最大概率占用体素执行卷积，并利用同级之间的逐级相关性以多阶段方式估计占用概率。LIU G 等人将transformer 用于体素压缩[7]，将k个最近邻的信息聚合并紧凑地嵌入为一个点的潜在特征。上面的方法忽略了点云表面的几何相似性，ZHU W 等人提出RegionPCGC[8]利用区域间的冗余进行自适应的编码。然而，上述方法忽略了对不同分辨率的点云细节进行差异化处理。

2 所提方法

本文设计了一种逐分辨率优化的自编码框架，以适应高精度的点云编码，其中多尺度征提取块改善了对细节的重建。

2.1 多尺度的稀疏卷积自编码器网络

为了提升细节特征提取效果，本文提出了一种改进的多尺度的端到端稀疏卷积方法，网络结构如图1（a）所示。首先将原始点云X1送入预处理模块对原点云进行体素化和分割，其次进行分析变换，对潜在表示进行量化。卷积层（l，k，s）（l为通道数，k为卷积核尺寸，s为步长）对处理后的点云进行稀疏卷积，经过卷积层提取特征后将结果输入ReLU 函数。↓（↑）代表该层为下（上）采样层，稀疏向量经过该层时大小将发生变化。自适应的多尺度特征提取模块（Multi-scale Feature Extraction Module，MFEM）用于多尺度通道特征提取与融合，结构如图1（b）所示，具体细节将在2.2 节详细介绍。C 代表对两个大小相同的稀疏向量进行级联。降采样后的稀疏向量会丢失一部分细节信息，因此通过稀疏卷积进一步提取局部的特征和降采样后的向量进行级联，使其同时获得细节信息和全局信息，输入MFEM 进行特征的融合。每经过一次降采样，X i的尺度下降一级，i为点云X的尺度，其大小下降约为原先的1/4。编解码网络中的同级别点云用于计算当前级别的失真函数Di，细节将在2.3 节详细介绍。

图1 多尺度的稀疏卷积自编码器网络详细结构

经过3 次降采样后，编码端网络输出的稀疏张量Y可分为三维空间坐标CY和特征向量矩阵FY。其中，Y的三维空间矩阵CY由GPCC 编码器编码，Y的特征矩阵FY量化为FYQ后由算术编码器编码。超先验框架进一步改进了熵模型，将FYQ输入熵编码网络，利用上下文估计来预测高斯分布参数(μ,σ)。和作为其三维空间坐标和特征向量矩阵的分量，表示解码端网络得到的稀疏张量。在解码端的上采样层进行转置卷积，对稀疏向量进行升维。二分类层进行二值分类操作，将预测概率高于阈值的体素识别为被占用的体素，将其他的判定为空体素。最后进行多尺度的点云重建迭代，逐级重构点云。

2.2 自适应的多尺度通道可分离特征提取模块

针对PCGC[7]网络解码端，使用连续多个传统的残差模块从粗到细地提取多尺度特征，但是特征提取的模式单一，在局部特征层次上特征聚合能力有限，存在开销大、不够灵活、不能根据通道和分辨率来进行调整导致计算量增大的情况。在特征提取工作中发现，不同分辨率下特征进行多尺度特征提取的需求不同，因此使用MFEM 替换该模块。

如图1（b）所示，该模块先用1×1×1 卷积核提取全局特征，再把特征按通道数量C切分为C组通道数为1 的向量，对每组分别用不同的卷积核进行卷积处理，以降低计算的复杂度，最后进行残差跳跃连接。本文在靠近初始点云的采样层级i分配更多层的通道可分离卷积。这种设计加大对低通道数稀疏特征的处理强度，以分层的残差进行跳跃连接，加强不同尺度的特征表达与融合。以多尺度方式进行全局和局部特征提取，通过拆分和级联策略可以更有效地保留信息以增强处理功能。

2.3 率失真损失函数

本文方法采用压缩的经典算法率失真通过调整失真权重超参数λ优化来权衡不同尺度间的失真(Distortion，Di)和比特率(Bit-rate,R)来进行损失函数训练，从而优化整体的率失真性能，即

式中：最大层级I=max{i}。

由于解码端重构点云的过程可以近似为二值分类任务，二值分类任务表示重构点云的预测体素是1 还是0，因此可以引入加权二值交叉熵（Weighted Binary Cross-Entropy，WBCE）来度量输入点云和重构点云之间的失真程度，即Di等于当前层级的WBCE。

式中：N为当前层级点云的体素数量，为体素被占用的概率，m为已被占用的体素数量，n为未被占用的体素数量。对于体素化的点云数据，超过95%的体素占用皆为空。因此，被占用体素和未被占用体素之间的巨大数量不平衡阻碍了神经网络训练。WBCE 采用参数α来调整权重，以平衡正、负样本的不均匀分布。

3 实验结果和分析

为了验证所提出的多尺度点云压缩网络的有效性，本文从ShapeNet 随机选择10 000 个点云模型进行训练。批处理大小设置为4，初始学习率设置成0.001，最低学习率设置为0.000 001，迭代次数设置为200，损失函数中的参数α设置为2，使用Adam 优化器。测试环境统一为Intel Xeon Gold 6230 CPU 和NVIDIA GeForce RTX 3090 GPU。

挑选主流数据集8iVFB（8i Voxelized Full Bodies）和OWLII（Dynamic Human Mesh）进行测试，以峰值信噪比（Bjontegaard Delta Peak Signal to Noise Ratio，BD-PSNR）和比特率（Bjontegaard Delta Bit Rate，BD-BR）作为客观评价指标。测试结果如表1 所示，本文提出的方法取得了显著的效果，与经典的G-PCC 和V-PCC 算法相比，所提算法BD-BR 增益为90.37%和20.74%，BD-PSNR 增益分别为9.67 dB和0.82 dB。与其他点云压缩算法GeoCNNv2、Learned-PCGC、RegionPCGC 进行比较，分别降低了58.29%、29.76%和28.66%以上的BD-BR，提高了2.67 dB、1.40 dB 和1.18 dB 的BD-PSNR。

表1 本文算法与其他算法的增益比较

为了直观地展示本文所提算法的失真率性能，以“basketball_player”数据为例，绘制每种算法的测试结果，同时绘制了D1 和D2 相应的率失真曲线，如图2 所示。在参考算法中，G-PCC（octree）和G-PCC（trisoup）率失真性能表现最差，RegionPCGC 和VPCC 的性能较好。相比之下，本文提出的方法比以上方法具有更高的重建精度。

图2 basketball_player 的率失真曲线比较

4 结语

本文提出了一种多尺度自适应优化的编码网络，有意在解码网络中减少对称特征融合分支，以控制复杂度并防止过拟合，还设计了一种多尺度特征提取块对不同分辨率级联不同的通道分离卷积块来替换固定架构，以实现多尺度融合，增强了样本的适应性和信息利用率，并通过使用残差结构来减少全局特征损失。最后通过训练结合了多层级的加权二进制交叉熵率失真损失函数，解决了正负样本不平衡问题。