基于深度学习的单视图古文物三维重建和复原技术研究

2024-04-24张洁陶兴发杨毅林嘉欣胡伟

客联 2024年1期

张洁陶兴发杨毅林嘉欣胡伟

摘要：古文物是人类文明和历史文化的重要载体，对研究古代经济和文明至关重要。与传统的三维重建方式不同，基于深度学习的单视图三维重建技术可以避免复杂的图像处理，具有重要意义。本项目在古文物数据集的基础之上，使用"编码器-解码器-优化器"的整体网络结构解决现有重建算法精度不足的缺陷，且在编码器层面上实现了2D-高阶模块，利用2D-高阶模块解决了目前特征提取算法能力不足的问题。此外，本项目通过引入一个全局上下文模块和空间细节增强模块，使系统更有效地处理模糊图像，并增强特定位置的细节，而且能够有效地消除图像模糊并恢复图像的细节，达到图像复原的效果。

关键词：三维重建;深度学习;单视图;体素;数字复原

中图分类号：TP242.6 文献标识码：A

文物古迹承载着丰富的历史信息和文化遗产，记录了人类社会发展的历程和文明的演进，随着文物出土量的增加，开展文物保护工作迫在眉睫。通过对文物古迹进行重建与复原工作，使其在数字空间中得以再现不仅是一种保存文物数据的方法，也是展示人类文明的有效途径。相较于传统的单视图古文物三维重建和复原方式，基于深度学习的单视图古文物三维重建和复原方式对数据量需求更低，对复杂场景的适应性更强，且进行三维重建和复原时拥有更高的精度和效率。因此，研究基于深度学习的单视图古文物三维重建和复原技术具有深远意义。

一、系统结构

本系统采用前后端分离的架构，实现了用户输入图像后的三维模型生成。前端接收用户的图像输入并传输给后端模型，后端利用基于单视图的深度学习三维重建和复原模型进行操作，生成体素模型，并将其传输回前端页面，使用户能够获取相应的体素三维模型。这种前后端分离系统无需用户进行其他操作，实现了完整的功能。

系统的前端页面使用JavaScript、elementUI等技术实现，后端使用Python结合Django进行前后端的结合，同时使用Unity3D处理模型的纹理等任务。通过编解码格式转换，实现了数据的前后端解析和传输等任务。系统架构如图1所示。

（一）文物数字重建与复原系统

1.基于深度学习的卷积神经网络和数据集。（1）VGGNet神经网络。为了增加网络深度而避免退化问题，本系统采用了VGGNet神经网络。VGG-16和VGG-19是目前最常用的两个版本，其区别在于网络深度。这两种结构都使用了一组2×2池化卷积与多组3×3卷积，利用单分支结构实现深度增加，有效缓解参数量增加的问题。通过堆叠3×3卷积来替代更高维度的卷积层，能够有效减少参数数量和内存占用，提高训练速度[1]。

（2）.全局上下文（GC）块。引入GC块是对卷积层的补充，将全局信息与局部信息融合，以便模型更好地消除图像模糊并恢复几何和纹理特征。对于生成网络，全局感受野意味着覆盖整个空间维度的长距离依赖关系，有助于去除模糊并复原清晰的形状轮廓结构。本项目将GC块插入残差块中，形成全局感知残差块（GA-RB），实现全局信息和局部信息更好地结合，使得特征在空间维度上进行压缩与恢复，类似于编码器-解码器结构[2]。

（3）.基于深度学习的单视图三维重建数据集。ShapeNet数据集是计算机视觉领域中常用的数据集之一。ShapeNet提供了多种表示形式，如点云、体素和网格等。再者，大部分三维模型在ShapeNet数据集中经过了专业研究人员的分类处理，并添加了语义注释，例如几何信息、模型分辨率和类别标签等。

2.整体三维重建算法设计。该项目的三维重建算法包括编码器、解码器和优化器三个模块。编码器采用2D-repVGG网络，解码器使用3D反卷积神经网络处理特征图，生成初始的三维体素模型，随后输入上下文感知融合模块中。该模块能够为每个初始模型生成分数表，根据部分的权重进行加权求和，从而在特定位置进行高质量的重建，最终形成融合的三维体素模型[3]。图2为整体三维重建算法结构图。

3.古文物图像复原算法设计

本项目选择使用在图像生成领域效果较好的生成对抗网络模型，且在此网络模型的基础上进行改进，形成了全局感知生成对抗网络（GA-GAN）。在模糊图像复原领域，生成器的性能很大程度上决定了复原效果，对比传统的生成对抗网络模型，该网络模型在生成器网络上进行了改良和创新，通过引入全局上下文模块，实现了捕捉整幅图像的全局信息的能力，使生成器可以处理具有模糊效果的全局图像。通过引入空间细节增強模块，增强模型对细节的关注，使生成器输出的图像细节更加清晰明了。此外，生成器网络中还引入了全局残差学习的方式，进一步提高了生成图像的质量。随后，我们将生成器输出的复原图像和对应的清晰图像分别输入判别器，判别器对输入图像的类别进行判断。经过对抗训练，GA-GAN模型能够生成较高质量的去模糊图像[4]。

（二）系统数据与功能实现

1.实验数据。为验证模型的高效性，实验将2D-RepVGG与现有的几种基于深度学习的三维重建网络如3D-R2N2、Pix2Vox从训练时间和内存占用两个方面进行对比。数据集选用ShapeNet数据集，IoU作为评估指标，2D-高阶模块通道数选取16×channel，实验结果如表1所示。

由表1可看出，在训练速度方面，2D-RepVGG和Pix2Vox明显高于3D-R2N2，而由于2D-RepVGG增加了2D-高阶模块进行深度特征提取等操作，在内存占用率和训练速度方面的优势略低于Pix2Vox。

为验证模型在重建精度上的体现，实验将2D-RepVGG与深度学习的三维重建网络3D-R2N2、Pix2Vox、OGN网络进行对比。数据集选用ShapeNet数据集，IoU作为评估指标，实验结果如表2所示。

表2 三维重建算法在ShapeNet数据集上的结果对比

由表2可看出，2D-RepVGG网络在ShapeNet数据集上就重建精度而言较Pix2Vox性能更好。

为验证GA-GAN方法的优越性，实验将GA-GAN方法与DeepDeblur、DeblurGAN、DeblurGAN-v2这三种端到端的方法进行对比。数据集选用GOPORO数据集，PSNR和SSIM作为评估指标，实验结果如表3所示。

由表3可知，与上述三种方法相比，GA-GAN方法拥有更优越的性能。

2.系统功能实现

该系统分为前端和后端两个部分。前端实现了图片上传、预览和展示三维体素模型的功能，采用了JavaScript、elementUI等技术。用户上传图片后，系统自动转换为base64编码展示在前端页面，生成模型时通过ajax传输至后端进行三维重建和复原，再由Unity3D添加纹理，最后传输至前端展示。后端利用Python、Django等技术，接收前端上传的图片数据，经过神经网络模型进行三维体素重建和复原，最终通过Django实现前后端交互，完成数据传输流程。

二、技术路线

该项目在已有的古文物数据集的基础上，采用2D-高阶模块的方法，该方法应用于编码器层，通过使用恒等链接和1×1卷积扩充通道的方式实现2D-高阶模块。通过引入此模块，使得系统在特征提取方面具有更强的能力。

此外，该项目使用2D-RepVGG网络架构，解決了由特征提取网络过深引起的过拟合问题。同时，该方法采用重参数化的方式替代了多分支结构，以提升整体网络性能。在编码器中，使用这种网络结构可以提高图像特征提取的效果，从而提高神经网络的准确性。

在以上研究的基础上，该项目采用了以“编码器-解码器”为结构的重建方法。项目使用基于全局感知的生成对抗网络来进行模糊图像复原。研究工作主要集中在GAN模型的结构设计和上下文建模方面，使生成器能够同时学习模糊图像中的局部和全局上下文信息。此外，项目还设计了一个空间细节增强模块，用于学习重要空间位置的信息。针对各个模型的训练，对参数设置和实验环境进行了配置。

根据以上的技术路线，该项目旨在设计一个基于深度学习的单视图古文物三维重建和复原系统。技术路线流程图如图3所示。通过该系统，可以实现对古文物的三维重建和复原，为文物保护和研究提供支持。

三、结论

基于以上研究成果，本项目开发了一个基于深度学习的单视图古文物三维重建和复原系统。该系统具备图片上传、三维重建与复原和数据下载等功能。用户上传图片后，系统能够自动进行图像检测，并生成相应的三维体素模型，以满足用户的输入条件。实验证明，该系统在整体性能和功能执行方面表现出高效可靠的特点，所有功能均得到正确执行。本项目将在文化遗产保护、教育研究、展示交流和修复等领域发挥重要的作用，为传承与弘扬人类文明做出贡献。

参考文献：

[1]叶成庆.基于单视图和深度学习的古文物三维重建技术研究[D].重庆邮电大学，2022.DOI：10.27675/d.cnki.gcydx.2022.000545.

[2]朱文球，雷源毅等.融合全局上下文注意力的遥感图像检测方法[J].兵器装备工程学报，2024，45（02）：278-283.

[3]杨硕.基于深度学习的三维重建算法的研究与实现[D].贵州师范大学，2022（12）.

[4]王鹏.基于深度学习的模糊图像复原算法研究.2021.北京交通大学，MA thesis.doi：10.26944/d.cnki.gbfju.2021.002161.