APP下载

生成对抗网络的三维生成及其应用研究综述

2021-12-08张卫星张文宁

小型微型计算机系统 2021年12期
关键词:三维重建姿态网格

张卫星,吴 爽,林 楠,张文宁,杨 聪

1(郑州大学 软件学院,郑州 450002 ) 2(中原工学院 软件学院,郑州 450000 ) E-mail:wangyuanyc@zzu.edu.cn

1 引 言

相较于二维图像,三维图像更能直观地反映真实的世界,如何借助计算机还原目标的三维信息是目前热点研究方向之一.对人来说,通过眼睛的观察和先验知识的储备可以使用工具或软件对二维图像进行还原.对计算机来说该如何去做呢?计算机视觉研究的一个关键目标即从观测到的二维图像还原其三维效果[1].在文物修复[2]、三维面部识别[3]、生成三维模型[4]等领域中如何理解并还原其三维效果至关重要.因为在目标分类的任务中理解并还原三维图像或模型可为任务完成提供更多有效信息,包括形状、纹理等.因此,探索有效还原三维信息的方法是计算机图形学和计算机视觉领域的一个重要课题.

三维生成方法大致可分为经典三维重建方法、基于RGB-D相机的三维重建方法以及基于深度学习的三维生成方法.经典三维重建模式相关综述性文章包括:数学相关三维重建[5,6]、隐式表面绘制方法综述[7]、三维点云表面重建综述[8]、基于图像的三维重建方法综述[9].经典三维重建方法包含隐式三维重建方法[10]、基于SIFT[11]的三维重建方法[12]、基于立体视觉的三维重建方法[13-15]等.但此类方法在三维重建过程中均易受环境干扰,从而导致精度难以保证;且存在对测距设备、图像等依赖问题,重建结果的稳定性有所欠缺.

RGB-D相机的出现为三维重建方法的出现带来了机遇.2011年,Newcombe等人[16]首次实现仅使用手持式Kinect深度传感器和GPU硬件,即可准确实时重建静态室内场景.研究人员进一步优化了KinectFusion存在的问题,如GPU内存限制问题[17]、环路闭合问题[18]等,并将RGB颜色信息集成到KinectFusion重建过程中[19].其后,研究人员实现了可伸缩体积的重建[20],解决了由手持摄像机产生距离数据存在的高频误差和低频失真问题[21],将获取的颜色数据精确映射到重建几何体[22],提出新的联合场景重建与测距相机校准方法[23].从RGB-D视频中全自动重建室内场景[24],构建了可实时重建非刚性变形动态场景的系统[25],无需进行姿态图优化就可产生全局一致的重构[26],融合点云数据进行三维重建[27],为大型室内环境提供了全面的在线扫描并实时构建出高精细度3D模型[28].但基于RGB-D相机的三维重建技术,因RGB-D相机的帧率(FPS)普遍较高,数据量庞大,导致重建算法的实时性较差.而且,RGB-D相机易受环境干扰,导致深度数据存在误差从而降低重建精度.这些重建方法的效果与设备配置密切相关,普通设备存在对光照敏感、易受反光影响、处理速度较慢或精度差等问题,而高质量重建效果的设备成本高且受技术影响存,在高分辨率场景下表现不佳的问题.

随着深度学习的研究和发展、卷积神经网络[29,30]的提出与AlexNet在特征提取上展现出的巨大优势,使许多研究人员将目光聚集在基于深度学习网络的三维重建研究方向,并结合实际问题进行了相关研究.Anny[31]等人综述了基于深度卷积神经网络的单幅或多幅图像三维重建方法.目前部分基于神经网络研究解决了经典三维重建算法面临的问题,并证实了利用深度学习的经典三维重建方法表现更优越[32].部分研究将卷积神经网络、点云[33]、深度图[34]等相结合进行不同应用方向的三维重建.其他研究包含三维位姿[35-37]以及基于部分的循环生成网络[38]等.2014年,随着Goodfellow 等人[39]提出了一种生成式深度学习模型--生成对抗网络(GAN),其应用使得生成样本的速度与质量上有明显提升,且具有可与任意网络结合训练的优势,于是,研究人员将目光聚集在通过生成对抗网络生成三维模型或进行三维重建.

本文综述了基于生成式对抗网络(GAN)的三维生成方法.首先,介绍生成对抗网络在三维生成研究方向的发展历程,并对其分类进行了归纳.在此基础上,结合应用场景介绍模型的创新与改进,并对该研究方向的发展趋势进行展望.

2 基于GAN的三维生成发展

基于GAN的三维生成方法是由Goodfellow 等人提出的生成式深度学习模型--生成对抗网络(GAN)为基础扩展到三维的生成.在理论上对基础的三维生成模型进行不同方式的改进,如结合不同的三维重建方式、与不同深度生成对抗网络结合、与其他深度学习方法结合、新的隐式聚合技术、以及增加不同的先验信息等方法以期望生成更真实的三维目标.在应用上根据不同应用方向进行适配与改进,通过增加不同的纹理或深度信息进一步优化三维生成目标.

Wu等人于2016年提出3D-GAN,将GAN由二维生成扩展到三维生成,该模型为首次基于原始GAN生成三维物体形状图像的模型.3D-GAN重点关注从单一类别中生成高质量的物体形状图像,但在多个不同姿态、不同对象类别的情况下进行训练是很困难的[40],其生成的对象质量还有提升空间.

之后,研究人员从不同角度对3D-GAN进行了改进.2017年,Edward等人将WGAN[41]与3D-GAN结合为3D-IWGAN,主要关注基于多个不同类别的数据分布生成三维物体形状图像的过程.Liu等人[42]首次提出根据3D-GAN进行交互式建模,利用投影操作符将任意3D输入映射到生成器中的潜在向量,从而完成新目标的三维建模.MIT计算机科学与AI实验室团队,以3D-GAN为基础研究出生成三维图像的方法VON(可视化物体网络)[43].VON不仅可以生成三维图像,也可在已有的三个维度(视角、形状、纹理)基础上进行个性化改变.Li等人针对3D-GAN生成的随机性和不稳定性进行研究,提出3D conditional GAN模型[44].该模型在生成器与判别器上通过增加分类信息来学习不同类别下的复杂分布.Kuang等人在3D-GAN基础上提出3D-Masked-CGAN[45],通过增加额外通道Mask进行采样有效地生成了复杂三维岩石模型.

一些研究人员将关注点放在将不同网络模型与GAN 结合在一起从而提高生成的三维物体效果.其中重要成果包括:3D-RecGAN[46],将VAE[47]与条件生成对抗网络(CGAN)[48]相结合,以单一深度图像为基础对特定目标进行三维重建;3D-ED-GAN[49],将VAE、GAN和长期循环神经网络(LRCN)相结合,还原在低分辨率情况下有损的三维模型;ORGAN,将VAE与WGAN相结合,提出在信息缺失的情况下进行目标重建模型;国立台湾科技大学团队将VAE、GAN和分类器模块相结合,有效还原被破坏或不完整的三维目标[50].

随着研究目标的变化和深入,研究团队开始着手将GAN与传统三维重建的点云技术相结合.2018年,Panos团队[51]将以VAE为基础的GAN与点云技术相结合对三维点云生成进行了评估.2019年起,研究人员开始关注GAN与三维点云的相关研究.Dong等人将图卷积与GAN中的生成器结合,形成为一个树形结构的Tree-GAN[52],以无监督的方式生成三维点云.Soshi等人提出IsMo-GAN[53],在一个轻量级合成数据集上从单一图像进行三维点云重建.

研究人员同时将目光聚集到解决三维生成技术的改进工作中.清华大学Han团队提出三维无监督学习方法VIP-GAN[54],该团队介绍了一种基于神经网络的三维全局特征学习新隐式聚合技术,该技术可有效地从每个视图预测中获得知识并进行聚合.2019年,中东技术大学团队[55]首次提出将三维模型生成与条件生成对抗网络相结合,将CGAN应用于不同旋转方向的三维模型生成,从而实现三维模型生成过程.Pedro等人[56]针对三维重建中的自然区域适应与根据单一图像进行三维重建结果的多样性问题进行研究,通过增加自然图像与重建图像的域混淆与先验的三维形状,生成适应性更好的真实三维目标.东京大学团队[57]提出在单视图三维重建过程中学习视图先验知识,有效地提高重建精度以及三维重建的真实性与有效性.

在应用方面,主要关注三维人体、三维场景等方面的应用.三维人体包含三维人体姿态与三维人脸等,其中三维人体姿态由刚开始从单一RGB图像重建人体三维网格的人体网格恢复HMR[58]方法,到以多源输入的方式进行三维人体姿态预测[59];基于GAN的三维人脸方法首次仅用于三维人脸表示、生成和转换任务的3DFaceGAN在精确生成三维目标的同时保留了高频细节,而分离训练3D与2D特征方式的HoloGAN[60]不仅可应用于三维人脸,且可应用于任意单一自然图像生成多视角二维图像,但该模型生成的视角依赖于数据集.

三维室内场景应用方向主要包含三维室内家居生成与三维场景生成,其中三维室内家居生成包含以3D-GAN为基础的三维生成方法[4,42,44,46,49,51,55]与基于其他技术的生成方法[52,54,55].三维室内场景生成包含:3D-Scene-GAN[61]生成框架融合渲染技术可生成高质量兼容网格与纹理的复杂三维场景;HPGM[62]将生成任务分为建筑布局生成和纹理合成,根据给定的语言表达生成三维住宅模型;SynSin[63]无监督地将单个RGB图像经由预测三维点云渲染后传递到GAN中,生成二维场景图像;Pix2Shape[64]无监督地从单一图像中获取三维信息,根据图像点的深度渲染生成三维场景;Total3DUnderstanding[65]融合目标识别、网格生成等方式,由单RGB图像还原三维复杂场景.

3 基于GAN的三维生成方法

GAN在不同的三维生成任务中采用的三维表示不同,三维表示方式主要包括体素、网格、点云、深度图4种,基于不同三维表示方式对方法进行分类,如表1所示.

表1 基于三维表示的三维生成方法分类Table 1 Classification of 3D generation methods based on 3D representation

3.1 体素

体素是体积元素的简称,是三维空间上的最小单位.以体素为三维表示方式的生成对抗网络方法较多,最早的是2016年麻省理工团队提出的3D-GAN,其后许多研究人员在此基础上针对生成目标的质量、生成目标的多样性及生成目标的纹理效果等不同问题上提出改进[43,46].一些研究团队将GAN与其他深度学习网络进行结合或与其他技术融合生成三维目标[42,45,46,49,50,57].研究对象多以物体形状为主[41,42,44-47,49,50,55,56,57],部分关注生成自然图像的三维表示[43,60].

3.2 网格

网格表示方式通常由简单凸多边形构成,简化渲染过程,生成的三维目标表面光滑,但其不具有颜色、深度、纹理等细节描述.使用该三维表示方式的研究内容包含生成光滑的三维室内家居[46,65]或复杂三维场景[65]、由单一的RGB图像重建三维人体姿态[58]、保留了高频细节的同时精确生成三维人脸[3]等.

3.3 点云

点云表示方式通常是指由目标外观表面的点数据集合构成图像.研究内容包含将生成对抗网络与点云结合[52]、以真实图像生成三维点云[53]、以无监督的方式学习三维点云任务[45]、结合图卷积无监督地生成三维点云目标[52]、通过预测三维点云渲染无监督地生成同一场景的不同视图[64]等.与网格表示方式类似,点云表示方式也不能体现纹理细节.

3.4 深度图

深度图主要记录了从焦点到遮挡物的距离,增加深度信息可有效还原被遮挡部分形态.目前大多作为研究过程的一部分,其主要研究为由单一图像点的深度渲染三维室内场景[62].深度图虽可有效处理复杂场景下的被遮挡问题,但由于其不包含纹理细节如需进一步还原纹理细节需结合其他方法进行探索.

3.5 其他

其他方法为未使用三维相关表示的方法,如:基于视图间预测来进行无监督的3D全局特征学习方法[54];房屋平面生成模型[62],可针对人类给定的语言描述生成房屋三维模型;以多源输入的方式进行三维人体姿态预测[59];融合渲染技术生成高质量兼容网格与纹理的复杂三维场景生成框架[65].

4 基于GAN的三维室内场景生成

基于GAN的三维室内场景生成主要包含三维室内家居生成与三维场景生成.本节将描述三维室内家居生成与三维场景生成相关网络模型并对其进行对比分析.

4.1 三维室内家居生成

三维家居的生成主要以ShapeNet[66]数据集为基础.主要可分为两类:以3DGAN为基础进行的改进、基于其他不同技术的方法进行三维生成,部分模型实验效果如图1所示,图1(a)为3DGAN效果图,其生成结果为稀疏体素,表面存在不完整且具有较多无效点;图1(b)为3D-IWGAN效果图,仍以体素表示且较3DGAN效果更为清晰,但仍存在无效信息边界不平整问题;图1(c)3D-RecGAN效果图,以网格为三维表示方式,生成结果更加平滑但存在边界模糊问题;图1(d)为l-GANs效果图,三维表示方式为点云,生成结果较为完整,但由于点云与体素三维表示方式同样存在表面不光滑情况,其表面较粗糙.

图1 基于3DGAN的生成模型生成效果图(1)https://github.com/xchhuang/simple-pytorch-3dganFig.1 Rendering of models based 3D-GAN

3D-GAN是第1个用于生成三维模型的生成对抗网络,采用无监督的训练方式,生成器与判别器结构呈镜像,输入为随机数据分布,使用单一类别的三维模型进行训练,从而生成三维目标.以3D-GAN为基础,研究人员开展了一系列研究工作:3D-IWGAN使用WGAN的归一化处理,令该网络结构具有处理多分类的数据分布;3D-RecGAN将自动编码器的生成能力与条件生成对抗网络(CGAN)相结合,将一个仅有目标2.5D的深度数据恢复为完整的目标,其网络模型训练采用无监督的训练方式,由于选用的输入为2.5D深度网格点数据,生成最终目标表面是光滑的,但整个训练过程耗费时间较长;l-GANs结合点云技术生成三维点云表示的目标;LFG+HFG结合网格,使用有符号距离函数作为数据表达方式,生成的三维目标表面更精细光滑,其网络模型的生成器由LFG和HFG组成,LFG与3D-GAN的生成器结构较为相似,HFG为自动编码器结构,以LFG的输出作为HFG的输入,并将其映射到数据集对应的高频图像;3D conditional GAN增加条件与分类信息,有效地生成与给定类标签对应的三维模型;Class-Conditional GAN增加编码器与分类器,将分类器结果作为判别器的其中一个输入,以半监督的方式进行训练,进而从破损或不完整的三维输入中恢复完整的三维对象.

模型对比分析如表2所示,主要以模型的创新点、优点及三维表示方式进行分析,并给出平均精度、Intersection over Union(IoU)和The Jensen-Shannon Divergence(JSD)作为准确度的判断标准.

表2 基于3DGAN的生成模型对比Table 2 Comparison of generation models based on 3DGAN

基于其他不同技术的方法包含:与其他深度学习网络的结合、新的理论研究.VIP-GAN与Tree-GAN分别结合循环神经网络与图卷积网络进行网络构建.VIP-GAN将循环神经网络嵌入生成器,以自动编码器结构构成生成器,使用三维全局特征学习的新隐式聚合技术跨视图提取特征,其生成目标质量优于其他无监督方法;Tree-GAN将树形结构的图卷积网络作为生成器,该网络模型在无先验知识的情况下可为不同的语义部分生成点云.新的理论研究Paired 3D Model Generation with CGAN以可扩展方式进行三维模型的生成.Paired 3D Model Generation with CGAN增加生成不同角度的成对目标的过程,该过程可以集成到任何条件GAN的训练步骤中.

模型对比分析如表3所示,主要以模型的创新点、优点及三维表示方式进行分析,并给出平均精度和The Jensen-Shannon Divergence(JSD)作为准确度的判断标准.

表3 基于不同技术的生成模型分析Table 3 Analysis of generation models based on different techniques

4.2 三维场景生成

三维生成对抗网络在生成普通模型研究方向上已有较多的研究基础,研究者们开始将研究目标放在更复杂的三维场景上,目前相关模型包括3D-Scene-GAN、HPGM、Pix2Shape、SynSin、Total3DUnderstanding等.图2为HPGM效果图,生成结果为整个房屋布局的上视角图.图3为SynSin效果图,其以多个渐进式角度展现不可见视角效果.

图2 HPGM效果图(2)https://github.com/chenqi008/HPGMFig.2 Rendering of HPGM

图3 SynSin效果图(3)https://github.com/facebookresearch/synsinFig.3 Rendering of SynSin

3D-Scene-GAN以GAN为基础,输入为建筑场景的多视角图像,判别器选用101层的ResNet[67],以BatchNorm[68]保持输入与输出一一对应的关系,以Adam[69]算法代替SGD[70]算法加速收敛过程,从而最终生成复杂建筑的完整图像.复杂的建筑场景可以通过生成对抗网络生成,令房屋的三维设计成为可能.HPGM实现了由文本语言到房屋三维结构的生成,该模型结合图神经网络与生成对抗网络,图神经网络完成由文本到房屋建筑布局的过程,生成对抗网络完成房屋的渲染与纹理细节.HPGM用到的文本内容包含房屋的节点表示与大小、房间地板与墙壁的颜色材质等相关信息;由文本到房屋建筑布局由GC-LPN完成,利用图卷积神经网络进行特征表示与预测;预测到的房屋建筑布局与文本经由LCT-GAN生成具有材质颜色的纹理图像.HPGM生成结果精度较高,具有较好的泛化能力,但HPGM仅完成了房屋布局的效果,没有考虑房屋内部家具摆放等复杂场景.Pix2Shape以生成室内场景为目标,采用无监督的方式进行训练,输入为单一图像,材质统一,在训练过程中增加视角、深度以及阴影信息,训练完成后对2.5D视图进行渲染生成多视角2D图像,但其生成场景真实度较差.SynSin以单一视图还原其他多视角的图像和语义,还原出不可见的高质量房屋内复杂场景.该模型结合传统三维重建的点云技术,使用三维点云进行渲染,利用投影的特征细化图像细节,从而产生具有真实感的高质量图像.SynSin在目前已有的真实世界数据集上表现较佳.Total3DUnderstanding将场景理解和网格重建嵌入到联合训练中,由单RGB图像自动生成房间布局、相机姿态、物体包围框和网格,充分恢复房间和物体的几何形状,但其存在训练时间较长,生成效果与真实图像差距较大等问题.

由于场景数据集较少,目前研究人员均使用未公开的数据集进行讨论,且由于数据原因均存在训练时间长、对实验环境要求高等特点.模型对比分析如表4所示,主要以模型的创新点、优缺点及三维表示方式进行分析,并给出Intersection over Union(IoU)作为准确度的判断标准.

表4 三维室内场景生成模型对比Table 4 Comparison of 3D indoor scene generation models

5 基于GAN的三维人体生成

基于GAN的三维人体生成方向目前聚焦于三维人体姿态和三维人脸的生成.本节将对这两个不同应用场景的模型进行描述和对比分析.

5.1 三维人体姿态生成

卷积神经网络在三维人体姿态研究方向已取得显著进展,但野外图像不易获得的三维标注,生成对抗网络采用端到端的对抗学习方式,可在未进行三维标注的情况下进行三维表示的学习.目前主要研究成果包括:3D Pose Estimator、HMR等.图4为HMR效果图,为不同姿态的人体网格表示,具有简单的纹理细节.

图4 HMR效果图(4)https://github.com/MandyMo/pytorch_HMRFig.4 Rendering of HMR

3D Pose Estimator的生成器主要使用其提出的三维姿态估计模型,该模型主要包含两部分:二维姿态估计与深度回归;其的判别器为研究者们设计的一种多源判别器,该判别器对预测的三维人体姿态与真实姿态进行区分,加强生成姿态的有效性,可应用与生成野外图像的三维姿态;其对人体具体姿态预测通过研究者们设计的几何描述子,该算子主要用于计算身体关节之间两两相对的位置与距离,该模型生成的人体姿态形式为三维关节位置形态,不具有人体具体网格信息.HMR产生的为具有更多细节的三维人体网格表示.该模型主要以最小化节点的重投影损失为目标,完成在无需对图像进行三维标注的情况下的训练过程.HMR模型无需二维与三维一一对应的数据集,不依赖二维关键节点的信息,可直接从图像中预测三维姿态与形状等信息,且对遮挡的图像同样有效,这个过程主要得益于迭代的三维回归模块.但HMR模型没有处理人体的肤色、衣服等相关纹理信息.

3D Pose Estimator与HMR的生成结果不同,3D Pose Estimator仅生成人体关节姿态,HMR生成效果为具有纹理的完整人体姿态,模型对比分析如表5所示,主要以模型的创新点、优缺点及三维表示方式进行分析,并给出Area Under the Curve(AUC)作为准确度的判断标准.

表5 三维人体姿态生成模型对比Table 5 Comparison of 3D human pose generation models

5.2 三维人脸生成

三维人脸生成是目前较新的研究方向,主要研究成果包括:HoloGAN、3DFaceGAN.如图5所示,图5(a)为3DFaceGAN效果图,其生成结果为具有表情细节的三维人脸;图1(b)为HoloGAN效果图,其生成结果为多角度人脸图像,其角度依赖于数据集.

图5 三维人脸生成模型效果图Fig.5 Rendering of 3D face generation models

HoloGAN以三维人脸为其中一个应用场景,该网络模型以无监督的方式进行训练,将二维特征与三维特征分离学习,通过三维特征学习目标外形、二维特征学习目标纹理,并经由映射单元得出不同视角对应深度信息,从而得到多视角的三维目标.HoloGAN不依赖标签和三维模型,仅依靠自然图像为输入即可,但生成目标的多视角依赖数据集中图像的视角.HoloGAN由于生成目标仅与数据集有关,故应用广泛.3DFaceGAN主要生成目标为具有高频细节的三维人脸.研究者对原始扫描进行预处理,应用非刚性的网格模板存储顶点的空间信息,并采用二维最接近点插值的方法填充缺失值.3DFaceGAN框架基于自动编码器架构,训练过程中以二维面部空间信息与三维人脸作为输入,对判别器进行预训练,将学到的权重作为生成器和判别器的初始化数据,随后开始对抗性训练.该网络模型能够生成任意目标的表情,同时保留3D面部的高频细节,3DFaceGAN生成的三维人脸不具有肤色等纹理信息.

以上两个模型由于使用数据集不同,HoloGAN使用二维图像数据集,3DFaceGAN使用三维数据,HoloGAN训练时间较短,但其生成结果仅为多角度二维图像.模型的其他对比分析如表6所示.主要以模型的创新点、优缺点及三维表示方式进行分析,并给出Area Under the Curve(AUC)与Kernel Inception Distance(KID)作为准确度的判断标准.

表6 三维人脸生成模型对比Table 6 Comparison of 3D face generation models

5.3 其他三维人体生成

其他三维人体生成应用包括头发、手部姿态与人体运动等,包含从单一视图生成逼真的三维头发结构模型Hair-GAN[71];以RGB图像为输入生成基于深度图的三维手部位姿的DGGAN[72],解决了三维手部位姿估计中缺少成对的RGB图像和深度图像的大规模数据集问题;首次使用深度神经网络进行概率运动预测的人体运动预测模型HP-GAN[73],存在不能判断训练是否收敛的问题.

6 其他应用

其他三维生成应用包括汽车多视角图像的生成、不规则三维形状的生成、工艺品的生成、动物面部生成等.如图6所示,图6(a)为3D-ED-GAN效果图,其生成结果三维立方体;图6(b)为VON效果图,其生成结果为具有简单纹理的多角度汽车图像.

图6 其他应用模型效果图Fig.6 Rendering of other applications generate model

虽然应用方向不同,但其方法大多仍以3D-GAN为基础,VPL、3D-Masked-CGAN、3D-ED-GAN、ORGAN.VPL模型增加了不同视角先验信息;VPL在3D-GAN的基础上增加了领域自适应和形状先验信息,能够学习具有外观差异较大的目标;3D-Masked-CGAN增加了边界盒生成不规则的三维网格几何(岩石),但其存在训练稳定性较差的文艺;3D-ED-GAN结合长期循环神经网络,使用自动编码器架构的生成对抗网络在低分辨率的情况下对目标进行恢复,使用长期循环神经网络降低资源消耗,同时将目标转换为更完整、分辨率更高的三维物体,但该模型生成结果准确度不够高,且表面不够光滑;ORGAN中使用了标签,其生成器为自动编码器结构,输入为一个不完整的目标物体,判别器输入为完整目标与生成器生成结果,该模型通过增加补全损失和WGAN损失,使得生成结果在缺失一半以上信息时依旧表现良好,且生成的准确度较高.

另外VON以生成多视角汽车图像为目标,将图像形成过程分解为3个条件独立的因素(形状、视点和纹理),其输入为二维图像,在某一视角采样后生成包含轮廓与深度的2.5D草图,在2.5D图像基础上生成逼真的包含纹理的图像,其网络模型形状、视点和纹理可独立改变,但其训练过程较复杂;IsMo-GAN生成目标为非刚性三维曲面,是首个基于深度神经网络的变形框架,该模型在输入图像存在较大的遮挡情况时生成结果不佳.

模型对比如表7所示,主要以模型的创新点、优缺点、应用方向及三维表示方式进行分析,并给出Intersection over Union(IoU)作为准确度的判断标准.

表7 其他应用生成模型分析Table 7 Analysis of other applications generate models

7 总结与展望

7.1 总 结

GAN为三维数据生成提供了新的方法,本文对基于深度学习的生成对抗网络在三维生成的研究方向进行了分析总结,通过实验验证了不同模型算法的优缺点,并根据不同的应用场景与三维表示方式进行了分类描述.目前三维生成网络聚焦的应用方向包括三维室内场景(三维室内家居,三维室内场景)、三维人体(人体姿态、人脸等)等.三维表示方式指网格、点云、体素与深度图等表示方式.GAN 具有一定的包容性,可与其他深度学习网络进行良好结合,解决三维生成精度不够等问题.

7.2 展 望

由于数据集与 GAN 在三维生成方向存在的一些理论问题的限制,GAN 在未来的理论发展与应用方向上拥有更大的空间.未来在以下方面将取得进一步发展:

7.2.1 数据集

基于生成对抗网络的三维生成大多是在理想环境下进行的理论研究,由于数据集存在真实数据采集困难等限制,生成结果拘泥于小型、细节简单且单一生成的目标.复杂三维目标、多个三维目标、大场景大范围多目标的三维生成场景是未来数据集收集的方向.

7.2.2 理论突破

综合本文对比分析的三维生成模型的结果,虽然目前已通过多种不同方式对基于GAN的三维生成进行了改进,如损失函数的设计、生成器架构的设计、与其他深度学习网络结合训练等,但其目前在使用三维数据进行研究时仍存在训练不收敛、训练时间过长、生成三维样本质量较低等问题.因此,如何从理论层面取得突破,仍是亟待解决的理论问题,是未来研究的重要方向之一.

7.2.3 新应用场景

本文聚焦三维生成网络应用方向包括三维室内场景(三维室内家居,三维室内场景)、三维人体(人体姿态、人脸等)等.现有对三维室内场景研究多为单一简单目标的三维室内家居生成和简单三维室内场景生成.未来可能发展的新应用场景如下:

1)由于室内装潢设计、房地产产业发展的需要,有复杂表面结构的高质量三维室内家居生成、多目标的复杂三维室内场景生成已成为新的应用研究趋势.

2)三维人体姿态、三维人脸大多局限于网格三维表现方式,对具体的纹理、阴影、光照等信息的处理是未来三维生成的应用研究方向之一.

3)随着三维动漫与电影中三维特效的快速发展与市场需求,精细、真实、飘逸的三维头发生成将成为新型应用场景之一.

猜你喜欢

三维重建姿态网格
三维重建的飞机机动动作库设计与可视化
网格架起连心桥 海外侨胞感温馨
攀爬的姿态
追逐
互联网全息位置地图迭加协议与建模制图技术
无人机影像在文物建筑保护中的应用
光编码技术在犯罪现场重建中的应用
另一种姿态
以文青的姿态回归主流——对《后悔无期》的两重解读
阅读是最美的姿态