生成对抗网络及其图像处理应用研究进展
2021-04-23王晋宇杨海涛李高源张长弓冯博迪
王晋宇,杨海涛,李高源,张长弓,冯博迪
1.航天工程大学 研究生院,北京101416
2.航天工程大学 航天信息学院,北京101416
深度学习于2012—2013 年在计算机视觉领域成为新的最优算法[1]。其最具有代表性的技术为卷积神经网络和反向传播算法,以此为基础在计算机视觉领域产生了重大的突破。图像生成算法是计算机视觉重要的研究方向之一,传统的生成算法主要有特征变换法[2]、玻尔兹曼机[3]、变分自编码器法[4-5]、近似推理马尔可夫链法[6-8]等,但是这类算法存在模型拟合简单、算法原理复杂的缺点。GAN作为在深度学习大发展背景下产生的数据生成算法,以其独特的双网络对抗思想在众多生成算法中脱颖而出,在2016 年Goodfellow 等提出GAN[9]以来,相关领域的论文发表数量呈指数级增长。图1 列出了在论坛统计的GAN每年的发文数量,可以看出对GAN的研究已经成为当前热门方向之一。
GAN 是一个应用性较强的算法体系,其衍生变体都围绕着高质量、多样性进行。发展历程目前经历了三个阶段:
图1 GAN发文统计
(1)探索阶段(2014—2016年)
这个阶段GAN 的算法刚开始被人们所接受,借助其思想衍生出不同的GAN 算法,如深度卷积式、条件式、金字塔生成式。但是生成效果普遍一般,不能部署于实际应用中,主要贡献在于为之后GAN 的发展奠定了基调。
(2)发展阶段(2016—2018年)
这个阶段是GAN 发展较为旺盛的时期,突出特点为算法原理风格迥异,模型结构各不相同,但大都取得了较好的效果。针对GAN 模型坍塌、梯度消失等问题进行了系统的探讨和研究。
(3)应用阶段(2018年至今)
这个阶段的GAN算法主要聚焦于图像处理、NLP、视频处理等领域,应用性较强。在总结前人所研究算法的基础上,针对不同的专题背景设计不同的GAN 模型。高复杂度、大计算量是这个时期GAN 算法的突出特征,样本生成的质量及多样性有了显著的提高。
1 生成对抗网络GAN
1.1 GAN数学原理
KL散度也称为相对熵,是信息论中重要的内容,是衡量两个分布之间差距的公式。设两个分布P、Q,则二者的相对熵为:
KL散度的不对称性表达为:
一般的,对于两个完全相同的函数,KL=0。KL越大,函数之间的差异越大。但由于KL 散度具有不对称性,实现起来较为困难,因此在此基础上对式(3)取平均,可以得到JS散度公式如下:
以JS 散度为例,G 的目标在于最小化JS 散度,D 的目标在于最大化JS散度。
1.2 模型架构及训练思路
最原始的GAN由Good Fellow提出,并在MNIST[10]、TFD[11]、CIFIR-10[12]等简单数据集上产生了不错的效果,作为基于对抗思想的一种生成算法,主要由生成器G和鉴别器D组成,模型架构如图2所示。
GAN 的训练思路灵感来源于博弈论中的纳什均衡[13],,即对抗的双方在非合作的博弈中都希望达到自己所期望利益的最大值。如图所示,生成器可接收由隐空间Z采样而来的随机噪声z,同时输出生成图像G(z)。鉴别器可接收图像数据,同时输出图像的真假标签。GAN 架构的对抗部分体现在生成器G 和鉴别器D上,G 希望生成图像G(z)在D 中可判定为真,而D 希望将真实图像x判定为真,生成图像G(z) 判定为假。GAN的目标函数如下:
GAN 的突出特征在于双网络设计,明确地提出了利用对抗训练方式可以很好地拟合真实数据分布,从而达到样本生成的目的。同时GAN 也存在一些弊端,使得其训练过程产生不稳定的现象。主要体现在以下几点:
(1)无法处理离散数据
GAN 的优化核心在于梯度更新,而这个过程建立在函数可微的基础上,因此GAN 不能很好地处理离散数据,这也使得其在NLP等领域发展缓慢。
(2)模式坍塌
模式坍塌[14]是GAN 最常见的失败方式,指生成的数据只朝一个或有限个方向发展。造成的结果是输入的数据往往含有多个种类的图像,而实际的生成图像却只有一种或几种。
(3)梯度消失
在训练GAN 网络的过程中,如果真实数据和生成数据分布之间的距离过近,重叠程度过多的情况下,便会造成梯度消失的问题。
1.3 评价方法
对于GAN算法的评价方法主要有主观评价和客观评价两种,主观评价方法主要是基于人眼视觉而定,若生成器可以生成人眼难以区分的样本数据,则可认为该算法具有良好的生成能力。GAN主要利用各种评分算法来进行模型生成效果的评估。最常用的客观评价方法主要有IS[15-16]、FID[17]两种,二者可以同时对图像生成质量和多样性进行评价。此外Neuroscore[18]、SWD[19]、MMD[20]等方法也可用于客观评价中。
图2 GAN模型架构
(1)Inception Score(IS)
IS 最初应用于Imagenet[21]上。利用Imagenet 训练一个GAN 网络,将其生成的样本输入已经经过预训练的InceptionV3 网络中,会返回一个判别概率值。对于同一类别样本数据来说,其输出的概率应当趋向于集中分布,而对于不同类别来说,其输出的概率应当趋向于均匀分布。IS分数的公式如下:
式中,χ~Pg表示从样本空间Pg中生成图片χ,P(y|χ)表示生成图片属于某一类别的概率,P(y)表示所有类别的边缘概率分布。IS 分数实际上是在判断条件类分布与类分布之间的KL 距离,IS 越大则模型的质量越好。但IS在判断模型是否有过拟合缺陷方面并不敏感,尤其是在大规模数据集上。同时由于IS只在生成模型上进行预测,因此无法判断真实数据和样本间的距离。
(2)Fréchet Inception Distance(FID)
为了弥补上述IS分数的缺陷,FID可以反映生成样本与真实数据之间的距离,其公式如下:
FID分数相较于IS具有较强的鲁棒性,其通过InceptionV3网络来进行特征的提取,构成了真实样本和生成样本两个概率分布。通过评价这两个分布之间的距离来达到模型评价的目的,FID由于其优良的噪声抵抗能力,在模型多样性评价方面具有更好的效果。但是FID的缺点在于依然没有解决大规模数据集上无法进行模型过拟合评价的问题。
IS 和FID 由于都经过了基于Imagenet 的预训练网络,因此实际上对于评价与Imagenet相差较远的图像来说达不到预期效果。
2 GAN模型的发展变体
GAN诞生后,针对不同的计算性能及应用需求,衍生出多种变体模型。GAN的发展变体大致分为基于结构和基于损失函数两类[22]。
2.1 基于结构变体的GAN
基于结构变体的GAN是生成对抗网络重要的创新方向之一,本节分别从五个角度对其进行介绍,并重点分析了其代表算法。总结如表1所示。
表1 结构变体GAN
2.1.1 深度学习生成GAN
DCGAN[23]作为第一个将卷积神经网络思想引入GAN 中的算法,已经成为了GAN 模型的基准[24]。深度学习的任务是发现丰富的、有层次的模型[25]。而卷积神经网络(CNN)由于其良好的平移不变性,成为了深度学习代表性方法。真正意义上的CNN 由文献[26]提出,LeCun等人[27]利用LeNet-5提出了一种基于反向梯度传播的算法。此后CNN 快速发展,并广泛应用于图像处理、自然语言处理等领域。
深度卷积生成对抗网络DCGAN 是一种将CNN 与GAN 有机结合的一种生成算法[28]。作为最大似然方法的替代方案,其特点在于生成器和鉴别器的网络结构都采用了卷积神经网络,且均没有使用池化层。
DCGAN采用“卷积+上采样”的设计方式,G可以进行矢量加减,其使用的BN 技巧极大地减小了初始化训练时造成的不稳定学习问题。生成器的卷积层采用ReLU[29]作为激活函数,输出层采用Tanh作为激活函数,鉴别器激活函数全部采用LeakyReLU。在训练过程中对D 和G 采用了批量归一化[30]的技巧。这样便不用考虑在训练的过程中DropOut[31]、L2正则项等方法带来的参数选择问题。作为一种典型的无监督学习算法,其反向卷积神经网络(也称为转置CNN)用来生成样本,同时也可以实现CNN 特征的可视化,并表现出了良好的效果[32],DCGAN生成器结构如图3所示[23]。
2.1.2 半监督生成GAN
GAN最初应用于无监督学习领域,而Odena提出的SGAN[33]介绍了一种基于半监督学习的模型训练方法,其结构如图4 所示。半监督学习介于监督学习与无监督学习之间,只需要提供在一定范围内的小样本集标签。在此之前,Kingma 等人[34]已经对半监督生成模型进行了初步尝试,同时Springenberg[35]设计了一种基于半监督学习的GAN,SGAN 的结构图如图4 所示,在原始GAN 架构的上加入了分类器C,在判别器中分别使用Softmax[36]和Sigmoid[37]函数,这样可以在对样本真假进行区分的同时,也能够对大量未标签的真实数据进行分类。
2.1.3 条件式生成GAN
图3 DCGAN
图4 SGAN
传统的GAN 中由随机噪声产生样本数据,因此存在信息生成不可控的缺陷,训练过程自由度过高。van den Oord 等人[38]指出利用类条件合成的方法可以显著提高生成样本的质量。如图5 所示,CGAN[39]在传统的GAN 网络中加入了附加条件信息y,用于控制G 和D的训练进程。其中y可以是类别标签,也可以是修复数据的某一部分,或来自于不同的模态数据[40]。CGAN显著提高了模型训练的稳定性,也为后续的条件式生成对抗网络提供了参考,其目标函数及架构如下所示,其中Y作为D和G的附加输入层:
图5 CGAN
如图5所示,此外,在条件式生成思想下,Chen等借鉴了信息论的思想,提出了一种基于信息量最大化的生成对抗网络InfoGAN[41],试图利用信息论的知识来解释无监督学习方式中的信息表征问题。Odena 等人提出了AC-GAN[42],并成功运用于大范围类别标签数据中。
2.1.4 渐进式生成GAN
渐进式生成算法的核心思想在于层层递进的生成方式,不同的生成节点完成各自的生成任务。最具代表性的为Denton 等人提出的LAPGAN[43],该结构的生成器部分由一个串联的网络构成,可以将低分辨率的输入图像转换为高分辨率的生成图像。拉普拉斯金字塔[44]是一种图像编码方式,LAPGAN 的特点在于在金字塔的每一层训练一个单独的生成对抗网络模型,是一种由粗到细的图像生成框架。通过输入低分辨率的低维图像,再将图像进行层层上采样操作,最终产生高维图像。这样做的目的在于降低输入数据的复杂程度,同时又可以提高图像生成的多样性。但是由于其在生成的节点中容易引入噪声,因此会造成训练不稳定的问题。LAPGAN 有利于高分辨率的图像建模,但是对于指定任务的图像生成较为困难。其结构如图6所示。
2.1.5 编解码生成GAN
编解码是信息论重要的研究内容之一,即对信源符号进行信息正向压缩,对信宿内容进行反解变换的过程。在通信系统信息传输过程中,信源需要经过编码才可传入信道,同样只有经过解码,信宿才可接收到信息。由于信息在经过通信系统后会产生损耗,而编解码方法可以提高数据压缩的效率和数据传输的准确度。如李江等人利用编解码技术中的降噪自编码器原理,成功实现了人脸表情识别[45]。
图6 LAPGAN
BEGAN[46]作者借鉴了EBGAN[47]中编解码的思想,在鉴别器中加入了一个自编码器。如图7所示,数据在经过编解码后,与原输入信息相比会产生大小不同的损失,称为重建损失。传统的GAN 采用直接拟合真实分布的策略,及通过计算真实分布与生成分布之间的距离,来达到生成样本的目的。而BEGAN 与之不同,它重点计算数据重建之后分布误差之间的距离。若二者接近的话,也可以完成训练任务。值得注意的是,BEGAN第一次将GAN的均衡点进行了证明,同时提供了一种可以平衡生成质量和多样性的超参数。
2.2 基于损失变体的GAN
损失函数是GAN 对抗过程的重要体现之一,决定着D 和G 的参数更新方向。在基于损失变体的GAN中,分别从Wasserstein损失、统一框架f散度、最小二乘损失角度进行总结,如表2所示。
表2 损失函数变体GAN
2.2.1 Wasserstein距离WGAN/WGAN-GP
传统的GAN 在训练过程中,如果训练样本与生成样本之间如果距离过近时,JS 散度为一个常数,这时候就会产生梯度消失问题。Arjovsky 等人提出了一种基于EM距离(也称推土机距离)的算法WGAN[48],彻底解决了GAN 的梯度消失问题,同时也增加了训练的稳定性。与KL、JS散度相比较,EM距离由于是连续的,即使分布之间没有重叠也可以很好地计算距离。EM距离的公式如下:
根据EM距离,WGAN的目标函数为:
WGAN 存在无法直接实现1-Lipschitz 约束条件的缺点,在实际应用中使用权重剪枝的方法,使得判别器更新后的值限制在(-c,c)范围内。这样可以强行使判别器的目标函数变得平滑,但是这种方法容易造成训练困难、收敛缓慢的问题。因此,文献[49]提出了WGAN-GP算法,通过在原WGAN基础上加入惩罚项的方法,使得判别器对x的输出梯度限制在了1 以内,实现了与1-Lipschitz约束条件等价的效果。
2.2.2 统一框架f-GAN
f-GAN[50]提出了一种利用f散度进行GAN 训练的系列方法。该文指出在衡量两个分布P、Q之间的距离时,不仅JS散度适用,任何满足条件的散度集合都可以指导模型的训练。这个散度集合统称为f散度,其公式如下:
其中,f满足两个条件,凸函数及f(1)=0。
因此,在f散度框架下,只要能找出符合散度要求的函数,便能够据此定义不同的目标函数,设计不同的GAN。f函数如表3所示。
表3 f散度框架函数
2.2.3 最小二乘LSGAN
LSGAN[51]是一种具有高质量图像生成和高稳定性训练特征的GAN 算法,其突出特征在于采用了最小二乘原理。传统的GAN大多使用交叉熵、KL散度等作为损失函数,在判别器判定某种分布为1 的情况下,这些样本便不会继续得到优化。这会使判定为真且远离决策边界的假样本停止更新。而在最小二乘损失下,这些样本会继续得到优化,从而有利于对假样本的排除,这是使得生成图像质量更高的原因。LSGAN的目标函数为:
图7 BEGAN
3 GAN在图像处理方面的应用
3.1 高质量图像生成
GAN 在设计之初就是为了进行图像的生成,围绕高质量图像生成这一内容衍生出多种GAN算法。主要分多样本训练、少样本训练、图像超分等方向。
针对多样本训练的GAN 算法来说,DCGAN 和LAPGAN 分别采用了CNN 和拉普拉斯上采样两种方法,但是二者都无法进行大尺寸图像生成。吴春梅等人[52]利用DCGAN 架构提出了一种基于深度学习的GAN 网络,实现了静态图像人体姿态估计。真正意义上大尺寸图像生成的提出为ProGAN[53],属于一种渐进式生成GAN算法。利用渐进式神经网络[54]的思想提出了一种增长型训练的方式,其核心在于动态更新的生成器网络。这种图像生成技巧较大幅度地提高了训练的有效性,但是由于其生成器模型需要不断更新,会带来训练周期较长的问题,降低了训练效率。ProGAN 在CelebA中的训练效果如图8所示。
图8 ProGAN
针对单样本或少样本学习来说,Li 等人利用W 损失设计了一种生成对抗网络AFHN[55]用于少量样本学习,通过加入分类和抗塌陷正则化器提高合成特征的多样性。Shaham等人[56]提出了SinGAN,该算法可以从单张的自然图像学习生成高质量图像,SinGAN 将图像进行切分,从而学习单张图像中某小块数据的分布。由于使用全卷积网络,因此并不需要设定输入尺寸,可以生成与原图相似,但有细微差别的高质量图像。
图像超分也是高质量图像生成的方式之一,其目的在于通过算法将低分辨率的图像转为高分辨率的图像,文献[57]第一次提出了这个问题。GAN 在图像超分中应用最广泛的算法为SRGAN[58],这是第一个能够根据4倍的放大因子推断出逼真的自然图像的框架。彭晏飞等人提出了一种基于生成对抗网络的单张图像的超分辨率重建方法[59]。
此外,武随烁等人将孪生注意力机制与GAN 进行结合,提出了一种新型GAN框架,证明了该方法能够更加全面地获取图像中的特征信息,从而可以获得更高质量的生成样本[60]。BiGAN[61]利用VAE 架构,提出了一种新的优化思路,BigGAN[62]算法使得Batch_size 达到了2 048,也带来了高保真、高细粒度的生成样本。Big-BiGAN[63]将BiGAN和BigGAN结合起来,弥补了DCGAN的不足,使得图像生成质量进一步提高。
3.2 图像变换
图像变换是GAN 重要的应用方向之一,GAN 强大的函数拟合能力使其在风格迁移、人脸合成、场景渲染、图像跨域等方面产生许多有价值的应用。
图像风格迁移是指将按照B 图像的风格来生成A图像的过程,这种应用主要在旧图像上色、模拟换装等方面进行应用,Isola 等人[64]讨论了Image-to-Image 的通用解决方案。在计算机视觉领域,图像生成大多都是将已经输入的图片“转换”成对应的输出图片,实质上是一个图片模仿的过程。CycleGAN[65]是图像风格转换最有代表性的算法,核心思想为循环一致性,利用两个转换器的损失所构成的重构误差来进行训练,并带来了许多有趣的应用,如季节的转换、马与斑马的转换、油画风格转换等。
StyleGAN[66]在人脸合成领域取得了较好的成果,其将生成器的起点设置为一个常量,在网络的每个卷积层中作用一个隐空间编码,来达到控制样式的目的。同时借鉴了ProGAN中层层递进的思想,其结果如图9所示。
图9 StyleGAN
图像场景渲染是图像处理中一个富有挑战性的任务,针对高分辨率白天图像渲染问题,文献[67]提出了一种高分辨率日间转换模型(HiDT),HiDT 的架构由编解码器组成,并通过AdaIN[68-69]链接在一起。在训练过程中用到了没有白天标签的静态景观数据集,利用Image-to-Image 以及文中新设计的上采样方案,可以达到昼夜转换的效果。
图像跨域也是图像变换的常见问题之一,先前文献[70]已经进行了相应的研究,实现了从边框生成手提包的功能。在漫画领域,图像上色是一个费时费力的工作,对于漫画自动上色问题早期在文献[71-73]中进行了研究。对于素描图像来说,有着色彩单一、信息不够丰富的缺点,对其进行颜色填充是近年来十分热门的方向之一。2020 年文献[74]提出了一种将素描风格转换为图像风格的算法,该算法使用增强自参考的思想,设计了一种特征转移模块,将参考点表示转移到了草图对应的空间位置、获得了逼真的草图漫画上色效果。
3.3 文本生成图像
文本生成图像是GAN领域富有创造性的研究方向之一,同时也拥有广泛的应用前景。其主要目的是利用现有的语言描述来生成对应特征的图像,Reed 等人在文献[75]设计了一种由文本生成图像的GAN算法,加入了流形插值正则化器。文献[76]也进行了相应尝试,并成功生成了符合语义条件的64×64图像。但是由于其细节信息丢失严重,因此成像质量较差。针对基于文本引导的高分辨率图像生成背景,StackGAN[77]产生了良好的效果。其核心算法在于分阶段生成,文章又在整个训练过程引入了条件强化技术,增加了生成对象的平滑特性。
同时,GAN 在文本生成图像方面已经具有实际应用,CookGAN[78]是一种基于文本生成菜单的GAN算法,该文从图像因果链的角度来解决文本生成图像问题,可以生成符合条件的菜肴样本。TiVGAN[79]设计了一种根据文本可以生成视频序列的架构。
3.4 图像修复
图像修复是指利用学习到的图像信息或者修复模式,对受到损害的图像进行补全或修改的技术。图像修复可以运用于图像补全、图像去模糊等众多场景中。早期对于图像修复的研究见于文献[80-81]中,GAN 由于其具有良好的拟合真实分布的能力,在图像修复方面表现出较好的效果。
在图像补全方面,UCTGAN[82]是一种新的基于GAN的修复算法,采取了端到端的方式,通过条件编码器模块、流形模块、生成模块三模块的设计,可以提供多个修复方案,其效果如图10 所示。实验证明对于人脸、街景、自然风光修复方面,可以提供更好的解决方案。此外,王海涌等人对传统GAN算法进行改进,将其应用于局部遮挡的人脸表情识别中[83]。
图10 UCTGAN
在图像去模糊方面,Engin等人[84]改进CycleGAN的架构,可以有效去除图像中的雾。Lin 等人[85]提出了基于文档去阴影的应用场景。该算法提出了背景估计文档阴影去除网络(BEDSR-Net),通过背景估计模块的设计,学习了背景和非背景模块的空间分布信息,并将这些信息编码为注意力地图。通过估计全局背景颜色和注意力贴图,阴影去除网络可以更好地恢复无阴影图像。
4 总结与展望
GAN在近年来已经成为了热门的研究方向。虽然起步时间较晚,但是发展迅猛,在图像处理的众多领域已经做出了重要贡献。作为一种无监督学习的方法,和监督学习、半监督学习进行结合,同样可以产生良好的效果。从长远来看,这种具有创造性的模型体制正处于稳步上升阶段。但由于其本身存在模型坍塌、梯度消失等问题,依然制约着其生成效果、训练效率、应用范围,具体表现如下:
(1)图像生成多样性较低
图像生成多样性一直是GAN研究领域的重要问题之一,传统GAN算法只能拟合小尺寸的简单数据集,生成图像复杂度较低。此后GAN算法一直都围绕图像多样性展开。现有的GAN算法已经可以生成难以区分的高质量图像,但在图像多样性发展中会有众多因素制约,往往会与图像尺寸、模型复杂度等其他因素产生矛盾。例如,作为GAN 与深度学习结合最具代表性的模型,DCGAN 使得图像生成多样性有所提高,但是其只能局限在低分辨率图像生成范围内。CGAN 由于加入了条件约束,增加了训练稳定性,但是同时也造成了生成多样性不足的缺陷。
(2)模型训练效率不足
模型训练效率的不足主要是指两点:①由模型坍塌、梯度消失带来的训练不稳定;②复杂的模型结构及冗余信息造成的训练周期过长。例如,LAPGAN 由于采用了多个生成器连续进行金字塔生成的方法,在一定程度上有利于高分辨率建模,但是其训练过程产生的额外噪声拖慢了训练速度。ProGAN 在人脸生成上取得了显著的成功,但是其动态更新的生成器使得图像生成的整个过程变得异常缓慢,1 024×1 024 的图像在高性能计算机中训练时长可达16天之久。
(3)评价标准体系不完善
现有对GAN的评价指标主要有主观评价和客观评价两种,存在以下几点问题:①主观评价标准的建立未分级量化;②客观评价标准并未做到科学统一。
(4)算法应用领域研究不广泛
GAN 在较短的发展年限内已经应用于多个领域,但是多局限于图像处理范畴,许多算法只提及其可实现的功能,而未说明其利用价值。且在诸如NLP等领域发展缓慢。主要原因有:①具有实际利用价值的算法在图像生成真实性上存在质疑,在主观视觉上无法满足应用需求;②缺乏泛化能力,在实验数据上效果良好,但无法移植到其他场景。例如,Li等人[86]于2017年提出的一种基于复杂场景的图像修复方法,实际效果并不能达到以假乱真。UCTGAN提供的多个修复方案中依然存在一些失真问题,不被人眼视觉所能接受。CookGAN针对烹饪过程进行语义上的建模,但应用于其他场合需要进行大量的参数调整。
通过对现有GAN 算法及其应用的归纳总结,以及现阶段GAN 存在问题的梳理,总结出以下几个可供发展的方向,主要包括:
(1)注重基础算法研究,要解决实际问题,就要从结构、损失函数角度进行算法的设计。如充分利用条件式生成对抗网络以及深度学习原理,对流程架构进行调整,并设计更加合理的约束条件。在保证图像生成质量以及训练稳定性的前提下,增加图像的多样性生成能力。
(2)探讨内部机理,当前阶段GAN与深度学习已不可分割,而深度学习目前依然是个黑箱,其内部机理的研究不够深入,这也直接导致了GAN 算法存在同样的问题。因此选择合适的工具,探究现有算法内部的信息流传递机理,以此来寻找制约模型训练失稳、周期较长问题的解决方法,并加以改进。
(3)规范评价标准,明确标准建立的科学性、综合性,注重跨领域融合。如可以参考已有的图像主观评价标准,建立基于GAN 的主观评价量化指标。针对生成图像信息量的客观评价指标体系,对性能、过拟合程度等指标进行系统研究并建模。
(4)扩大应用范围,注重算法跨领域移植的能力。如可以将GAN 图像生成应用于遥感图像智能处理中。近年来GAN 算法的数量成倍扩增,其中不乏可以直接部署于遥感图像处理中的优良算法。如DCGAN 可以用于遥感数据样本扩增,SinGAN 可以用于高分辨率单景图像生成,CycleGAN可以用于时序数据修改,BEDSRNet可以用于遥感图像去云等。
5 结束语
GAN 在短短不足十年的发展中,所展现出的张力对图像处理领域产生了巨大的冲击。从发展的三个阶段来看,目前GAN算法的复杂性正不断提高,带来更好使用效果的同时对计算资源的支撑也带来了不小的挑战。总而言之,高质量、高多样性、强泛化能力依旧是GAN在图像处理领域不变的主题。