生成对抗网络技术研究
2022-02-03张晓亮
张晓亮
(北方工业大学 信息学院,北京 100144)
0 引言
由Goodfellow等[1]提出的生成对抗网络(Generative Adversarial Network,GAN)是机器学习中的一个新概念,是近年来人工智能领域最重要的研究方向之一,出色的数据生成能力使其一经提出便受到了广泛的关注。机器学习算法通常根据数据集是否被标注分为有监督学习和无监督学习两类。有监督学习很难自动的收集和注释标记,因此无监督学习越来越受到研究人员的关注[2]。
生成对抗网络是无监督式学习的一种生成模型,其由一个生成网络与一个判别网络组成。两个神经网络通过相互博弈的方式进行学习。在博弈过程中通过不断的优化迭代,最后达到一种最优状态,即纳什平衡状态。
1 生成对抗网络的简介
1.1 生成对抗网络的原理和框架
生成对抗网络的基础原理来源于博弈论中的双人零和博弈理论,该理论是指参与博弈的双方属于一种相互竞争的关系,在严格竞争的条件下,一方的收益必然意味着另一方的损失,博弈各方的收益和损失相加总和永远为零。在这里,博弈的双方就对应着生成对抗网络的两大重要组成部分,即生成器G和辨别器D。生成器G的目标是通过产生虚假的样本分布来欺骗辨别器D,其训练过程就是最大化辨别器D犯错误的概率;而辨别器D的目标是辨别输入样本是来自于真实样本空间还是来自生成器G产生的虚假输出,并给出一个输入样本是否为真实样本的概率。接近0的概率值表明样本是假样本,而接近1的概率值表明样本来自真实的样本空间。接近0.5的概率值表示鉴别器无法区分出假样本和真实样本,从而说明生成器和辨别器的博弈达到纳什均衡状态,产生了最佳的解决方案[3-6]。
GAN的模型结构,如图1所示。生成器G用潜在空间中随机取样得到的噪声变量z作为输入来产生虚假样本G(z),将该虚假样本与真实的图像样本一起输入辨别器D。辨别器D的作用是用于确定给定图像是否属于真实分布,它接收输入图像x并产生输出D(x),表示x属于真实分布的概率。若输出为1,则表示是真实图像分布;若输出为0,则表示是虚假图像分布。
图1 GAN的模型结构
其中,GAN的目标函数如公式(1)所示
(1)
式中,D和G分别代表辨别器和生成器,G(z)是由生成器G产生的输出,D(G(z))是辨别器判定生成器生成样本为假的概率,Pdata(x)代表真实数据的分布,Pz(z)代表生成数据的分布。
GAN模型的训练过程可以分为3部分。首先,固定生成器G不变并优化辨别器D,以最大限度地提高D的识别精度,使其尽可能多的区分真实样本和生成样本。其次,固定辨别器D不变并优化生成器G,使G尽可能减小生成样本与真实样本之间的差距,从而使辨别器判别错误,无法区分真实样本与生成样本。最后,交替进行前两个过程,当且仅当Pdata=Pg时,才能实现全局最优解决方案,即D(G(z))=0.5,说明D随机猜测样本是真是假,无法判断样本是来自于生成器还是真实样本空间,从而证明达到纳什均衡状态。在训练过程中,为了先得到一个准确率高的辨别器,要先优化k次辨别器D的训练参数以提高其辨别能力,再根据辨别器的反馈优化一次生成器G的训练参数,进而提高生成器产生虚假样本的能力。
1.2 生成对抗网络存在的问题
GAN模型面临的一项重要技术问题就是模式崩溃问题。该问题是指当生成器的输出样本只集中在单一类别的时候,就容易导致生成的样本缺乏多样性。因此如何提升生成样本的多样性仍然是一个亟待解决的问题。
训练过程的不稳定也同样是GAN模型的研究人员面临的问题。训练过程中如何达到纳什均衡是一个难点和挑战。
除此之外,GAN模型还存在梯度消失的问题。该问题普遍存在于神经网络之中,具体表现在以梯度下降法和反向传播训练深度神经网络的时候,前面隐藏层的学习速率远低于后面隐藏层的学习速率,最终导致神经网络不能很好地完成收敛。GAN模型在辨别器训练的越好的时候,生成器梯度消失的越严重,即辨识度过高的辨别器会减少向生成器提供反馈从而延缓甚至迟滞其学习过程。
2 生成对抗网络的衍生模型
针对上述提到的GAN模型存在的各种问题,研究人员提出了许多不同的改进方案,由此衍生出了许多GAN的变体,本节主要对一些重要的GAN模型变体进行讨论。
2.1 CGAN
由于传统GAN模型中生成器G的输入是一个随机的噪声向量,因此容易造成训练模式崩溃。为了更好地解决这个问题,有研究人员提出了基于条件的生成对抗网络(Conditional GAN),该网络在生成器和辨别器中都引入了条件变量。通过这种方式来给模型增加额外的条件,进而影响数据生成的过程,使得生成网络能够生成特定方向的样本,避免GAN模型的生成过程过于自由。
2.2 DCGAN
卷积神经网络(CNN)是监督学习领域一个重要的网络模型且在图像处理和算机视觉方面取得了令人瞩目的成果。相关研究人员将卷积神经网络与生成对抗网络相结合提出了DCGAN模型。该模型将卷积神经网络引入到生成式模型中来做无监督的训练,利用卷积网络强大的特征提取能力来提高生成网络的学习效果。同时,该模型还提出了一个重要的架构变化来解决训练不稳定,模式崩溃和内部协变量转换等问题。
2.3 WGAN
为了解决GAN模型训练过程不稳定和模式崩塌的问题,有专家提出了WGAN模型。该模型不仅使用EM距离替代JS散度来评估真实数据和生成数据之间的分布距离,还用基于利普希茨约束的批判函数f来代替辨别器。
3 GAN的应用
GAN网络具有强大的数据生成能力和灵活的框架,因此在图像处理领域有广泛的应用。此外,GAN模型还广泛适用于医学影像合成、信息隐藏、目标检测等领域。本节将介绍GAN模型在不同应用场景下的一些实例。
3.1 高分辨率图像的生成
当前,GAN模型最成功的应用就是在计算机视觉领域,最有力的代表就是高分辨率图像的生成。有专家提出了超分辨率生成对抗网络(Super-Resolution GAN)来提高生成图像的质量和清晰度。他们用VGG网络作为辨别器,用残差网络作为生成器,并采用低分辨率图像作为输入。实验结果表明,SRGAN能将其重构成高分辨率图像并能得到丰富的纹理细节。
Wang等[7]将SRGAN模型进行改进,提出了增强型的超分辨率生成对抗网络ESRGAN。该模型对SRGAN网络体系结构的3个关键组成部分:网络架构、对抗损失和感知损失进行了改进。基于这些改进提出的ESRGAN比SRGAN在生成图片的纹理和细节上取得了更清晰,更逼真的视觉效果。
3.2 信息隐藏
信息隐藏是指将机密信息隐藏在公开的载体信息中,通过公共信道进行传递。将传统隐写方法与生成对抗网络技术相结合,能很大程度上提高了信息的隐蔽性。有研究团队提出了一种SGAN(steganographic GAN)模型,该模型在前述DCGAN模型的基础上进行了改进。在原有的架构中加入了一个判别器网络S对输入给S的图像进行隐写分析。结果表明,SGAN可以在信息载体中嵌入更多由标准隐写算法加密过的信息,从而成功绕过现有隐写分析技术的检测。
3.3 医学领域
GAN模型在医学影像学和临床诊断方面也发挥了很大的作用。何俊等[8]提出了一种基于CGAN的带有多尺度辨别器的生成对抗网络前列腺分割算法,该算法能够对前列腺MRI图像进行分割以满足临床实践的需求,试验结果表明该算法的准确率和鲁棒性较高。
Ghassemi等[9]提出了一种使用深度卷积神经网络对MRI脑肿瘤进行分类的新方法。该方法使用DCGAN模型对脑肿瘤进行分类,与现有方法相比取得了较高的准确率。
4 结语
作为一类强大的生成模型,GAN自提出以来就受到了外界的广泛关注。目前,各个领域对GAN的研究也在如火如荼地进行。同时,GAN模型的不足之处也在慢慢地展现出来。未来的研究方向应更多地针对上述提及的训练过程不稳定、模式崩溃和梯度消失等问题。此外,鉴于各种各样的GAN衍生模型层出不穷,目前学术界和工业界对各类GAN模型还没有普遍的统一的定量评价指标。因此,如何客观准确地对生成对抗网络模型进行评价仍可作为一个新的研究方向。