噪声稳健性的卡方生成对抗网络
2020-04-06李洪均李超波张士兵
李洪均,李超波,张士兵
(1.南通大学信息科学技术学院,江苏 南通 226019;2.计算机软件新技术国家重点实验室(南京大学),江苏 南京 210093;3.南通大学智能信息技术研究中心,江苏 南通 226019;4.南通大学通科微电子学院,江苏 南通 226019)
1 引言
深度学习[1]作为一种训练深层神经网络的机器学习算法,被广泛应用于图像[2-4]、语音[5-6]、自然语言处理[7-8]、大数据特征提取[9-10]等方面。生成式网络是深度学习的重要组成部分,在无监督情况下可以获取数据的高阶特性,主要包括深度置信网络[11]、受限玻尔兹曼机[12]、自编码器[13]和生成对抗网络(GAN,generative adversarial network)[14]等。
GAN 不同于其他生成式模型,其避免了马尔可夫计算、变分下限和近似推断的复杂性,大大提高了应用效率;GAN 通过对抗学习生成逼真样本,在图像合成[15-17]、修复[18-20]、分类[21-23]、转换[24-26]等任务中表现出色。但是GAN 在训练和优化过程中存在着一些问题[27-28]。例如,对抗训练过程中生成器与判别器之间需要很好的平衡,如果生成器退化且判别器误判,会导致模式崩塌问题,使生成的图像单一;梯度下降在非凸函数的情况下很难达到纳什均衡;当真实样本分布和生成样本分布没有重叠或重叠可忽略时,延森-香农(JS,Jensen-Shannon)散度接近定值,容易出现梯度消失问题。
针对GAN 存在的问题,研究者们提出了有效的改进方法[29-30]。Radford 等[31]采用卷积和解卷积的方式代替全连接结构,并使用归一化提升训练的稳定性,可以生成多样化图像,但是仍需要平衡训练生成器和判别器。Salimans 等[32]提出增加判别器中间层的输出作为优化目标之一,虽然不能保证达到均衡,但提高了网络的稳定性。Arjovsky 等[33]通过理论分析说明了JS 散度判断2 个无重叠或重叠可忽略分布的功能受限问题。因此,Wesserstein生成对抗网络(WGAN,Wesserstein GAN)[34]引入Wesserstein 距离,在连续的约束下改进损失函数,解决了梯度消失等训练不稳定问题,从而生成丰富多样的样本。为了解决模式崩塌问题,Ghosh 等[35]提出了包含多个生成器和一个判别器的多主体、多样化生成对抗网络,在判定真假样本的同时找到制造假样本的生成器并优化。Mao 等[36]提出了最小二乘生成对抗网络(LSGAN,least squares GAN),使用最小二乘损失函数代替交叉熵损失,使图像分布尽可能地接近决策边界,提高图像质量。Chen 等[37]提出了一种基于感知损失函数的生成对抗网络,使用密集块构建生成器,生成更自然、更真实的图像。Tan 等[38]提出了一种提高图像质量的新策略,将损失函数的梯度从分类识别器反向传播到生成器,同时反馈标签信息,使生成器能够更有效地学习,生成高质量的图像。Kancharla 等[39]提出了基于多尺度结构相似度指标的生成对抗网络,将结构相似度作为GAN 中鉴别器损失函数的约束,保证局部结构的完整性,提高生成样本的视觉质量。
以上基于生成对抗网络的改进方法大致上可以分为2 类:一类是为了缓解网络训练中出现的梯度消失、模式崩塌等问题,另一类是针对提高图像生成的质量进行改进。但是,很少研究工作考虑到不同输入噪声对图像生成质量的影响。文献[40]表明不同分布在数据拟合效果上具有一定的差异性,因而不同的噪声分布对生成样本质量有一定的影响。不同度量方法对计算分布间差异的准确性有直接影响,欧氏距离、L1 范数等只考虑绝对距离,忽视了相对距离。对于反映不同分布之间的距离,相对距离更有实际意义,卡方散度和熵可以有效反映相对距离。相比于熵,卡方散度没有对数和指数运算,其计算复杂度小,运算速度较快。此外,卡方散度还具有稀疏不变性和量化敏感性[41],利于衡量不同分布间细微的差异。因此,有必要将卡方散度用于生成对抗网络中展开研究。
为了解决不同分布噪声下网络生成样本质量差异明显、稳健性差的问题,本文提出了一种噪声稳健性的卡方生成对抗网络(CSGAN,chi-square generative adversarial network)。该网络结合卡方散度稀疏不变性和量化敏感性的优势,构建网络优化的目标函数,引入卡方散度值作为评估生成样本和真实样本分布差异的依据,促进生成器和判别器在对抗中不断优化,使不同噪声下的生成样本分布能够尽量拟合真实样本分布,增强网络的稳健性。
2 相关工作
在大数据背景下,无监督的生成对抗网络得到广泛关注。同时,许多基于生成对抗网络的改进方法被提出,例如条件生成对抗网络[42]、深度卷积生成对抗网络[43]、能量生成对抗网络[44]等。下面详细介绍经典生成对抗网络和Wasserstein 生成对抗网络。
2.1 经典生成对抗网络
经典生成对抗网络是一种典型的生成式网络,通过对抗学习并使用随机梯度下降法进行优化。这有效避免了马尔可夫链的反复使用,不需要进行变分下限和近似推断,改善了生成式模型的训练难度和效率。如图1 所示,生成对抗网络由以下两部分组成:生成器G 和判别器D。生成器获取真实样本的分布,并根据所获取的分布重构样本;判别器相当于二分类器,用于判断输入数据来自真实样本还是由生成器产生的样本。GAN 的基本思想是训练生成器G 和判别器D,通过讨论极小极大化博弈问题寻求全局最优解,达到纳什均衡。
图1 生成对抗网络
生成器学习真实样本x 的分布 pd,输入服从分布 pz(z)的噪声z,该噪声通过生成器映射到一个新的数据分布 pg,得到 G(z)。然后,将真实样本x 与G(z)共同输入判别器D 中,通过 D(x)表示输入的2 个数据属于真实样本的概率并输出。初始状态下,真实样本的 D(x)值趋近于1,而生成样本的 D(x)值趋近于0;训练D 最大限度地正确区分生成样本和真实样本,同时训练G 混淆判别器D,使其不能区分数据的来源。D 和G 的训练是关于值函数V(G,D)的极小极大化博弈问题,如式(1)所示。
训练初期,当生成器G 的效果较差时,生成样本与真实训练的样本明显不同,判别器D 可以轻松判别生成样本为假图像。为了增加梯度信息,生成器G 选择最大化log D(G(z))代替最小化log(1-D(G(z)))进行训练。当训练样本足够多时,对抗问题的全局最优解为 pd=pg,D*(x)=,即真实样本分布与生成样本分布重合,网络达到纳什均衡状态。
2.2 Wasserstein 生成对抗网络
经典的GAN 模型通过计算JS 散度,比较pg和pd之间的距离,要求2 个分布有重叠,但低维与高维之间有微小重叠或完全没有重叠的可能性非常大。因此,生成器存在无法逼近真实样本和模型崩塌的问题。Arjovsky 等[34]从数据分布相似性度量入手对GAN 进行改进,提出Wasserstein 生成对抗网络。通过将经典GAN 中对概率分布的距离度量JS 散度替换为Wasserstein 距离,对于GAN 算法进行部分调整,优化了经典GAN 训练过程不稳定、训练后期生成器梯度消失、模型崩溃的问题,如式(2)所示。
WGAN 与经典GAN 相比做了部分调整,具体如下。生成器和判别器的目标函数不取对数形式,采用RMSProp 优化算法,判别器最后一层去掉Sigmoid 激活函数;判别器参数更新后,通过截断方式将权重限定在一个固定区间,避免梯度消失。
3 卡方生成对抗网络
3.1 网络设计
不同评估方法会对计算不同分布间差异的准确性造成直接影响。欧氏距离、L1 范数等考虑生成样本分布和真实样本分布之间的绝对距离,忽视了相对距离;卡方散度和熵可以有效反映不同分布之间的相对距离。对于计算不同分布之间的差异,相对距离往往更有实际意义。
卡方散度是F 散度的一种形式,衡量2 个分布,即P=(p1,p2,…,pn)和Q=(q1,q2,…,qn)差异的大小,其被定义为
此外,卡方散度具有量化敏感性和稀疏不变性[41]。量化敏感性表现为卡方距离对不同输入与标准模板之间的细微差异是敏感的。由于不同噪声服从不同的概率分布,当z 服从参数为λ 的泊松分布,且λ充分大时,z 渐近服从正态分布 N(λ ,λ);当z 服从参数为α 和β 的伽马分布,且α 趋于无穷大时,z渐近服从正态分布。虽然不同分布在极限条件下存在一定的关系,但是一般情况下很难达到极限条件。因此,不同输入噪声拟合出的生成样本分布具有一定的差异,即其与真实样本分布的距离也各不相同;卡方散度的量化敏感性可以度量不同噪声下生成样本分布与真实样本分布的差异,有利于减小不同噪声对生成样本分布的影响,因此使用卡方散度有助于缓解不同输入噪声下的稳健性问题。
卡方散度的稀疏不变性的定义是整体距离等于局部最优距离。由于真实样本中可能存在一些质量较差或不服从整体分布的独立样本,如果生成样本分布无限拟合真实样本分布,会产生独立样本,影响判别器和生成器的训练。此时,卡方散度的稀疏不变性有利于从整体数据中忽略独立样本,使用局部最优样本分布来代替整体分布。所以,将卡方散度作为样本分布差异的评价依据,可以降低对真实样本质量的要求,同时避免生成一些质量较差的独立样本。
因此,基于卡方散度构建卡方生成对抗网络的目标函数,如式(4)所示。根据极大极小值原理,判别器D 希望生成器生成的图像质量较差,从而轻易地判别出真实样本和生成样本。生成器G 根据判别器的反馈优化自身,直到可以混淆判别器的判断。
其中,任意输入噪声z 服从分布pz,且真实样本x 服从分布pd,噪声经过生成器后形成生成样本 G(z)。判别器以卡方散度为衡量依据,当生成器生成样本与真实样本的卡方距离为0 时,生成样本分布拟合真实样本分布,网络达到最优。
下面详细说明本文提出的卡方生成对抗网络中目标函数和卡方散度之间的关系,主要分为以下2 个步骤:1)假设生成器参数固定,寻找最优的判别器,且确定判别器的最优判别概率,目标函数取得最小值;2)当判别器状态最优时,存在最优生成器使判别器可依据卡方散度计算得出生成样本分布和真实样本分布的距离为0,目标函数取得最大值。因此,通过相互博弈,以卡方散度为评价依据,网络的判别器和生成器均可达到最优状态。
一方面,以最小化目标函数为指导,先寻求最优判别器。假设生成器固定,真实样本为x 且服从分布 pd。对于任意输入噪声z 服从分布 pz,噪声z经过生成器后得到服从分布 pg的生成样本 G(z)。当生成样本和真实样本同时输入判别器D 时,目标函数可以写为
因此,根据生成样本分布和真实样本分布求目标函数的最优解,可得到定理1。
定理1给定生成器,最优判别器为
当目标函数取最小值时,判别器达到最优。
证明训练判别器的判别能力时,最小化目标函数 K(D,G),即
对于任意分布的pg和pd,二次凸函数pg(x)D2(x)-pd(x)D(x)在时取最小值,目标函数 K(D,G)取得最小值。即生成器固定时,判别器最优为D*(x)=。证毕。
另一方面,当判别器达到最优时,以最大化目标函数为目的,寻找最优生成器。将最优判别器的表达式代入目标函数,可以写为
从式(8)可以看出生成样本分布和真实样本分布的关系,最优的生成器希望目标函数取最大值,因此,可以得到定理2。
定理2当判别器达到最优时,存在最优生成器使 pg=pd,目标函数取得全局最大值。
证明
1)充分性。当 pg=pd时,D*(x)=D*(G(z))=;代入目标函数,可得。
2)必要性。当判别器达到最优时,目标函数可以写为T(G)=K(D*,G),可得
根据卡方散度的定义,将式(9)转换为卡方散度的表示形式,如式(10)所示。
其中,χ2表示卡方散度。最大化式(9)的值就等同于最大化式(10)的值,由于2 个分布之间的距离非负,当 pg和 pd的卡方距离为0 时,T(G)取最大值,即当 pg=pd时,最大,生成器学习到了真实样本的分布,网络达到最优。证毕。
因此,在判别器与生成器相互博弈过程中,以卡方散度为评价依据可以降低网络对真实样本质量的要求,有利于生成样本分布拟合真实样本分布,找到最优的生成器使生成样本逼近真实样本,直到判别器难以辨识,网络达到最优。
3.2 网络搭建
网络设计主要包括生成器和判别器2 个部分,结构如图2 所示。生成器相当于解码器,主要利用解卷积实现每一层特征图像的获取,生成最终图像。在图像生成过程中,首先输入噪声z,经过全连接将噪声转换到张量空间;然后通过3 层解卷积,每一层的输出作为下一层的输入,设置卷积核大小为5×5,步长为2×2,除最后一层卷积后使用Tanh激活外,其他网络层获取的特征都进行归一化处理后使用ReLU 函数激活;最后生成样本。
判别器相当于编码器,对生成样本进行评估,其输入为真实样本和生成样本,通过3 层卷积提取特征,设定卷积核为5×5,步长为2×2。与生成器不同,判别器中的激活函数采用Leakly ReLU 函数。第一层卷积后采用Leakly ReLU 激活函数,其他两层卷积后的特征归一化后再进行Leakly ReLU 激活;卷积后学习到的特征经过全连接输出判别概率,判别图像的真实性。
生成器、判别器对抗的目标函数基于卡方散度,生成器的目标是最小化生成样本分布和真实样本分布的卡方距离,而判别器则相反。因此网络优化的损失函数可以根据目标函数进行确定,定义为
图2 CSGAN 结构
优化过程中生成器和判别器的目标均为最小化损失函数的值。判别器判定输入真实样本的概率D(x)∈[0,1],判定生成样本的概率 D(G(z))∈[0,1]。判别器在训练过程中希望 D(G(z))尽可能小,那么可以对其进行缩小,因此判别器损失中使用D2(G(z)),而判断真实样本的概率 D(x)不变。生成器希望 D(G(z))的值尽可能大,因此在生成器优化时 D(G(z))的值不进行缩放。这样主要有以下2 个优势。1)D2(G(z))作为生成样本属于真实样本的概率,相当于对 D(G(z))自动按比例进行缩小,如果 D(G(z))较大,即判别器判定生成样本接近真实样本,缩小的比例较小;反之,生成样本和真实样本差异大,缩小的比例较大,促使判别器分辨真实样本和生成样本的能力更强。2)判别器分辨真实样本和生成样本能力强,避免了在生成样本质量较差时判别器给生成器错误的反馈;同时减少计算量,加快网络训练速度。由于自适应优化器的超参数一般不需要调整,且自动调整学习率,适用于梯度存在很大噪声的优化,因此生成器和判别器都采用RMSProp 自适应优化器,初始化优化器的学习速率为5×10-5。
训练时根据输入的真实样本优化判别器,生成器生成样本后输入判别器,判别器更新并向生成器反馈信息更新生成器,网络参数不断更新优化,实现生成器和判别器的相互对抗。
3.3 算法流程
卡方生成对抗网络算法流程如下。
迭代次数为m。
1)生成器
输入噪声z 服从分布 pz(z)
输出生成样本 G(z)
2)判别器
输入噪声z 服从分布 pz(z),真实样本x 服从
pd,生成样本 G(z)服从 pg
输出真假图像判别概率
更新生成器和判别器参数。
重复m 次1)和2),实现对抗,可视化生成样本。
4 实验与仿真
实验在深度学习框架TensorFlow 上实现。实验的硬件环境为英特尔酷睿i7 6800K 处理器,主频为3.40 GHz,英伟达GTX 1080 显卡;软件环境为Windows 10 操作系统,Anaconda3 软件下的Python3.5 平台,Cuda 9.0 和Cudnn 6.0 支撑。该配置是目前深度学习计算的主流配置之一。在仿真实验中,算法采用相同的参数配置。在CIFAR-10 和MNIST[46]数据集上验证算法的有效性。
4.1 MNSIT 验证
MNIST 是深度学习领域常见的数据集,共70 000 张大小为28 像素×28 像素的手写数字图像,有60 000 张训练图片和10 000 张测试图片,一部分来自人口普查局员工,另一部分从高中学生中收集。本次实验将标准高斯噪声作为输入,使用所有训练集图像进行训练,对比GAN、LSGAN、WGAN和CSGAN 在相同迭代次数下生成样本的质量,比较网络的性能。训练和测试过程中网络参数设置均相同,即学习率为5×10-5,批处理大小为50,最大迭代次数为30 000 次,生成样本大小为28 像素×28像素,经过不同迭代间隔,使用1 000 张测试集图像对网络进行测试。图3 展示了不同算法在不同迭代次数下生成的手写数字图像。
在不同迭代次数下可视化生成样本,图3 坐标轴外是从测试数据集中随机抽取的真实样本,坐标轴内是生成样本,横坐标为迭代次数,纵坐标为使用不同的对抗网络。图3 中可准确辨识图像用方框进行标记,从上到下依次是GAN、LSGAN、WGAN和CSGAN 的生成样本。从图3 中可以看出,迭代初期4 个网络均生成无法辨识的图像,CSGAN 在迭代2 000 次左右可以生成可辨识数字,而WGAN在迭代3 000 次左右才开始生成可辨识数字,经典GAN和LSGAN需要更多次迭代才能生成可辨识数字。本文所提CSGAN 在判别器的判别能力增强后给予生成器反馈,引入卡方散度评估生成样本分布和真实样本分布的差异,有利于增强生成器的对抗能力,可更快生成可辨识的样本。因此在相同迭代次数条件下,CSGAN 生成的可辨识数字多于其他网络,也就是说如果达到相同数量的可辨识图像,CSGAN 需要较少的迭代次数,有利于节约计算资源。
图3 在不同迭代次数下不同方法的生成样本对比
除了可视化图像外,网络中训练损失值和测试损失值的变化趋势也反映了网络的收敛情况。因此为了进一步比较网络的性能,本节分析了不同迭代次数下网络损失值的变化趋势。
理论上,GAN 在达到最优时判别器和生成器损失分别为ln4 和ln2[14];LSGAN 中网络达到最优时,判别器损失值为1.25 且生成器损失值为-0.125[36];WGAN 中网络最优时判别器的损失值为0,生成器的损失值为-0.5[34];所提CSGAN 达到最优时判别器的损失值为-0.25,生成器的损失值为-0.5。为了更直观地比较不同网络损失值的变化趋势,将GAN的判别器损失和生成器损失分别向下平移1.4和1.2个单位、LSGAN 的判别器损失向下平移1 个单位后绘图。此时如果网络收敛,GAN 判别器和生成器损失分别趋近于0 和-0.5;LSGAN 判别损失趋近于0.25。图4(a)反映了训练过程中4 个网络判别器损失值整体的变化趋势,均为先减小再增大最后趋于平缓。产生这种趋势的原因是,训练初期相比于生成器,判别器的优化能力更强;随着迭代次数的增加,生成器的优化能力逐渐提升,提高了与判别器对抗的能力;直到最后生成器和判别器都达到最优。当损失趋于平缓时,CSGAN 的判别器损失趋近于-0.3,与理论值接近,网络收敛;而WGAN的判别器损失值仍存在小幅度上升趋势,说明WGAN 没有达到完全收敛;LSGAN 和GAN 的损失值都稳定在-0.1 左右,并没有收敛到理论值0.25和0。这是由于WGAN 需要权重裁剪而导致收敛速度较慢,LSGAN 和GAN 在实际情况下受到网络优化的影响难以达到理论效果。其中,图4(a)中局部放大图反映了迭代前100 次判别器损失值的下降过程,可以直观地看出GAN 的下降趋势与其他3 种网络略有不同,判别器损失值并没有达到最小值,原因在于GAN 判别器优化的速度较慢;相比于LSGAN 和WGAN,虽然CSGAN 下降的幅度略小,但是判别器开始下降的时间较早。图4(b)和图4(c)是图4(a)中虚线框内曲线的局部放大图,图4(b)反映了判别器损失达到最小后CSGAN 的判别器损失值保持一段时间后才开始上升,这是由于训练初期CSGAN 中生成器的对抗能力较弱。但是如图4(c)所示,随着迭代次数的增加,CSGAN 判别器收敛更快,因为增强判别器的判别能力后,虽然网络训练初期生成器的性能较差,但是后期生成器的对抗能力得到有效提高,有利于生成更高质量的图像。
图4 训练时判别器损失值的变化趋势
每迭代100 次后进行网络测试,图5 展示了测试时不同网络生成器和判别器损失的变化趋势。测试和训练时判别器损失的趋势大致相似,不同的是进行100 次训练后判别器的损失下降幅度较小;GAN 和WGAN 中生成器的损失下降速度先快后慢,而CSGAN 生成器损失的下降速度先慢后快,主要是由于卡方散度计算复杂度小,CSGAN 收敛的速度较快。相比于其他网络,CSGAN 的生成器和判别器损失值在达到稳定时更加趋近于理论值,收敛性更好。
图5 测试时不同网络损失值的变化趋势
4.2 CIFAR-10
CIFAR-10[46]相比MNIST 数据集所含的信息量更大。其共有60 000 张三通道图像,图像大小是32 像素×32 像素,包括飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车10 类图像,每类6 000 张图像。汽车和卡车之间没有重叠,汽车包括轿车、SUV,卡车只包括大型卡车。其中,每10 000 张图像作为一批,五批用于训练,一批用于测试。采用CIFAR-10 中的训练集样本进行训练,采用标准高斯噪声作为生成器的输入。设置学习率为5 ×10-5,第一批处理64 张图像,迭代的最大次数为2 ×105次,生成样本大小为32 像素×32 像素,使用10 000 张测试集图像对网络进行测试。实验中分别对GAN、LSGAN、WGAN和CSGAN 在相同迭代次数下进行对比。图6 展示了真实样本和不同算法生成样本的对比效果。
图6 真实样本以及GAN、LSGAN、WGAN、CSGAN 生成图对比
图6 展示了CIFAR-10 数据库部分图像和不同网络在标准高斯噪声下的部分生成图,由于原始图像尺寸较小且分辨率较低,很难观察出不同生成样本质量的差异。为了定量评价生成样本的质量,文献[47]使用了目前主流的起始分(IS,inception score)和Fréchet 起始距离(FID,Fréchet inception distance)对不同网络生成的样本进行评估。其中,IS 值是通过网络InceptionNet 在ImageNet 数据库上进行预训练计算得到的,值越高表示图像的不确定度越低,图像的生成质量越好;FID 表示真实样本和生成样本在特征空间上的距离,值越低表示生成样本越接近真实样本。
为了探究所提出网络的性能,在CIFAR-10 上比较不同输入噪声对网络稳健性和生成样本质量的影响。实验主要探究离散型的泊松分布 z~ P(1)和连续型的正态分布 z~ N(0,0.1)、标准高斯分布z~N(0,1)、均匀分布 z~ U(0,1)、伽马分布z~Ga(0,1)、截断高斯分布下的噪声。
LSGAN 的参数设置参考文献[42]。在不同噪声下分别训练网络并测试,从生成样本中随机抽取1 000 张,从迭代停止前30 000 次开始每隔1 000 次计算IS 值,获取最大值并求取平均值。表1 展示了不同噪声下各网络生成样本质量的评价指标。从整体来看,IS 平均值和最大值具有一致性,相同噪声条件下,所提CSGAN 生成样本的IS 值普遍高于经典GAN、LSGAN 和WGAN,这是由于CSGAN 生成样本的质量优于其他网络。在不同噪声下,GAN和WGAN 在均匀噪声下效果较好,IS 均值分别达到5.14 和5.47;LSGAN 在标准高斯分布的噪声下IS 均值较高,为5.17;CSGAN 在服从任意分布的输入噪声下,评估生成样本得到的IS 均值在5.40 左右,最高均值达到5.53。这是由于卡方散度具有稀疏不变性,会忽略真实样本中可能存在一些质量较差或不服从整体分布的独立样本,避免生成一些质量较差的独立样本,从而提高生成样本的整体质量。同一方法中最大IS 均值和最小值的差定义为IS 波动值,波动值越小说明生成样本质量越稳定。4 种网络的IS 波动值分别为1.45、0.26、0.36 和0.16,CSGAN 的IS 波动值小于其他网络,原因是卡方散度具有量化敏感性,有利于减小不同噪声对生成样本分布的影响,因此网络受输入噪声的影响较小,稳健性较强。
表1 CIFAR-10 不同噪声分布下各网络生成样本的IS 值
为了进一步探究训练过程中生成样本质量的变化情况及不同网络的优化情况,在不同迭代次数下进行实验。表2 反映了不同噪声下生成样本IS 值随迭代次数的变化情况。每迭代1 000 次后对生成样本进行测试,每隔10 000 次计算一次平均IS 值。从表2 中可以直观地看出,在同一迭代范围内,同一网络在不同输入噪声下生成样本的质量有一定的差异,不同网络在相同噪声下的生成质量也不相同;训练后期,由于GAN 优化过程中梯度消失,在伽马分布、泊松分布、截断高斯分布、正态分布这4 种噪声下出现网络崩塌问题,对噪声的稳健性差;CSGAN在训练中期生成样本的质量开始优于3 种对比网络,并在后期一直保持优势。其原因是判别器判别真假的能力增强后给予生成器反馈,在训练中期促进生成器增强对抗能力,更有利于生成更高质量的样本。
为了进一步验证网络在不同噪声下的性能,从测试样本中抽取1 000 张图像作为标准数据集,随机抽取128 张生成样本计算FID 值。图7 显示了不同网络在不同噪声下生成样本的FID 值。由于伽马噪声和正态分布噪声对生成样本质量的影响较大,不同网络在这2 种噪声下的FID 出现峰值。不同噪声下由于卡方散度具有量化敏感性和稀疏不变性,CSGAN 生成样本的FID 普遍较小,最大值和最小值分别为186 和175,波动范围小,这进一步说明了CSGAN 有利于提高生成样本的质量且对噪声的稳健性较强。
图7 不同噪声下生成样本的FID 值
5 结束语
针对生成对抗网络在不同噪声下的稳健性及生成样本质量差异明显的问题,本文提出了一种噪声稳健性的卡方生成对抗网络。引入卡方散度判别真实样本分布和生成样本分布的距离,减小输入噪声对网络的影响并增强网络稳定性;搭建卡方生成对抗网络,构建全局优化目标函数,促进生成器生成更加逼真的图像。研究表明,不同网络在不同噪声下的稳健性不同,基于卡方散度的CSGAN 能够生成更高质量的样本,具有较强的稳健性。未来的工作重心是提高网络效率,降低计算损耗,并将该网络扩展用于检测、预测等更多实际应用领域。