一种基于渐进增长对抗生成网络的火星样本生成方法

2022-01-21李华伟李晓维

空间控制技术与应用 2021年6期

代磊，王颖，李华伟*，李晓维

1.中国科学院计算技术研究所，北京 100190

2.中国科学院大学，北京 100049

0 引言

火星行星探测中探测器自主实现避障、路径规划和环境检测等关键功能越来越多利用深度学习作为可能的技术路径[1-2].深度学习模型的效果极大程度取决于训练数据，而训练出优秀的模型更需要大量的数据.然而，探测地外环境的难度导致难以获得足够数量的样本用于各类模型的训练和测试.为满足各种模型的训练需求，需要探索依靠增强少量样本来生成更多的样本用于其它模型的训练.通过对抗生成网络GAN[3](generative adversarial network)来获得更多样本是解决训练样本不足的问题的一个非常有效的技术路线，将一定数量的地外行星样本输入GAN训练得到专用生成器，该生成器即可生成更多的样本用于其他网络的训练.

GAN通过生成网络和判别网络的相互对抗训练最终达到均衡状态，得到一个能够生成样本的生成器和能判别样本真伪的判别器.对抗生成网络在样本生成领域潜力巨大[4-8]，但是它仍然存在难以训练、模式坍塌和梯度消失等问题.近年来，有相当多的GAN网络研究工作在改善生成效果方面取得进展.最小平方差GAN首先改进交叉熵损失函数为最小平方差函数，一定程度缓解梯度消失问题[9]；WGAN从JS散度和KL散度的角度指出原始目标函数的优化目标存在自我矛盾，因而提出了基于Wasserstein距离的目标函数[10]；WGAN-GP则进一步引入梯度惩罚等策略替代WGAN中的梯度裁断进一步提升了训练效果[11]；而CGAN和InfoGAN致力于能够使用输入信息影响输出样本，分别提出将控制向量连接输入噪声一起输入网络控制输出及使用互信息作为额外损失函数使得输入能够控制输出[12-13]；StackedGAN和StackGAN先后以不同的方式引入了分层分阶段训练的方式，StackedGAN将多级同构网络串联逐步训练并引入熵损失、条件损失等损失函数[14]，而StackGAN分2阶段由文本逐步生成清晰图像[15].然而以上工作能够生成的图像分辨率普遍较低，在以上发展的基础上，提出了渐进增长对抗生成网络PGGAN[16](progressive growing GAN).

PGGAN通过逐级提升输出分辨率分阶段训练的的方式稳定训练，并引入平滑过渡、像素归一化等方式进一步提升训练效果，在人脸生成等任务中取得良好的效果，也已被用作多种网络的基础.然而，将PGGAN直接适用于火星样本生成任务，仍存在一些问题，包括生成的样本特征是多种地表特征的平均而导致特征不明显，以及只能生成较少几种简单特征类别的样本，存在模式崩塌问题.

本工作结合实验分析了将PGGAN适用于火星样本生成产生以上问题的原因，包括火星样本特征噪声较强区别于其它图像，输入数据区分度不足且数量受限，以及层级训练的方式导致网络后部层的输入缺少足够特征等.根据以上分析，本工作提出了一种基于PGGAN的火星样本生成方法，相较于直接将PGGAN用作火星样本生成的基线方法，生成样本能够包含更大规模及更多种类的特征.

在分析将PGGAN适用于地外行星样本生成任务的优势、约束及存在的问题的基础上，该方法首先从数据角度进行优化，通过聚类得到伪标签增强类别约束，以及开发样本的尺度相似性与渐进增长递进网络相适应的特性用于增加样本稳定训练的方法；此外，从优化模型角度，该方法在分析认为问题来源于输入信息过于平滑导致难以生成清晰多样的样本的基础上，通过在中间层网络层添加带有可训练网络参数的噪声扰动，提升生成效果.

1 渐进增长对抗生成网络

PGGAN目前已经是很多有效的GAN研究工作的基础[17-18]，其结构和训练过程如图1所示，纵轴方向为训练进程，对应横轴的每一对网络为该阶段对应的网络结构.由图1可以看出从低分辨率图像开始，然后通过向网络中添加层来逐步提高分辨率.这种网络增长的训练过程可以首先发现较大尺度上的少量特征，再逐步进入到更精细的特征的学习，逐步学习各个尺度的特征.此外，逐步训练的过程还可避免全部层一起训练情况下前部的层由于梯度消失问题难以训练.实际操作过程中，渐进增长对抗生成网络引进了包括在分辨率时平滑过渡、均衡学习率和小批量标准差等技术用于提升训练效果.

图1 渐进增长对抗生成网络结构示意图Fig.1 Architecture of progressive growing GAN

本工作将渐进增长递进网络作为本工作生成地外火星样本的基础网络架构.然而地外火星样本生成过程中仍然面临着一些特别的限制，导致以上网络架构直接应用无法取得良好效果，包括：

1)地外行星样本来源有限，且已有的数据集合是无标注的原始数据集合；

2)地外行星样本环境图像噪声较为强烈，和现有任务中人脸图像等较平滑噪声较弱图像存在特征区别；

3)PGGAN网络存在对类别约束的需求以提升生成样本多样性，原始方法输入为精确标签的样本，而火星地表样本之间相似度高，且样本内容混杂，难以人工精确分类.

因为以上约束，导致直接将PGGAN应用于火星样本生成任务难以取得良好效果.本工作首先进行了初步实验直接应用PGGAN生成火星样本，实验结果表明，生成的样本存在两大问题：1)生成样本特征不足，只能生成简单的均匀的特征；2)能够生成的特征类别较少，存在模式崩塌等问题.实验章节基线方法生成样本部分展示的样本图片显示了以上问题.

进一步分析问题的原因，提出以上问题的来源包括火星样本图像噪声较强、输入数据缺乏区分度、训练数据数量受限、以及网络的输入特征图经多层训练后的网络处理后在输入后层网络时会变得过度平滑，以上各个原因将在下文结合功能模块进行分析.

针对以上问题及原因，从改进数据和改善模型两个角度来优化生成效果，基于渐进对抗生成网络，提出了一种聚类-训练-生成协同的火星样本生成方法.

2 火星样本生成方法

根据以上分析，从改进数据和改善模型2个角度来解决问题.

从数据角度，着力于发掘不同图像之间的区分度，并将区分度信息输入至网络进行训练过程的约束，使得网络能够更好区分不同图像.在此基础上，发掘了火星样本的独特尺度相似性并指出该相似性与逐步提升分辨率的训练方式相适应，基于此特点，增加了网络低分辨率部分的训练样本数量.

从网络模型角度，针对后层网络输入特征图因多级训练过于平滑的问题，为中间层的网络增加噪声扰动增加网络多样性的来源，缓解了上述问题.

方法总体框架由增强数据和优化网络结构2个主要部分，共包括1个输入模块和4个功能模块，如图2所示.

图2 火星样本生成方法框架图Fig.2 Framework of Mars sample generation method

方法主要包括以下步骤：

第1步，模块0输入无标签的火星样本；

第2步，模块1根据火星样本的特点进行图像特征提取及聚类后加伪标签；

第3步，模块2将加上伪标签之后的样本处理为多分辨率样本，同时对低分辨部分样本做增广；

第4步，模块3在得到增广后带有伪标签的数据集之后，数据集输入改进后的渐进增长对抗生成网络进行训练；

最后，模块4中提取出模块3中训练好的生成器，输入控制向量即可得到新的样本.

2.1 聚类生成伪标签模块

聚类生成伪标签模块对应图2中的模块1，从损失函数对网络训练造成的影响及数据特征的角度分析引入该模块的原因如下：

她是大老爷贾赦的填房，地位介于妻和妾之间。娶填房向来不如原配讲究，因此，小户人家出身的邢夫人得以乌鸦变凤凰，一举攀了贾府的高枝儿。

渐进增长对抗生成网络判别器的损失函数由2部分组成，如式1所示：

Loss=LossWGAN-GP+lw×LossLabel

(1)

Loss为判别器的总的损失函数；LossWGAN-GP指WGAN-GP损失函数；LossLabel为标签损失函数；lw为标签损失的权重，默认情况为1.以上损失函数中，WGAN-GP损失函数主要用于判断样本真伪，且可以一定程度上解决梯度消失问题.标签损失进一步给网络施加生成更多种类的样本的约束，缺少标签损失函数部分导致网络缺少一项约束，更容易产生模式坍塌的问题.

而已有的火星样本数据集并无标签，且由于地形的复杂的混杂特性，即使使用人工按照地形分类仍难以保证其分类的精确度.考虑到网络的标签损失是辅助约束，具有相当的容错特性，本工作根据火星样本的特性提出了特征提取再聚类的方式来给样本生成伪标签的方案，伪标签只需要将差异很大的样本类型区分开，而不需要将样本精确分类.考虑到伪标签的准确性不如真实标签，在确定网络的损失函数时降低了lw的值.

此外，由于火星样本之间差异主要存在于地形和特征粗糙程度，而且地表样本的粗糙特征类似于噪声会影响聚类的准确性，考虑到聚类的分类维度主要应该是在地形层面，本工作在聚类之前将样本进行模糊化，减小细粒度噪声对聚类造成的影响.

该模块工作流程为首先从原始样本提取出特征图用于聚类，聚类得到的标签会标记到原始图像，并在生成多尺度样本过程中伴随在生成的图像中.特征提取及聚类的实现采用残差网络结构提取特征后进行小批量聚类的方式.

2.2 尺度一致样本增广

尺度一致样本增广模块的设计考虑了2个相互适应的影响因素.1)火星样本存在尺度相似性，即由于火星样本的内容是由大小不同的岩石、石块和沙砾等组成，将原始图像截取之后和全局图像具有很高的相似性，如图3所示.2)渐进增长对抗生成网络由于其逐步增加分辨率的训练特性，在前面层的训练过程中主要学习较为粗粒度的特征信息，在这些层中并不需要包含大量细节信息的高分辨率样本.

图3 火星样本尺度一致性实例图像Fig.3 Similarity between different scales of a Mars image

综合考虑以上2点，本工作提出将原始样本中特征明显但比较较小样本进行适当截取之后再进行下采样，得到更多的低分辨框架图像.相应地，在训练过程中增加了对应网络层的训练迭代次数以充分利用增加的样本.相应地，减小了后续中间位置层的迭代次数以免前部所有层训练太好影响后部层的训练优化空间.

2.3 网络结构优化

在使用直接将PGGAN应用于火星样本生成的初步实验中，发现生成样本的主要内容都是简单的沙土小石块图像，而难以生成岩石等更多种类的细节.

分析网络训练的各个阶段的样本特征，发现训练过程存在以下现象：在逐步提升分辨率进行训练的过程中，较大尺度的特征在低分辨率阶段占比较大，而随着网络层级增加，大尺度的特征所占比例逐步变小，最终图像中的地形变得平坦.图4展示了原始PGGAN网络直接用于火星样本生成的任务时，生成器在相同输入不同的训练阶段的输出样例.从图中可以看出，前部阶段样本图像中与背景色不同的深色色块占比相对较大，如阶段1～3所示；而随着分辨率随着训练阶段增长，和主体背景不同的色块逐渐减少，直到最后生成缺乏大尺度特征的均匀样本，如阶段6～8所示.

图4 基线方法相同输入生成效果随训练阶段递增变化示意图Fig.4 Generated samples vary with the training stages from one input of baseline method

本工作通过分析认为，由于逐层级递进的训练方式，只在输入位置输入的控制信息，经过若干层经过一定程度训练的网络，后部层的输入已经变得相当平滑.在过于平滑的特征图上，生成包含更多细节的样本的难度变得更高.据此，网络结构的优化除了包括上面提到的因伪标签降低标签损失所占权重、调整前面层的训练次数之外，本工作采取方案为：如图2中模块3中生成器部分所示，本工作在生成器中间各层的输入特征图上加上一定的随机噪声的扰动，这些的随机噪声可以作为生成更细节特征的信息来源.此外，随机噪声的比例难以人工确定，因而在将噪声叠加到原始网络的特征图上之前，为每个噪声加上一个可以学习的比例参数，用于控制噪声的比例.

3 验证情况

基于Keras和Scikit-learn实现了样本聚类模块，在开源的PGGAN的基础上增加本工作的方法实现了新的网络结构，数据集采用了来自于NASA的火星地表样本数据集合[19-22].

实验硬件环境为20核x86 CPU+4×1080Ti GPU硬件环境，采用的深度学习框架为tensorflow-1.2+cuda-9.0软件环境，操作系统为linux14.04.

聚类模块的具体实现在探索了原始图像和多种深度神经网络结构用于特征提取后，最终采用了InceptionResNet结构提取特征，小批量K均值聚类方案实现聚类[23].

3.1 生成样本图分析

如图5所示，本工作对真实样本、原始PGGAN网络生成的样本和本工作方法生成的样本中各自采样有代表性的样本进行对比.由效果图可以看出，无优化PGGAN网络只能生成较为平坦、互相之间相似度较高、缺乏大尺度细节的沙地、小碎石地和土质地表等.

图5 生成效果对比图Fig.5 Sample comparison of different methods

相较而言，本工作的方法能够在生成沙地、零散碎石地和土质地形等基本地形样本之外，还能够生成有较大尺度特征的大石块突起地形、层叠状岩层、岩块和碎石坡地等地形样本.

但与真实样本做比较时，本方法生成的样本仍有差距，主要表现在图像内容边缘线条多为弧线，不如原图中棱角分明.

3.2 网络收敛性分析

图6展示了网络训练惩罚曲线.网络训练惩罚曲线是判别器最新迭代的惩罚与之前的惩罚加权求和得到的更平滑的惩罚函数.由图分析可知，本文方法和原始网络一致都能达到收敛，最终本文方法的稳定性在后期训练中存在一定优势.二者都还存在的问题是收敛后如继续训练惩罚曲线都存在变差的趋势.

图6 网络训练惩罚曲线 (蓝线:原始网络，红线:本工作方法)Fig.6 Network training penalty graph (Blue:baseline,Red:our method)

3.3 生成样本量化评分对比

表1对比了本工作的方法和原始网络在收敛后所生成样本的2个样本效果评估指标得分，分别是FID(frechet inception distance)指标和SWD(sliced wasserstein distance)指标.FID指标使用残差网络图像分类模型计算得到的图像特征并统计测量统计量的相似度；而SWD指标则抽样计算样本集合之间的Wasserstein距离.二者都是分数越低越接近真实、从而代表图像质量及样本多样性越好.表中可以看出本工作的方法比原始网络在2项指标均有改善.