生成式对抗网络理论模型和应用综述

2018-10-19张红蕊

西部论丛 2018年11期

张红蕊

摘要：生成式對抗网络GAN（Generative Adversarial Networks）源于二人零和博弈理论，即一方所得是另一方的损失，两人利益之和为零，它结合机器学习中的生成模型和判别模型的思想，演化成网络模型中的生成器和判别器，两者采用对抗学习的方式，目的是估测样本的潜在分布并根据真实的数据样本生成可以仿真的虚假样本。在图像处理与视觉计算、语音识别、视频处理等方面，GAN正在被广泛研究并且具有极大的发展趋势。本文主要概括了GAN的理论模型和基本原理、演变模型以及主要应用，最后进行总结展望。

关键词：深度学习生成式对抗网络对抗学习

1. GAN模型

1.1 GAN基本原理

生成式对抗网络GAN[1]是2014年由Goodfellow等提出的一种新型神经网络模型，思想起源于二人零和博弈理论，即纳什均衡思想。GAN网络模型由生成器和判别器共同构成，两者采用对抗学习的方式训练，生成器用于捕捉真实数据样本的概率分布，并生成新的样本；判别器可以看作是一个二分类器，用于判断数据是来自真实样本还是生成样本，并输出一个0到1的固定概率值。

1.2 GAN网络结构

GAN核心思想是极大极小二人博弈游戏，网络结构如图1-1所示，将100维随机噪声z输入生成模型G中，生成器内部经过多层感知器或是复杂的神经网络生成新的样本，将真实数据和生成数据输入判别模型D，判别器用于输出样本的概率值，并将梯度信息反馈给生成模型G。训练过程中，G的目标是尽可能生成可以欺骗判别器D的样本，而判别器的目标是尽可能分辨数据样本的真假性，最终达到平衡。

在这一过程中，判别器为更好的区分生成数据与真实数据，并将二者输出的概率值尽可能二分化，固定一方权重以训练另一方，得到最优判别器公式如公式1-1所示，当，时，此时最优。

2. GAN演变模型

GAN衍生模型在创新发展原始GAN基础上提出新的想法，CGAN[2] 加入条件因素；LAPGAN[3]将生成器与判别器定义为Laplacian Pyramids框架内的级联卷积网；DCGAN[4] 将生成器和判别器用深度神经网络来代替多层感知器；WGAN[5] 将JS散度提出用Wasserstein距离代替；CycleGAN[6] 双向GAN机制能够生成双向域中图像。随着GAN技术的不断成熟和发展，更多的演变模型在这些模型的基础架构上加以优化。

3. GAN模型应用

GAN作为深度学习领域的新星，在许多领域都具有较多的研究成果，本节主要从以下五方面阐述。

3.1 超分辨率图像复原

超分辨率图像复原思路是将的低分辨率的图像作为基准，生成真实可观的或是等更大分辨率图像。SRGAN[7]基于GAN的改进，采用VGG19作为判别器的网络结构，生成器由深度残差网构成，同时在模型后部加入了子像素模块，在提高分辨率的同时优化了对人类感知更敏感的损失。

3.2图像风格迁移

图像风格迁移思想是存在一张内容图，一张风格图，目标将的风格作用在图上，生成新的图像。文献[8]实现成对数据集上的风格转换，双向GAN机制CycleGAN实现不成对数据的图像翻译工作，实现照片风格、马到斑马的转换，而DualGAN、DiscoGAN也在双向GAN机制的作用下实现风格转换任务。

3.3 视频、音频生成

在处理静止图像任务的同时，GAN在视频动态画面和音频生成上取得良好效果，VGAN[9]利用一些未标记的视频素材训练模型解决识别问题和视频生成任务，同时模型学习到的特征可以用来进行图片分类；C-RNN-GAN[10]利用GAN和循环神经网络的结合生成古典音乐，在处理时序相关的自然语言同时生成听觉良好的音乐。

3.4 语音识别

将GAN目标来实现鲁棒性的语音识别系统，文献[11]使用GAN网络架构，以可扩展、端到端的方式提高序列到序列模型的鲁棒性，编码器组件搭建生成器，训练以输出噪声音频样本和干净音频样本之间不可分辨的嵌入，这种新型的对抗学习方式在语音识别系统中表现出极强的应变能力和可行性。

3.5 其他应用

在无监督或半监督学习领域中，GAN逐渐应用到各种领域中。文献[12]提出文字到图像的转换，准确输出图像对于文字的正确表达；DCGAN实现了表情模型的矢量运算，可对表情信息进行加减操作；WaterGAN实现了水下图像的实时色彩矫正；Patch GAN完美的完成图像上色任务；SeqGAN在自然语言处理领域取得良好的效果；TP-GAN完成人像修复，通过单一侧面照片合成正面照片。

4. 总结与展望

本文综述了生成式对抗网络GAN的基本原理、网络结构、模型演变以及应用拓展。概述GAN在图像合成、图片修补、超分辨率、图片上色，以及语音识别、视频生成、自然语言处理等方面应用。由于GAN结构不适用于离散型结构的样本，预期在未来工作中可以得到较完善的解决。

参考文献：

[1] Goodfellow I J， Pouget-Abadie J， Mirza M， et al. Generative Adversarial Networks[J]. Advances in Neural Information Processing Systems， 2014， 3：2672-2680.

[2] Mirza M， Osindero S. Conditional Generative Adversarial Nets[J]. Computer Science， 2014：2672-2680.

[3] Fergus R， Fergus R， Fergus R， et al. Deep generative image models using a Laplacian pyramid of adversarial networks[C]// International Conference on Neural Information Processing Systems. MIT Press， 2015：1486-1494.

[4] Radford A， Metz L， Chintala S. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks[J]. Computer Science， 2015.

[5] Arjovsky M， Chintala S， Bottou L. Wasserstein GAN[J]. 2017.

[6] Li M， Huang H， Ma L， et al. Unsupervised Image-to-Image Translation with Stacked Cycle-Consistent Adversarial Networks[J]. 2018.

[7] Ledig C， Theis L， Huszar F， et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network[J]. 2016：105-114.

[8] Isola P， Zhu J Y， Zhou T， et al. Image-to-Image Translation with Conditional Adversarial Networks[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society， 2017：5967-5976.

[9] Vondrick C， Pirsiavash H， Torralba A. Generating Videos with Scene Dynamics[J]. 2016.

[10] Mogren O. C-RNN-GAN： Continuous recurrent neural networks with adversarial training[J]. 2016.

[11] Sriram A， Jun H， Gaur Y， et al. Robust Speech Recognition Using Generative Adversarial Networks[J]. 2017.

[12] Reed S， Akata Z， Yan X， et al. Generative adversarial text to image synthesis[C]//Proceedings of The 33rd International Conference on Machine Learning. 2016， 3.