APP下载

基于生成对抗网络自动生成动漫人物形象的研究

2018-02-28黄真赟陈家琦

电子技术与软件工程 2018年23期
关键词:卷积神经网络

黄真赟 陈家琦

摘要

在這篇文章当中,我们创新性的提出了一种对杭生成架构,可以将真实世界的图片进行图像风格的迁移,这是计算机视觉领域非常激动人心的问题。以往对于风格迁移的探索大多为对卷积神经网络中风格与内容信息的分离重组,而我们的工作则直接用生成对抗网络进行迁移。相较于传统方法使用成对的样本进行训练,我们的方法训练起来更加容易.本文的贡献点如下:(1)在GAN的框架下,统一了内容与风格的对抗损失函数。(2)针对特定的绘画风格,进行了不同损失函数的微调,以生成更加符合迁移风格的图像。

【关键词】生成对杭网络 图像风格迁移 卷积神经网络

1 介绍

随着电影《挚爱梵高》的上映,如何将真实场景的图像变为艺术化的图片,又变成了一个令人关注的问题。和很多艺术形式相同,许多漫画的形象都是基于真实世界的场景制作的,如图1电影龙猫中这栋房子的图画。为了获得高质量的漫画,艺术家必须花费大量的时间与精力重绘这些场景。如何帮助艺术家快速地创造大量的艺术作品,是我们一直关心的问题。

在这篇文章当中,我们将GAN与图像迁移任务进行了有机的结合,提出了用于特定风格图像的STG(Style Transfer GAN)结构,并且设计了新颖的损失函数,以实现更佳的生成效果,主要贡献为:

(1)我们提出了一种新颖的STG结构,可以学习真实图片到动漫图片的映射。所生成的效果,达到了目前的最佳效果。

(2)我们从网上采集了大量艺术家的作品,以作为我们训练网络的材料。与传统方法所不同的是,我们并不需要成对的训练样本,这大大降低了训练的难度与实现的成本

(3)我们设计了针对特定风格的对抗损失函数,以衡量图像风格与内容,并且对于风格的细微差异,进行了微调。

2 相关工作

对于图像的风格迁移,传统方法多为利用滤波与数学的方法,进行细节的捕捉,但因图像风格的千变万化,采用简单的滤波设计,并不能够取得很好的效果。随着神经网络的发展,Gayts等人创新性的提出了一种基于VGG网络的神经样式迁移方法,取得了视觉上十分不错的效果。DCGAN等模型的提出,也是我们看到了利用生成对抗网络结构生成风格画作的可能性。

3 STG结构

通常,GAN结构包含两部分,即判别器与生成器。生成器将随机分布映射到目标域,生成与真实数据尽可能接近的数据分布。而判别器则尽力将生成器生成的数据与真实数据区别开来。最后达到纳什均衡即判别器无法正确分辨数据是来自于生成器生成还是真实样本。我们的STG结构,是一种GAN框架下的风格迁移网络,其定义如下。

首先,判别器将随机生成的SS={pi|i=1…N}映射到SS={pi|i=1…N},而判别器则需要尽力将SS={pi|i=1…N}与SC={pi|i=1…M}分别开来。N与M分别代表的是目标图像的数量与风格训练数据的数量。ζ代表损失函数,类似于标准的GAN训练过程,我们的目标是解决一个极小极大问题。

(G*,D*)=argminmaxxζ(G,D)

在生成器当中,我们采用了瓶颈层的设计,类似于一个编码器与解码器的结构,编码器用于提取图片的全局信息,而解码器则用于将特定的风格进行融合。整体的网络架构类似于FCN,如图2所示。

而判别器的网络则相对而言比较简单,因为我们需要的是对图片全局的判断,因此只使用了类AlexNet的网络架构进行分类。如图3所示。

3.1 损失函数

损失函数包含两部分,即对抗损失部分以及内容损失部分。对抗损失部分保证来自源图片域的分布可以映射至风格域,而内容损失函数则保证生成的过程当中,图片所代表的内容风格保持一致。

ζ(G,D)=wζadv(G,D)+ζcon(G,D)

其中w用来平衡两个损失。在我们的实验当中,w取值为5时,取得了最佳的效果。

3.2 时杭损失

与传统的gan结构类似,对抗损失为一组极大与极小对抗,生成器与判别器所需要优化的目标恰好相反。在我们的假设当中,对抗的损失的表达式如下:

3.3 内容损失

为了使得在生成的过程中图片的风格保持尽可能的一致,我们还需要内容损失函数的约束。在STG结构当中,内容损失函数被定义成为VGG预训练模型特定层输出的L2差值,与传统NST当中的定义相同,我们将内容损失函数定义如下:

VGG特征层的选取极有技巧性,关于这方面详细的结果,我们将会在实验部分详细表述。

4 训练过程

我们使用mxnet实现了STG结构,所有的相关实验都在NVIDIA1080tiGPU上进行。

不同的艺术家有不同的艺术风格,而他们的艺术风格则很容易由艺术画作与视频当中得到,因为我们方法的第一步即从动画视频当中采集相关的训练数据,这一部分将在4.1中提到。在4.2节中,我们展现了STG风格迁移的一些成果,而在4.3节中,我们对比了我们不同组件之间的作用。

4.1 数据

用于我们训练的数据为网络上采集的大量漫画电影的截图,这样获取数据的手段无疑是非常廉价的,也使得我们的应用推广变得更加容易。所有的照片最后都被重新调整大小为224*224。在这篇文章当中,用于训练的截图均来自于《灌篮高手》,而用于迁移的图像则自于现实生活当中篮球比赛的图像

4.2 STC结果

我们生成了大量风格迁移的结果,可以看到,结果是十分令人满意的。除此之外,因为使用了相对而言较为轻量的网络,因此我们可以在一秒钟之内,完成约100张内容的迁移,对比传统方法的速度,有非常明显的提升。如图4所示。

4.3 损失函数所扮演的作用

如图5所示,我们对比了很多种损失函数的设定,包括是否引入内容损失函数,以及内容损失函数设定在第几层,以L1约束还是以L2进行约束,通过大量实验对比,我们的得出了在3节当中提到的结构设定方式。

5 结论

在这篇文章当中,我们提出了一种新颖的STG结构,以解决特定风格图片的迁移问题。我们沿袭了GAN框架,采用对抗损失与内容损失加权的形式监督训练过程。采集了大量用于训练的风格样本,最后实现了非常不错的效果,相信对图像风格迁移研究将会有大幅的促进。

参考文献

[1]L.Gatys,A.Ecker,and M.Bethge.Image style transfer usingconvolutional neural networks.In IEEE Conference on ComputerVision and Pattern Recognition(CVPR),2016,2414-2423.

[2]H.Winnemo"ller,S.C.Olsen,and B.Gooch.Real-time videoabstraction. ACM Transactions onGraphics,2006,25(3):1221-1226.

[3]L.Xu,C.Lu,Y.Xu,and J.Jia.Image smoothing via LO gradientminimization. ACM Transactions onGraphics,2011,30(6):174.

猜你喜欢

卷积神经网络
卷积神经网络语言模型研究
基于卷积神经网络温室智能大棚监控系统的研究
基于深度卷积神经网络的物体识别算法