图像风格迁移技术研究

2022-04-29王茜

吕梁学院学报 2022年2期

王茜

(山西金融职业学院信息技术系，山西太原 030008)

0 引言

图像风格迁移是将一幅图像的内容与另一幅图像的风格相结合，合成出新的图像.即：将图像A的内容和图像B的风格进行融合，摒弃A的风格和B的内容，生成新的图像C.这个最新生成的图像C既体现出图像A的特征，又涵盖了图像B的内容[1].因此，需要处理好图像风格迁移技术存在的几个问题：其一，怎样在不掺杂内容特征的情况下提取出图像文理特征；其二，怎样在不掺杂纹理特征的情况下提取出图像内容特征；其三，如何使图像内容特征与图像文理特征有机结合在一起构成一个全新的目标图像.2015年以前，手动建模使提取图像文理特征主要采用的方式，然而手动建模时为了避免数据失真，则需要由经验比较丰富的人进行操作并利用复杂的公式进行验算.

然而在创建模型的过程中通常会受到风格化场景的影响，倘若场景发生改变，则需要对图像的纹理特征进行重新规划.采用传统手工的方式提取图像的纹理特征则需要消耗大量的人工成本，进而对图像分割迁移领域的发展形成了阻碍.2015年后，在提取图像纹理特征时，采用卷积神经网络的实用性较强，且成效十分显著，与此同时，采用卷积神经网络提取出来的内容和图像风格提取出来的内容相吻合，因此该技术很快便在图像风格迁移领域被大范围使用.随着科学力量越来越强大，风格迁移的影响越来越大，它具有很大的商业前景[1].

1 图像风格迁移技术概述

图像艺术种类繁多，在风格方面具有多样化的特征，其中包括：立体主义、现代主义、表现主义、中国风、印象派、超现实主义等，在艺术领域没有标准的定义，也不能用函数来准确表达.然而，计算机视觉领域的重点是解决具有强烈图像风格的风格迁移问题[2].此时，图像的风格与图像的纹理差不多，但是相比较于图像风格来讲，判断图像纹理特征的难度会低一些.在神经网络出现之前，图像风格迁移的一般框架是：第一，通过人工的方式，对图像的风格展开分析；第二，搭建统计或数学模型；第三，对目标图像进行调整使之与模型相对应；第四，把图像风格迁移问题转化成模型应用与数学建模的问题.手动建模遵循的思路是：图像的纹理可通过具备局部特征的统计模型呈现出来，举个例子，栗子开口的地方相当于两条弧线相交在一起.所以，研究者们在对计算机视觉领域的图像风格展开研究时，通常会采用人工统计这种方式，对复杂的模型进行整理和归纳，进而生成图像的纹理，开启了传统图像风格迁移领域的研究历程.与传统计算机视觉任务相类似的是，人工建模能够保障数据的准确性，但是需要消耗大量的人力成本和时间成本.神经网络诞生后，打破了时间和空间方面的局限性，能够使建模更加高效，然而相对于人工建模来讲，在数据的精准度方面，神经网络建模的精准度相对差一些.采用神经网络观察图像时，需要把图像划分成多个小部分进行提取，无法自行弥补自身存在的缺陷.在图像风格迁移领域，VGG-19卷积神经网络的实用性最强，最先被应用于物体识别领域.对比经典卷积神经网络来讲，VGG-19卷积神经网络能够逐层提取更抽象、更复杂的特征，直到识别出目标为止[3，4].

受卷积神经网络(CNN)的启发，Gatys等首先研究了如何使用CNN可以重现自然的著名绘画风格图片.他们建议将照片的内容建模为来自预先训练的CNN的特征响应，以及其他将艺术品样式建模为摘要特征统计[5].他们的实验结果表明CNN能够从网络中提取内容信息来自知名艺术品的任意照片和风格信息.基于这一发现，Gatys等人建议利用CNN功能激活进行重组给定照片的内容和著名艺术品的风格.如图1所示，显示传递中国画风格的例子.Gatys等人的工作开辟了这个崭新的领域.

图1 Gatys实现的风格迁移

Gatys等人的工作引起了许多人的关注.后来的科学家们在gatys的基础上又进行了大量的研究工作，主要包括基于模型和图像两个方面.其中，根据图像风格获取的方式不同可以分为三大类，分别是最大平均值均值的差异化，基于马尔科夫，基于深度图像类比的方法[6].而模型方面可以归结为基于生成模型和基于图像的解释器方法.

2 传统的风格迁移

VGGNet被设计的目的是用来输入图像，输出图像的种类.如图2所示，图像风格迁移使用vggNet是反过来用的.VGGNet输入特征输出对应这种特征的图像.

图2 图像风格迁移和图像提取特征的对比

原始的风格迁移就是利用VGG-19卷积神经网络挑选出的中间层特征经过Gram矩阵等计算出总体损失函数，根据总体损失进行梯度下降还原出对应的原始图像.风格迁移需要三张图片，内容图片，风格图片，和生成图片.内容图像就是要进行风格迁移的原始图，在最后生成的结果图中会有内容图片的内容.风格图片是选取的一张具有明显风格的图片，在最后的结果图中内容图片的风格是和风格图片一致的.通俗来讲就是保留内容图的内容去掉内容图的风格和保留风格图的风格去掉风格图的内容融合成一张图片.生成图片由程序自动进行随机初始化，是一张白噪图.随后依次把三张图放入上文提到过的VGG-19卷积神经网络.VGG-19卷积神经网络是前辈们已经训练好的网络，从中得到我们感兴趣的中间层的特征[7].

3 改进的图像风格迁移

本文在图像风格迁移过程进行了一些优化.使用Instance Norm替代了Batch Norm.使用先放大再缩小的卷积方式替代了普通的反卷积，并且对卷积层和残差中的卷积层进行了一些参数上的优化[8].在损失函数方面，调整了使用的Stylelayers层数和Contentweight、Styleweight权重大小来达到更好的效果.并且针对人们希望保留原始图像颜色特征的需求，在FNS(Family Networking Services)的基础上衍生出了亮度迁移网络.使得生成图像保留原始图像特征，并且具有风格图像的亮度特征.并且在视频上灵活运用了风格迁移技术，实现了图片的风格迁移到视频上的应用[6].

3.1 快速图像风格迁移

传统的图像风格迁移是同时输入风格图像和内容图像，如图3所示，对生成图像进行迭代，并使用预训练的VGG-19卷积神经网络进行特征的提取，然后进行损失计算[6].但是在实际的使用过程中，计算时间过长，无法进行商用.针对这个问题，Johnson等将Gatys的网络进行改进，增加了前馈网络，网络其余部分与上一章的经典图像风格迁移一致.改进的图像风格迁移就是在Johnosn的基础上进行扩充，使其成像效果更好.

图3 快速风格迁移网络结构图

3.2 快速图像风格迁移原理

对原始风格迁移进行改进后，能够实现快速风格迁移，添加了前馈网络，原始的风格迁移是通过梯度下降法的逐步迭代来生成结果图像.而改进后的网络是通过梯度下降法来训练一个神经网络，使用神经网络的一次前向传播来生成结果图像.这样做的好处就是能实现同一风格任意内容的快速迁移.只要训练好了一个网络，那么任意的风格图片都能通过它转变风格.在保证效果的前提下效率相较传统实现提升数倍.前向传播网络设计思路是对图像进行卷积，然后加入几层的残差网络跳过一些连接，最后进行反卷积还原图像.实现快速风格迁移的步骤如下：

(1)读取风格图像和coco数据集，并且对风格图像进行预处理然后使其进入损失网络，使用损失网络的某几层计算gram矩阵得到风格图像的风格值.

(2)构建图像生成网络，按patch将coco数据集里的图片分组投入图像生成网络得到生成图片.

(3)再将生成图片和原始图片进行合成为一个矩阵(为了加快运算速度)放入损失网络，分别得到生成图片的内容损失值和风格损失值，原始图片的内容损失值.

(4)根据损失值计算总体损失，进行梯度下降，计算图像生成网络里各个卷积核的值.

4 图像风格迁移技术的应用前沿

现阶段，在字形设计和镜头滤镜两个邻域，图像风格化迁移技术被大范围使用.

4.1 镜头滤镜

正如我们所知道的那样，把照片上传到prisma软件上之后，有多种艺术风格可供选择，选好艺术风格后，很快便会生成具有这样风格的照片.在这一过程中，应用到的就是图像风格化迁移技术.倘若能够在手机中导入图像风格化迁移技术，则用手机拍出来的照片画面的质感会更强一些，当手机中图像风格化的迁移速度提升以后，则可以用一部手机拍摄出一段视频或是电影.举个例子，在《Come swim》这部电影中，导演在拍摄过程中采用的就是电影画面与印象派画风有机结合在一起的图像风格化迁移技术，从而拍摄出了令人震撼的视觉效果.

4.2 字形设计

在平面设计中，比较突出的视觉元素就是文字.为了使文字效果和其他图像纹理相互协调，因此设计师需要消耗大量的精力设计出复杂多样的字形.众所周知，字形设计需要消耗大量的人力成本，设计师过去只设计标题或注释所需的字形子集，然后将其部署到需要的位置.如果他们不这样做，重新设计他们将非常麻烦，将消耗大量的人力财力，但是现在我们可以使用图像风格迁移技术来提取目标文本输出所需的文字，采用该技术能够节省大量的时间成本，同时还能够使字形设计更加便捷.