图像风格迁移算法评析

2021-06-24程季康

中国信息化 2021年6期

程季康

人类文明出现以来，无数精美的名画和优秀的画家脱颖而出。例如梵高的《星夜》与莫奈的《日出》等，每幅传世的佳作都有自己别具一格的风格，画家也有属于自己的画风。而模仿和学习名作名画的风格，千百年来人们趋之若鹜，也花费极大的时间和精力。上世纪九十年代开始，合成具有艺术风格的自然图片引起了计算机科学家的兴趣。把自然图片转化为风格化的艺术图片，被称为风格迁移，提供风格纹理和笔触的图片（如油画）被称作风格图，而提供大致内容结构的图片（如照片）则被称作内容图。风格迁移的目标就是以风格图的纹理笔触与内容图的内容结构合成一张新的风格化图片。最初研究者们尝试用算法来仿真不同的艺术绘画风格，并利用这些算法模仿名作名家的用色和笔触，这些方法在一些软件中得到了一定的应用，例如一些图像软件中的滤镜，就可以把照片转化为简笔画或者油画。但是这些算法仿真的方案只能针对单一的简单风格，同时这些仿真算法大多是对于像素细节的改动，所以无法把握图像整体的内容结构，照片风格化的效果并不那么理想。

一、神经风格迁移的提出

如何提取图像的语义和纹理信息，这是计算机视觉研究者一直致力于解决的问题。在如今硬件（CPU，GPU）强大算力的支持下，卷积神经网络（CNN）的提出深刻地影响了计算机视觉行业。在图像复原领域，CNN可以通过深度学习，帮助预测复原细节像素点。而在图像识别领域，可以利用CNN迭代监督训练以提取图像的语义信息，然后将这些语义信息作为识别时的特征，大大提高了图像识别的准确率。例如由海量的带特征的标签样本训练出来的VGG网络，可以在训练完成后将输入的图片分离出不同层次的图像语义信息，作为图像识别的特征。利用这一网络，Gatys等人首先提出了利用语义信息作为约束，进行迭代优化，学习生成风格化图片的方法，其通过格拉姆矩阵将VGG提取的层次转换为可用作迭代优化的变量。这实现了对任意风格和内容的结合，只需要一定次数的图像优化迭代即可，并且输出的风格化图片基于语义细节，效果非常理想。

另外还有利用生成对抗网络（GAN）来实现学习转换的诸多风格迁移方法，但不是基于提取语义的优化，在此不做详细的阐述。

基于神经网络的图像语义提取，启发了风格迁移的研究者，提出了大量的方法和针对不同场景的解决方案。迁移方法大体有在线、离线单风格、离线多风格和离线任意风格四种，而针对于有关应用场景，则提出了颜色保留、高分辨率风格迁移、多风格迁移和视频迁移等多种场景的解决方案。这些方法都不需要风格化的结果作为训練的依据，大大提高了可用性和灵活性。一些应用软件也应运而生，例如网站应用Ostagram和苹果手机应用Pictory，这些软件都提供了丰富的风格迁移接口。

二、神经风格迁移的分类

基于神经网络的风格迁移有4种类型。

Gatys等人率先提出了基于神经网络的风格迁移方法。这种方法利用VGG网络提取出风格图的纹理特征和内容图的结构特征。

为了解决耗时问题，研究者们希望构建可复用的模型来实现实时的风格迁移，形成了三类方法，分别是单模型单风格，单模型多风格和单模型任意风格。

Johnson首先提出了一个利用感知损失（PerceptualLoss）取代Gatys的风格损失（Style Loss）实现的风格迁移网络模型。该方法的实现思路很简单，就是通过预训练，获得一个针对单个风格的前向反馈迁移网络。利用这个预训练好的模型，就可以将输入的内容图实时转换为该风格的图片。基于单模型单风格的思路，还有多种方法对风格迁移的视觉质量实现了进一步的优化，比如在前馈网络中进行纹理合成与风格化，使用自注意力机制进行多种笔画模式的风格迁移。

由于单风格模型使用了大量的变量，所以在该模型上继续训练其他风格以实现单模型多风格是不合适的。此外单风格模型本身也是针对于单个风格的参数进行更新，并没有对多个风格训练做相应的调整。Dumoulin基于单风格的方法，发现缩放和移动参数，即可实现类似的迁移效果，这样可以省下大量的模型参数，减少了模型过于拟合单个风格的风险，使该模型可以在训练后应用于多个具有相似纹理的风格，也就是单模型多风格。

然而单模型多风格的方法不仅非常局限于风格的纹理，也并不能提供较好的迁移效果，因此研究人员接着提出了任意风格的迁移模型。这种模型利用深度学习，更新模型变量，使该模型学习到的是风格的转换过程而非风格本身，所以可以实时应用于任意风格与内容的迁移。最初的任意风格模型是由Chen等人提出的风格交换（StyleSwap），这种方法顾名思义，就是匹配风格图和内容图中相似的部分，然后将他们交换，将交换的结果再利用VGG各层进行重构，获得最终的结果。这种方法大大提高了风格迁移的灵活性。但是它并没有完全做到实时生成结果。另外由于做法较为生硬，没有适当地结合图片的语义信息，所以迁移结果的视觉质量并不是很好。在这种算法之后研究者们又提出了一系列的方法，比较典型的、效果较好的任意风格模型则是Huang等人提出的自适应实例标准化（AdaIN）。这种模型结合了风格交换等一些前人的做法，利用海量的风格和内容图对模型进行训练，最终实现了实时生成任意风格的风格化图片，并且在大部分的风格上有较好的表现。不过多风格的模型受到训练集所包含的风格数量的约束，无法很好地处理不在训练样本中的风格，同时这种模型也不能很好地识别较为复杂的风格纹理模式，只能做到一定程度的风格转换。

总的来说，Gatys的方法生成的风格化图片效果是最优的，但耗时问题使其不方便操作于一些实时应用的场景。三种离线方法的提出在一定程度上满足了实时应用的需求，极大地提高了风格迁移的速度。尽管迁移结果的视觉质量稍显逊色，但是其速度上的优势和灵活性使其有着更广泛的应用和研究前景。在这里我们给出目前较为主流的一种在线方法和两种离线方法的迁移效果图，分别是Gatys等人的经典在线方法，Johnson等人的利用感知损失的单风格离线方法，以及Huang等人的任意风格离线方法。

三、风格迁移的延伸控制和优化

针对不同的应用场景和迁移算法本身的缺陷，研究人员提出了许多的优化策略，也使风格迁移的效果和因素更加地可控。我们介绍几种简单的，但是效果较为吸引人的优化和延伸方法。

一是色彩保留。在常规的风格迁移中，风格图中的用色将会映射到最终的风格化结果中，使其在纹理和色彩上都靠近于风格图。而有的时候我们希望只改变纹理，保留内容图的色彩。为了实现这一目标，研究者提出了一些解决的方案，例如将迭代优化的图像矩阵从RGB通道转换为亮度、灰度与对比度，并仅对亮度通道进行优化处理，这样就避免了对颜色造成影响，只改变图像的纹理。还可以先将内容图的颜色迁移到风格图中，再将风格和纹理迁移回内容。其效果已经非常令人满意。

二是视频风格迁移。视频的风格迁移并不能简单地看作对逐帧照片分别进行风格迁移，因为视频的每一帧是连续的，故而要求每一帧之间的迁移纹理具有连续性。同时因为帧间的相似性，风格迁移的过程也可以利用这些相似性，提高运行的效率。最先被提出的方法是利用时间一致性来“惩罚”帧间映射的偏差，这种做法很好地实现了平滑的视频风格迁移，但是每一帧的耗时达到了数分钟，这在实际的应用场景中是不能接受的。但是将这种思想结合到利用模型实现的离线方法中，就可以很好的满足应用的需求，因为模型训练的时间增加是可以接受的。

三是多风格的迁移。这种方法实现了对单个内容图到多种风格图的迁移。各个风格图所占的权重也可以人为的调整。多风格迁移利用引导通道来协调各风格进行渲染。这种延伸方法实现的视觉效果非常惊艳。

有关风格迁移的优化和扩展方法还有很多。例如对于高分辨率的图像，风格迁移的效果并不理想，只能对细粒度的纹理做到转换，对粗粒度的风格却无法有效的处理。研究者们提出了先在低分辨率迁移，后在高分辨率迁移的方法，较为有效的提高了迁移质量。对于真实图像之间的风格迁移，例如将苹果转换为草莓。研究者提出了照片规范化的方式實现了这种场景的迁移，而更多的优化办法也被广泛的应用。对于一些非常细致的应用场景，例如书法迁移、肖像迁移、时尚设计迁移等等，都有相应的更优的解决方案被提出，针对特殊场景的细节做出了调整。笔者也正在尝试一种算法，能够将在线风格迁移的耗时缩小一半以上。

四、风格迁移的应用和研究前景

如今社交平台蓬勃发展，视频直播风生水起，风格迁移很好地满足了人们追求个性的需求。人们可以利用软件轻松生成高视觉质量、独一无二的艺术化图片。由于如今该领域发展迅速，无论是大方向的研究，还是细节上的改进都做得非常细致，成果也非常丰富。在大多数的场景下都有较好的算法来实现令人满意的视觉效果，同时在耗时和效果之间尚有很大的调整余地。虽然几个较为主流的风格迁移应用软件在国外已经获得了很好的口碑，但是这些网站或软件在国内并没有得到太多的关注。而且这些应用的操作并不算简单，还会根据速度和分辨率收取一定的费用。基于目前国内商业市场在这一领域的空缺，相信图像风格迁移在国内将会有不错的应用前景。

这一领域的研究涵盖广泛，无论是对现有方法的缝缝补补、进一步优化，还是另辟蹊径、获得开创性的成果，都大有作为的空间。譬如提高模型对于任意风格图片的广泛适应性，提高迁移映射的稳定性以及提高细粒度纹理迁移的准确性等等问题，都有待研究者提供新颖的方案，进一步提高风格迁移的质量。