APP下载

基于Gram矩阵和卷积神经网络的风格迁移算法

2020-06-29余志凡李登实

关键词:特征提取纹理损失

余志凡,李 昊,李登实,胡 曦

(江汉大学 数学与计算机科学学院,湖北 武汉 430056)

0 引言

图像风格迁移(image style transfer)是图像处理和重建领域中的经典问题之一,其通过输入两张图像A和B,基于A的内容和B的风格来重建一张具有B风格的新图像。这在图像及视频的后期处理中有着很广泛的应用,如为照片添加艺术滤镜、对人像做迁移美容等;同时,优秀的图像风格迁移算法还可用于物体识别和目标检测的卷积神经网络原理的探索。Geirhos等[1]通过训练神经网络进行了具有大象纹理的猫、具有时钟纹理的汽车和具有瓶子纹理的熊的识别实验,验证了“用于物体识别和目标检测的卷积神经网络主要依赖于纹理,而不是物体形状”的假设。

传统的图像风格迁移算法大都通过非参数的纹理合成方式来实现。Heeger等[2]提出通过融合Laplace金字塔和Steerable金字塔的方法尽可能多地捕捉图像的空间特征,为后来卷积神经网络使用众多不同的滤波器来捕捉图像空间频率特征方法的提出带来了启发。Shannon[3]使用广义马尔可夫链实现文本预测。而Efros等[4]则受Shannon预测思想的启发,在其基础之上提出了基于模板匹配(template matching)的方法:搜索邻域与待填充像素的邻域最接近的N个匹配点,以下采样的方式从N个点中随机挑选一个进行填充,将所有相似的邻域构成了一个无参数的概率分布函数(probability distribution function)。基于模板匹配的方法可在维持感知特性不变的情况下生成较高质量的纹理,若维持感知特性不足则不能为纹理的生成定义一个确切的模型,该模型较大程度地限制了图像风格迁移技术的发展。

卷积神经网络的提出、快速发展及应用吸引了许多学者的关注,而其在图像特征提取上的卓越表现使得将深度学习的理论和方法应用到图像风格迁移领域成为了当前研究的热点。Gatys等[5-7]提出Neural Style的方法,通过训练卷积神经网络来模拟人类视觉的处理方式,使计算机学习艺术风格进而生成具有目标风格的图像。Li等[8]提出将马尔可夫随机场(Markov random field,MRF)模型与预训练的深度卷积神经网络相结合,用风格图像中最相似的区域去匹配输入,减少了不准确的特征迁移。Li等[9]则更进一步地添加了白迁移和颜色迁移(whitening transform and coloring transform,WCT),使风格迁移的色彩表示获得了极大的进步。至此,基于深度学习的图像风格迁移和纹理重建趋于完善,但仍存在结果图像表现不自然等众多待改善问题。

针对这些问题,本文首先讨论了卷积神经网络不同层提取图像特征的特点,再在Gatys等的Neural Style的方法基础上提出一种改进的风格迁移算法,并对样本集做了多种风格的迁移重建实验,最后设计了消融实验来对比验证本文算法设计策略的有效性。

1 卷积神经网络提取图像特征的特点

卷积神经网络是一种仿造生物视觉机制构建的、具有参数共享和层间稀疏连接特点的、包含卷积计算的前馈神经网络(feedforward neural networks)。能够以较小的计算量对格点化特征,如像素和音频进行学习。Lecun等[10]设计的LeNet-5网络结构首先在图像特征提取及分类任务上取得成功。之后,不断有学者设计出性能更优的神经网络结构,如Simonyan等[11]提出的视觉几何组网络(visual geometry group network,VGG)结构。VGG网络结构在加深网络层数的同时用小卷积核代替大卷积核,不仅大幅减少了卷积操作带来的计算量,而且提升了模型提取图像特征的精度。同时,其还有着对抗性和鲁棒性的特点,这便是其成为图像风格迁移问题中首选的特征提取网络。

如图1所示,大量的实验证明,卷积神经网络不同层提取图像特征的特点是不相同的:底层捕捉图像纹理,高层则保留图像内容。

图1 CNN中的图像表示Fig.1 Image representation in convolution neural network

2 改进的图像风格迁移算法

2.1 扩张卷积

扩张卷积(dilated convolutions)是在标准的卷积滤波器(filter)中加入空洞,可在不损失信息且不引入额外参数的情况下,扩大卷积运算的感受野,让每个卷积输出都包含较大范围的信息。在图像风格迁移、边界感知、骨架标记等需要全局信息依赖的各类问题中,均可获得比传统卷积更好的效果。若在大小为m×m的卷积核的两元素间分别插入r个空洞,则卷积核的有效大小即感受野变为(m+4r)× (m+4r)。

Yu等[12]提出当A为m=3,r=0的扩张卷积,其感受野和标准的3× 3卷积一样;B为m=3,r=1的扩张卷积,其感受野增大到了7× 7;C则为m=3,r=3的扩张卷积,其感受野为15×15,如图2所示,图2中蓝色方格为插入卷积滤波器中的空洞。

图2 空洞卷积示意图Fig.2 Diagram of dilated convolutions

2.2 损失函数

为生成效果更好的风格迁移图像,本文分别定义了两个函数:内容损失函数和风格损失函数。将一张随机生成的白噪声图像作为目标图像的初始值,记为x→,输入的内容图像记为,风格图像记为。Pl和Fl分别表示和在第l个卷积层中的内容表示或特征矩阵。当x→的Fl和的Pl非常接近时,即认为和在内容上比较接近。故定义的目标图像的内容损失函数可用(1)式表示,其中,和分别是和经过第l个卷积层时第i个过滤器在位置j上的激活值。

本文将图像风格定义为纹理。故基于Gram矩阵定义的图像风格函数可用(2)式表示,其中,和分别表示图像经过第l个卷积层时第i个过滤器和第j个过滤器的激活值,两者做内积即是不同过滤器提取出的特征间的相关性。

第l层及模型整体的风格损失函数分别可用(3)式和(4)式表示,其中,GL是生成图像的Gram矩阵,AL是a→的Gram矩阵,wl是每一层风格损失的权重,将其与每一层的风格损失的值相乘后再进行求和即可得出模型整体的风格损失。

(5)式表示总的风格迁移损失,包含内容损失和风格损失两部分,其中,α和β分别为图像风格迁移算法中内容损失和风格损失的权重。

2.3 模型结构

图3中x→为目标图像的初始值,a→为输入的风格图像,p→为输入的内容图像,使用由5个空洞卷积层构成的神经网络分别对a→和p→做特征提取,获得的特征图分别记作SPs(style representations)和CPs(content representations)。保留所有空洞卷积层获得的SPs及第4个空洞卷积层获得的CPs,以保证获得丰富风格表现的同时不受内容细节的干扰。

图3 改进后的图像风格迁移算法Fig.3 Improved image style transfer algorithm

3 实验仿真与分析

3.1 图像集与实验环境

图像集由9张内容图像和4张风格图像(见图4)组成。风格图像的大小均为1 920× 1 080。模型构建及算法设计基于开源深度学习框架TensorFlow实现,开展的实验软硬件环境如表1所示。

图4 4张风格图像Fig.4 Four style images

表1 实验环境的配置参数Tab.1 Configuration parameters of experimental environment

3.2 风格迁移实验

对9张内容图像依次做了4种风格(Starry Night:A;Roman Holiday:B;Modern Times:C;Evening City:D)的迁移实验,部分实验结果如图5所示,训练及平均重建时间如表2所示。

图5 实验结果Fig.5 Experimental results

表2 4种风格的训练时间和平均重建时间Tab.2 Training time and average reconstruction time of four styles

3.3 消融实验

为验证引入扩张卷积的策略对模型性能的影响,本文设计了一个消融实验,将本文所提出模型的所有卷积操作更换为3× 3的普通卷积核,在相同的实验环境下做风格迁移实验,对比其结果。风格图像选用Starry Night和Roman Holiday。实验结果如图6所示:左边为使用扩张卷积做图像特征提取后迁移重建的效果,右边为使用标准卷积生成的结果。显然,扩张卷积的引入,在不增加参数的情况下,有效解决了风格迁移后图像表现不自然的问题,因为扩张卷积相对于传统卷积操作而言,捕捉到的细节特征会较为局部化,所以实验合成的纹理会表现得更加平滑、自然。

4 结语

针对传统算法风格迁移后图像表现不自然的问题,本文设计了一种改进的基于Gram矩阵和卷积神经网络的图像风格迁移算法,使用扩张卷积核代替普通卷积核,在不引入新的参数的前提下增大图像特征提取的感受野,进而捕获到更完整的内容轮廓。本文设计的多组不同风格的迁移实验和消融实验分别说明了改进风格迁移算法的有效性和设计策略的正确性,有效改善了重建图像的视觉表现。将残差[13]、密集连接[14]、生成式对抗[15]等算法引入图像风格迁移也是团队关注的问题。

致谢:谨在此对为工作开展提供实验环境的大连理工大学计算机科学与技术学院孙媛媛教授致以由衷的感谢!

猜你喜欢

特征提取纹理损失
胖胖损失了多少元
基于BM3D的复杂纹理区域图像去噪
基于Gazebo仿真环境的ORB特征提取与比对的研究
使用纹理叠加添加艺术画特效
玉米抽穗前倒伏怎么办?怎么减少损失?
基于Daubechies(dbN)的飞行器音频特征提取
TEXTURE ON TEXTURE质地上的纹理
Bagging RCSP脑电特征提取算法
消除凹凸纹理有妙招!
菜烧好了应该尽量马上吃