面向室内装饰的现代家居设计图像风格迁移研究
2020-07-13诸跃进肖金球
冯 威 诸跃进 肖金球 段 杰 周 惟
(苏州科技大学电子与信息工程学院 江苏 苏州 215009)
0 引 言
室内装饰是现代社会满足人们的社会活动和生活需要,组织和塑造具有美感而又舒适、方便的室内环境已成为现代社会的一门综合性艺术。装饰行业已成为当下新兴的热门行业之一,从而产生许多室内装饰设计公司。现代室内装饰设计已从产品设计拓展到文化设计、环境设计、氛围设计。由于现代年轻人更加追求完美的室内装饰设计,所以现代家居风格设计在室内装饰中扮演着非常重要的角色。
家居风格是通过对建筑的内部空间结构的把握,运用物质技术对其进行有组织的规划,设计满足人们物质要求和精神需求的室内设计风格[1],包括色彩、造型和装饰等。每个人的生活习惯以及审美观点各不相同,装修也会跟随主人的偏好不同而有所差异。所以人们开始将一种类型的家居设计风格与另一种类型的家居设计内容进行融合,来决定如何设计家居风格。通过使用图像风格迁移技术,将两种不同类型的现代家居风格图像进行迁移,来观察迁移后的综合家居风格是否满足自己的追求。
国内外对于家居风格的设计都有着一定的研究,从最开始的桌椅简单放置,到慢慢出现的古代宏伟建筑的室内布局,再发展到现在的现代家居风格设计,衍生出许多各种各样类型的现代家居风格,例如现代简约、中式、欧式和美式等。但是随着社会的不断进步以及科技和经济的不断发展,现代室内装饰更加强调以人为中心进行设计,并追求个性化的家居风格设计。当今社会的人们不再满足单一的家居风格,开始追求更高质量和更加自由的家居风格设计,来满足人们在物质上和精神上的追求,所以需要将风格迁移技术应用到现代家居风格设计中。通过两种不同风格的家居图像迁移来生成迁移效果图,让人们更加直观地明白融合后的家居设计美观度,从而根据需求选择自己满意的装修设计。
传统的非参数图像风格迁移方法主要基于笔画的渲染、图像类别或滤波方法以及纹理的合成,尤其是纹理合成方法得到更深的研究。Efros等[2]提出了一种简单的纹理算法,通过对样本纹理进行拼接和重组以合成新的纹理。Hertzmann等[3]提出了一种基于类推思想的方法,通过图像特征映射关系合成具有新纹理的图像。张海嵩等[4]运用多层纹理阵列、国画光照模型提取轮廓线等模块。后来发展为数学建模方式,首先人工分析图像风格,然后建立数学或统计模型,再改变目标图像使其更贴合[5]。这些图像风格迁移的方法不仅效率低下且只能提取图像的底层特征,无法提取高层抽象特征,仅适用于艺术化的图像风格迁移,而现代家居风格的设计内容比较繁多,各种各样的造型、色彩和装饰都相对比较复杂,且讲究写实与逼真,所以上述方法得到的图像风格迁移效果较差,无法让人们直观地感受到迁移后的效果图,难以符合实际需求。
近年来,随着人工智能发展的热潮,深度学习开始兴起,因其具有超强的图像特征提取能力,在计算机视觉领域得到了广泛使用,取得很多优秀的成果。深度神经网络开始被人们运用到图像风格迁移中,比以往的方法更加高效和优越。将深度神经网络用于图像风格迁移最初起源于2015年Gatys等的研究,他们开创性地提出了一种基于神经网络的风格迁移算法[6]。在研究使用卷积神经网络合成纹理的过程中发现,卷积神经网络中的特征图的统计特性可以反映一幅图像的风格,而特征图本身是对网络输入图像的一种深层的特征表示,反映了图像的内容特征。那么,可以通过迭代优化的方法将一幅随机初始化的图像调整成一幅在风格上和名画相近,但是内容还是那幅普通的图像。后来他们又提出了使用卷积神经网络的图像风格转换[7],利用卷积神经网络提取图像不同层级的特征,使用低层次响应描述图像的风格,使用高层次响应描述图像的内容,经多次迭代之后,输入响应即为特定风格和内容的图像。Luan等[8]在Gatys的基础上提出空间局部仿射并表示完全可微的正则项,但这种方法复杂度高且实现速度较慢,生成的迁移图局部可能会模糊。
上述研究对于书画等艺术作品追求图像艺术化风格迁移效果较好,但是由于约束不强,对于现代家居风格这样讲究逼真实用且语义内容复杂繁多的图像,不能达到理想效果,实现的迁移图较差且易导致艺术化,许多细节部分无法实现风格迁移,已经迁移的部分还可能会出现畸变和失真。
本文针对现代家居风格图像的特点,追求真实且不失真的效果,基于深度学习算法对现代家居风格图像迁移进行了研究。通过图像分割技术以及泊松图像编辑方法进行图像梯度约束得出清晰真实的迁移图像,避免出现失真或迁移内容错误的问题。
1 相关理论
1.1 图像风格迁移
图像风格迁移,就是一种用其他不同类型的风格来渲染图像语义内容的图像处理方法[9]。简单说来,就是使一幅普通的图像变换成具有另外一种风格的图像,但保留原始图像的内容和结构。假设有两幅图像,一幅图像为风格图像,另外一幅图像为内容图像,在保留内容图像的全部内容及结构的前提下,对风格图像进行特征提取,将提取出的特征对原来的内容图像进行重构,得到的输出图像是将风格图像的风格与内容图像的内容进行完美融合的迁移图像,其结构如图1所示。
图1 风格迁移流程图
1.2 卷积神经网络及VGG-Net
卷积神经网络(Convolutional Neural Network,CNN)作为深度学习中的核心,在图像处理领域取得很大的成功。CNN是一种前馈式神经网络,是基于传统神经网络的一种改进版,将中间传统的全连接层改进为卷积层,通过局部视野机制和参数共享的方式,大大减少了需要计算的参数量,且随着网络层数的加深,可以提取出更加抽象的特征。其网络结构主要由输入层、卷积层、池化层、激活函数和全连接层构成,在卷积层中,通过不同的卷积核在输入层图像上滑动进行卷积操作,提取图像特征,得到不同的特征图,将卷积后的结果做非线性变化,得到输出作为下一层的输入。CNN结构如图2所示。
VGG-Net是牛津大学的视觉几何组联合Google Deep Mind部门共同开发的深层卷积神经网络[10]。根据网络不同的层数以及配置,VGG网络分别有A、A-LRN、B、C、D和E六种类型,目前通常将后两者的D和E类型用于图像风格迁移,也被称为VGG-16和VGG-19网络。由于现代家居图像语义内容特征较复杂,且现在的GPU运算能力超强,本文选择更多层数的VGG-19网络来提取到更加抽象的图像特征,以取得更好的迁移效果,避免出现失真畸变。VGG-19网络模型共有19层,包含16层卷积层和3层全连接层,结构中反复使用3×3的小尺寸卷积核,步长为1,每个卷积层后面都有一个ReLU非线性激活函数,经过激活函数后的输出即为图像风格化使用到的特征图。
1.3 Gram矩阵
Gram矩阵是一种统计运算,在图像风格迁移中,CNN网络中每层卷积层输出的特征图不仅包含图像的内容,还包含着图像的纹理特征,需要通过计算Gram矩阵来求出特征之间的相关性,从而表示出图像的风格。Gram矩阵的数学形式为:
G(x)=A×AT
(1)
Gram矩阵实际上是矩阵的内积运算,可以看作是特征之间的偏心协方差矩阵(没有减去均值的协方差矩阵)。在特征图中,每个数字表示特征的强度,Gram计算的实际是两两特征之间的相关性,同时Gram矩阵的对角线元素体现了每个特征在图像中出现的量,有助于把握整个图像的大体风格,通过比较Gram矩阵的差异来度量两个图像风格之间的差异,可以成功地防止任何区域被忽略,从而实现图像的风格迁移。
1.4 泊松图像编辑
从逻辑上讲,模糊图像是由于图像中的物体轮廓不明显,轮廓边缘灰度变化不强烈造成层次感不强,要想生成清晰的图像就需要图像轮廓边缘灰度变化明显,从而需要计算图像灰度的变化率,即导数(梯度)。为了获得较为清晰的风格迁移图像,本文利用泊松图像编辑对图像梯度进行约束,其主要思想是根据源图像和目标图像的边界信息,利用插值的方法重新构建出融合区域的图像像素,如图3所示。其中:u表示源图像;v是源图像的梯度场;Ω是合并后目标图像中被覆盖的区域;∂Ω表示边界;S是合并后的图像;设f表示Ω区域内的图像,f*表示Ω区域外的图像合并后图像。
图3 泊松图像编辑示意图
图像合成的目标是合并后的图像尽量平滑没有明显的边界,即Ω区域内的梯度变化尽量的小。此外,在保证Ω区域尽量平滑的同时需要保证源图像能够保持本身的纹理信息,则此约束下的优化问题为:
(2)
此时被积函数为:
(3)
然后再应用欧拉-拉格朗日方程,其中:
(4)
则可以得到:
(5)
从散度的角度定义拉普拉斯算子,此时拉普拉斯算子定义为梯度的散度:
Δf=div(▽f)=▽·(▽f)=▽2
(6)
所以二维空间则表示为:
(7)
则式(6)可以写成下列泊松方程的形式:
Δf=div(▽u)=▽2u
(8)
式中:Δf为拉普拉斯算子;div是散度运算符。通过解这个泊松方程可获得期望的合成图像。
2 方法实现
现代家居图像风格迁移由于其图像语义内容的复杂性和真实性,要求迁移生成的图像在内容和细节上尽量与内容图像相似,且不会发生失真或图像内容迁移错误的问题,在风格上应尽可能与风格图像相似,且追求清晰真实的效果。其风格迁移实现过程如图4所示。
图4 风格迁移实现过程
2.1 图像分割
由于不同类型的现代家居风格之间的设计内容具有差异性,直接计算整个图像的风格损失没有考虑到语义内容,迁移过程中导致纹理被映射到与纹理语义不对应的区域,且忽略内容上的差异而导致物体风格溢出到图像的其他部分,可能会出现家居风格内容图像上的物体内容与风格图像上物体内容不相等,造成图像内容不匹配迁移变换。本文采用图像语义分割的方法将风格迁移局限在相同语义内容的区域上。首先将输入的内容图像和风格图像分别进行图像分割,并将分割出的同类别图像内容用相同蒙版颜色对其标注,不同类别的图像内容使用不同颜色,可以为每个语义类别构造单独的风格损失。然后将内容图像、风格图像以及二者标记的分割图像都作为输入图像输入到已训练好的不带全连接层的VGG-19网络来提取图像不同层级的特征信息,以便在语义等价的子区域之间进行迁移,且在每个子区域内的映射一致。本文使用Photoshop软件的快速选择工具来进行图像分割,分别将家居图像的柜子、桌子、椅子等物体分割出大致的框架,并使用蒙版颜色标记,不同的物体内容使用不同的颜色,例如图5所示标记好的分割图。
图5 家居风格分割图
2.2 内容损失
给定家居风格的一幅内容图像c、一幅风格图像s和随机的一个白噪声图像,将其输入到VGG-19网络中,用低层次响应来提取图像的风格,而高层次响应提取图像的内容,随机的白噪声图作为初始输入。然后计算内容特征图和白噪声特征图之间的内容损失,通过卷积层可以得到许多feature map,选择conv3_2、conv4_2层作为内容图像的表示。最后生成图像g,图像g在内容上与图像c相似,采用平均损失函数计算内容图像和生成图像的内容损失为:
(9)
式中:l表示卷积神经网络的第l层卷积层,每层有Nl个feature map,将feature map向量化得到大小为Dl的向量;Kl为图像在VGG-19网络中的特征矩阵表示,Kl∈RNl×Dl。
此外,通过误差反向传播可以计算出关于生成图像g的梯度,将生成图像g更新为输入图像,不停地改变初始随机图像,直到在卷积神经网络层中产生与内容图像相同的响应。
2.3 增强型风格损失
图像的风格也就是纹理信息可以通过特征之间的相关性表示。用Gram矩阵计算特征之间的相关性捕获图像的纹理信息,选择conv1_1、conv2_1、conv3_1、conv4_1、conv5_1作为图像的风格表示,通过使用白噪声图像的梯度下降来构建与给定图像的风格表示相匹配的图像。此外,将标色好的分割图像添加到输入图像作为另一个通道,可以为每个语义类别构造单独的风格损失,通过连接分割通道来增强卷积神经网络算法,用下列函数计算输出图像g与风格图像s之间的风格损失:
(10)
式中:Gl,c(·)=Kl,c(·)Kl,c(·)T是Gram矩阵运算,即向量特征图之间的内积,C是语义分割掩码中的类别数。
Kl,c(g)=Kl(g)Pl,c(c)
(11)
Kl,c(s)=Kl(s)Pl,c(s)
(12)
式中:Pl,c(c)为内容图像的分割掩码;Pl,c(s)为风格图像的分割掩码。则总的损失函数为:
Ltotal=αLcontent+βLstyle
(13)
通过迭代最小化损失函数得出风格化的图像。
2.4 泊松图像编辑约束图像梯度
为了生成清晰、准确的迁移效果图,将上述风格化的图像Cs(x,y)作为输入图像,则给定内容图像c的梯度场为:
g(x,y)=▽c(x,y)
(14)
则约束空间梯度同时保证需要满足的目标函数F(x,y)为:
(15)
从而得出优化目标函数的泊松方程为:
F(1-λ▽2)=Cs-λ▽g
(16)
式中:λ是控制两项之间的相对权重。通过最小二乘法可求解此方程。
3 实 验
3.1 实验环境
本文的实验环境是基于Python 3.6.6版本,处理器为Intel i7-6700K,配备16 GB内存和NVIDIA GTX1080Ti显卡,在Windows 64位操作系统上基于开源的深度学习框架TensorFlow来运行。
3.2 实验数据集
本文实验数据集选取英国帝国理工学院与酷家乐开放的室内场景数据集InteriorNet[17]。原始数据包含2 200万室内场景,涵盖这些场景的3D、全景、灯光、语义等多种不同样式,这些场景的许多整体设计风格与现实世界中的室内场景相同,数据集中提供了多个不同的风格和样式,包括语义分割、材料分割、照明效果、nyu-mask标签、光流等效果图,可用于深度学习训练中。
本文研究的是面向室内装饰的现代家居设计图像风格迁移,故从中随机选择涵盖不同风格的室内场景图共10 000幅作为预训练数据集,在此数据集上预训练不包含全连接层的VGG-19网络模型来获取网络模型参数,并将其作为常量,构建适用于本文中室内装饰场景的网络模型,从而能够节省大量的训练时间。
3.3 实验结果及分析
本文使用不同类型以及不同场景的现代家居风格图像来进行实验,根据实验选择以及数学计算,α=1、β=100、λ=20时得到的迁移效果较好。此外,为了获得满意的迁移效果图,实验共分为两轮迭代,每轮迭代2 000次,每轮开始前都重新提取图像风格来最小化目标函数。
为了实现图像语义内容较为精确的分割并用不同颜色标记,使用蒙版来进行操作。蒙版是浮在原有图层之上的一块挡板层,将不同灰度色值转化为不同透明度并作用到所在图层,使图层不同部位透明度产生相应变化,从而能够保护原有图片内容。首先将风格图像导入Photoshop软件中,在图层面板中新建空白图层,填充一种颜色,将其置于背景并将其与风格图像进行融合;然后在图层面板中选中风格图像并点击添加图层蒙版按钮添加蒙版,选中添加的蒙版后前景色和背景色自动变成黑白色;接着选择快速选择工具中画笔工具在风格图像层上绘制出图像中同类别的区域,并通过调节画笔大小和前、背景色自由修改区域,从而绘制的图像语义内容实现准确分割并标记为所填充色;最后重复新建填充不同颜色的背景图层进行操作,直至所有风格图像内容全部实现分割并标记不同颜色,内容图像进行相同操作。
本文实验基于图像语义分割和图像梯度约束的家居设计图像风格迁移具体步骤如下:
(1) 将风格图像和内容图像以及它们的分割图像输入已训练的VGG-19网络,并随机初始化像素的白噪声图,同样输入到网络中。
(2) 在VGG-19网络的conv3_2和conv4_2层提取内容图像的内容特征矩阵,并计算白噪声图与内容图的内容损失。
(3) 在VGG-19网络的conv1_1、conv2_1、conv3_1、conv4_1和conv5_1层提取风格图像的风格特征矩阵的Gram矩阵,并将标色好的分割图像作为另外一个通道,通过连接分割通道来增强卷积神经网络算法,计算白噪声图与风格图的增强风格损失。
(4) 求出用于训练的内容损失和风格损失加权和的总损失函数。
(5) 通过训练使白噪声图像梯度下降来最小化总损失函数,经过多次迭代进行调整,从而得出风格化图像;通过泊松图像编辑方法进行梯度约束风格化图像,得出兼具风格图像风格以及内容图像内容的清晰真实迁移效果图。
此外,为了测试目标函数在处理家居风格图像的鲁棒性,分别选取了厨房、客厅、餐厅和卧室四种不同的主要设计场景,每个场景选择不同的主流风格类型进行转换。如图6所示,从左到右分别对应着内容图像、风格图像和迁移结果图像。其中:(a)的内容图像是美式风格,风格图像为现代简约风格,两者之间可以得到较好的迁移效果;(b)是测试同种类型风格但设计内容不同的风格转换,其内容图像和风格图像都为美式风格,也可以得到较好的迁移效果;(c)为客厅的家居设计,其内容图像为现代风格,风格图像为极简式风格,可以发现墙壁上的图画也能实现风格迁移,这取决于图像的分割标记图;(d)为餐厅的家居设计,其内容图像为欧式风格,风格图像为工业风格,两者迁移后的颜色变化为融合的色彩;(e)为卧室场景,其内容图像为新中式风格,风格图像为复古式风格,可以发现整体迁移效果良好,尤其是左边墙壁实现了可靠的风格迁移。
(a) 厨房(不同风格)
(b) 厨房(相同风格)
(c) 客厅
(e) 卧室图6 风格迁移效果图
图6证明了该方法在现代家居图像风格迁移方面的有效性,且具有较强的鲁棒性,能够实现现代大多主流家居设计的多种场景,多种类型的图像风格迁移,在取得良好效果的同时不会出现畸变。
4 结 语
本文提出将图像风格迁移技术引入面向室内装饰设计的现代家居风格图像领域中,针对现代室内装饰风格设计图像的语义内容复杂、色彩繁多以及布局讲究等特性,初步证明了其在室内装饰领域中可以实现得到良好的图像风格迁移效果,有效地防止内容图像和风格图像的内容不同而导致迁移溢出的现象发生。同时,还有效地规定某个语义内容是否需要进行迁移,保留了图像的真实性。利用泊松图像编辑方法对图像的梯度约束,能够得出清晰且满足现代家居风格设计的需求迁移图像。