基于深度学习的服装图案刺绣风格化设计探析
2023-12-08李圆陈志豪张慧于淼
李圆 陈志豪 张慧 于淼
摘 要:为了将基于深度学习的图像风格迁移技术引入纺织服装中刺绣元素设计领域,拓展刺绣在服装中的创新思路和表现形式,本文利用DIN算法进行服装图案风格迁移处理,将图像风格化处理技术应用到服装图案设计中,对服装图案进行图案刺绣风格化处理,在实现服装图案的刺绣化效果的同时减少人力物力的投入。与基于AdaIN算法的图像风格化处理相比,较好的保留了原图的结构且更显自然,验证了该方法的有效性。研究认为DIN算法在服装图案刺绣风格化处理上具有一定可行性,可利用图像风格迁移技术更好的实现刺绣在服装设计中的应用与研究。
关键词:刺绣;风格化;DIN算法;AdaIN算法;深度学习
中图分类号:TP391 文献标识码:A 文章编号:2095-414X(2023)05-0009-08
0 引言
基于深度学习的图像风格迁移技术利用卷积神经网络浅层卷积层提取图片风格信息与深层卷积层提取图片内容信息的特性,将图片的风格与内容分离开,重新整合得到新图片,将一张普通的图片变成带有艺术家风格的图片,赋予普通图片艺术感和文化内涵。将图像风格迁移技术与服装领域的图案设计相结合,是将大众的需求、设计师的创意、时代的流行文化融合在一起的一种行为方式[1],可以节省设计师创作时间,减少大量人力、资金的投入。Gatys等[2]于2015年首次提出了一种与深度学习相结合的风格迁移算法,他们只通过Visual Geometry Group(VGG)这一损失网络来提取特征,虽然迁移效果很好,但其迭代速度慢,且不能实时处理。Johnson等[3]最先提出对模型进行迭代优化的风格迁移算法,将网络分为图像生成网络和损失网络两种,对损失函数优化并产生图像,速度比之前提升了几百倍。Zhu等[4]提出了一种基于GAN的CycleGAN无监督对抗网络,使用循环一致性来约束和保证图像的内容,可以通过仅训练两种类型的输入图像来获得训练模型,具有广泛的应用。Huo等[5]提出了一种双分支可学习转移机制,同时考虑了一阶和二阶图像统计的互补优势捕获一致的风格保留更多结构细节,使风格迁移图片具有逼真的效果和更高效率。Xu等[6]提出了IFFMStyle图像风格迁移框架,能过滤掉图像中与结构无关的次要特征,更好地保留原始内容特征和局部结构,显著提高了生成图像的质量,显著改善了紋理失真和不均匀的色彩分布。Ding等[7]提出小波分解的方法有效抑制图像风格迁移造成的失真并产生了自然的效果。
有很多学者将基于深度学习的风格迁移应用在服装领域。邱德府[8]通过改进的CycleGAN算法提出对童装服装款式进行风格转移,为童装服装设计提供更多的设计风格参考。徐畅[9]将服装的纹理、图案、颜色、材质等服装创意设计元素同时迁移到服装图像中,来辅助服装设计者进行创意设计。董学良[10]基于Gycle GAN和卷积神经网络改进服装局部风格迁移方法,改善局部服装图像风格迁移的效果,提高局部服装图像风格迁移的速度。服装图像迁移容易存在纹理不清晰,内容扭曲,迁移后颜色与风格图片不一致。而刺绣作为艺术品在服装设计中存在难以批量生产、制作成本较高等问题。利用合适的算法将图像风格迁移技术引入服装图案中,使服装图案呈现出刺绣风格,能够弥补传统刺绣难以满足服装大规模需求的局限。
本文利用DIN算法,从可行性、可读性、有穷性以及健壮性这几个角度进行算法设计,确定科学合理的算法实现,进行一系列风格化设计模拟实验来测试其功能的耐久性以及有效性,搭建基于DIN算法的风格迁移模型,最后筛选合适的服装图案进行刺绣风格化处理。DIN算法能够将一般图案进行不同的风格化处理,将其应用到服装中,能够使服装图案呈现出新的风格。将中国传统刺绣文化与服装图案相结合,实现多样化的刺绣图案设计。
1基于深度学习的图像风格迁移
1.1基于深度学习的图像风格迁移技术
风格迁移指的是两个不同域中图像的转换,简单来说就是通过一定的算法使一张图片在保证其本身内容不变的情况下,最大程度地转换成另外一张图片的风格,也可以被认为是一种图像编辑过滤。图像风格迁移旨在将内容图像的笔触、纹理和颜色转换为另一张风格图片的同时保留内容图像的场景。从遵守艺术规则的角度出发,借助计算机算法来模拟艺术家的创作风格,达到非真实感绘制的目的,从而摆脱照片一样的复制粘贴感,生成在视觉特性上与真实艺术作品更加相似的图像,赋予普通图片艺术感和文化内涵。
图像风格迁移就是将一张图片A给人的感觉替换成另一张图片B的感觉,最终生成图片C,其同时具有A图片的内容和B图片的风格,如图1所示。
从2015年与深度学习算法相结合的图像风格迁移技术开始兴起,至今已取得了飞速的进步,无论是在理论层面还是算法实践上都有相关学者不断研究改进,迁移效率得到了很大提升。基于深度学习风格迁移技术主要包括两种类型,分别是基于在线图像优化的慢速风格迁移和基于离线模型迭代的快速风格迁移,这两种迁移方式的主要区别如表1所示。
慢速风格迁移大致可分为三种方法:基于深度图像类比[11]、基于马尔可夫随机场[12]、基于最大均值差异[13]。这些迁移方式的原理都是针对图像的像素完成迭代优化,迁移速度非常慢,每次迁移都需要重新对风格图与内容图进行训练,虽然生成图片的迁移效果很好,但是实用性不高,性价比相对来说比较低,无法大规模推广应用。
为了解决迁移速度慢的问题,在相关学者不断探索改进中产生了基于模型迭代的快速风格迁移,且应用范围较广。快速图像风格化迁移算法主要解决速度问题,核心思想就是利用基于离线模型优化的快速图像重建方法对风格化结果进行重建,基于预先训练前向网络来解决计算量大、速度慢的问题,按照一个训练好的前向网络能够学习到的风格的数量进行划分,可以把快速风格迁移分成单模型单风格迁移、单模型多风格迁移、单模型任意风格迁移三种[14]。
单模型单风格迁移是最早的能实现快速风格迁移的算法。该方法基于模型迭代训练出了一个生成模型,之后只需要用户输入内容图片即可完成模型对应的风格的迁移。这种迁移方法的缺点是只能生成这一种特定风格的图片,如果想要其他风格的,就需要再重新训练一个模型,虽然迁移效率大大提升,但扩展应用性不强。
单模型多风格迁移通过引入一个仿射变换,将图像中的风格标准化成另一个风格,从而实现了一个模型可以学习多个风格。虽然它与单模型单风格迁移相比,已经有了很大的进步,但能迁移的风格数量还是有限,对于一组新的风格,仍然需要额外的训练时间。
单模型任意风格迁移是一种发展比较成熟的快速迁移算法,它能做到只需要训练一个前向网络就可以学习到任意风格,解决了风格预定义的问题,目前已经能够实现实时的任意风格迁移,而且也取得了较好的迁移效果。
1.2图像风格迁移技术的网络架构
图像风格迁移是基于卷积神经网络(CNN算法)进行的,经典的CNN模型有AlexNet、GoogleNet、VGGNet和ResNet。下面以应用较多的VGGNet-19为例,介绍卷积神经网络的主要结构。如图2所示,是VGG-19网络结构图,5个VGG块的卷积层数量分别为(2, 2, 4, 4, 4),再加上3个全连接层,总的参数层数量为19,因此叫VGG-19。黑色的部分(1至
16)是Conv卷积层+ReLU激活函数层,分别负责提取特征和加强特征;红色的部分是MaxPool池化层,通过最大池化实现特征压缩;最后三个(17至19)是Linear全连接层+ReLU激活函数层,负责将学习到的图像特征表示进行整合映射。输入一张图片hwc=2242243(h代表图像像素有几行,w代表图像像素有几列,c代表通道数,为RGB三通道),经过每一次最大池化后高和宽都会变小,所以会在下一次卷积的时候通过特征图数量翻倍,即增加通道数来弥补高和宽变小带来的信息损失,每一层神经网络都会利用上一层的输出来进一步提取更加复杂的特征,从而达到提取到原图像多种特征的目的。
2基于深度学习的服装图案刺绣风格化处理—DIN算法
2.1DIN算法及其功能
DIN算法的全称为:Dynamic Instance Normal- ization,即动态实例规范化。DIN算法包括实例归一化和动态卷积,可以将样式图像编码为可学习的卷积参数,在此基础上将内容图像风格化。DIN能够进行灵活且?有效的任意风格转换。DIN与使用共享复杂编码器编码内容和风格的传统方法不同,DIN引入了一个复杂的风格编码器来表达复杂而丰富的风格模式,并且附带了一个紧凑和轻量级的内容编码器以进?快速推?,可以用于快速风格化[15]。网络结构主要由三个模块组成:图像编码器、动态实例规范化层和图像解码器。
动态实例规范化层包括一个实例归一化和一个动态卷积操作(图3)。在这里,卷积类型包括但不限于标准卷积、可变性卷积和分组卷积。其中weight net和bias net由简单的卷积层和自适应池化层构成。其中weight net和bias net由简单的卷积层和自适应池化层构成。公式如下:
DIN(FcL)=IN(FcL)?WL+bL。(1)
其中,Fc是内容输入的特征图,L是特定层,W是学习到的权重矩阵,b是学习到的偏置向量。IN(*)是实例归一化操作,公式如下:
(2)
根据该公式,可以看出利用DIN操作学习到的W其实就是风格的标准差,b是风格均值。
DIN使利用一个复杂的样式编码器来表达复杂和丰富的风格化模式成为一种可能。有了提出的DIN层,能够进行任意风格的转移,且花费更少的计算成本。此外,DIN支持各种卷积操作,因此实现了新的传输功能,包括自动空间冲程控制和对非自然图像的均匀冲程放置。
2.2实验过程
我们把日常生活中常用作服装图案的图像当作原片,然后对其施加特定的刺绣风格,而刺绣风格本身也是以图片的形式,依托DIN算法构建一个VGG模型把服装图案生成为具有刺绣艺术风格的作品[16]。
2.2.1 预处理
训练时的内容图使用的是COCO数据集,部分图片展示如图4。风格图片使用了50余种刺绣风格图像,部分图片展示如图5。
图片数据均为RGB三通道彩色图片,格式均为.jpg。但图片的大小格式不一,需要对图片进行预处理。首先将图片裁剪成256256,并进行图像增强处理,定义反归一化函数以及最核心的数据集准备类等对图像进行缩放等调节,使其适于模型处理。
DIN层的滤波器大小设置为1 × 1。我们使用感知损失[17]作为内容损失,使用BN統计损失[18]作为风格损失,使用预先训练的VGG-19作为损失网络,图像编码器和解码器的学习率都设置为0.0001。DIN层中的权重和偏差网络设置为具有10×学习率,以便更快地收敛。
2.2.2构建模型
根据DIN算法的概念构建一个VGG模型,依托VGG-19 network模型,包含了16个卷积层,一共分为五个卷积阶段。卷积层数越多,风格迁移的效果就越好,如果继续增加卷积层,实现的刺绣风格越逼真,但同时其编码的工作量也会大大增加。
2.3实验结果
通过一系列卷积实验,除去效果差以及算法未计算出的图片外,我们收集到了约40张成品图像。具体来说,对于内容图像,其中包含了大致相同数量的四种类别:静物照片、肖像照片、动漫照片和风景照片。肖像照片模拟之后,会造成面部特征损失或扭曲,造成图像内容缺失,影响观感。风景照片的模拟结果虽能够显现刺绣风格,但是失去了风景原有的色彩,这便失去了它的艺术性,所以是无法应用到服装中去的。动漫照片则较好的保留原图像内容又赋予刺绣风格,并具有一定艺术性和观赏性。对于刺绣风格图像,我们主要使用了中国四大名绣即苏绣、湘绣、粤绣和蜀绣,以及民间的一些色彩比较和谐、纹理比较突出的图像。对照片风景模拟时,选择的刺绣图像内容尽量是纹样图案,对静物照片模拟时尽量选择具有相同实物内容的刺绣图。对内容图进行风格化处理时,尽量选择有相同颜色特征的刺绣风格图,使生成效果图具有较为和谐的色彩。
比较得到的成品图像图6和图7,发现成品的风格化效果首先与内容图像的分辨率息息相关,分辨率越高的图像风格化的效果就越好,反之则越差。这是由于刺绣的纹理比较细腻,如果内容图像的分辨率太低就会导致风格化的效果变差,便无法看出刺绣的纹理。其次,算法的复杂性与精确性也是一个关键因素,这里来讲是在算法可行的情况下进行风格化实验的。算法太过冗长,计算时间过长,反复卷积会导致内容图像扭曲,自然风格化效果就会变差。算法不够精确时就不能够生成刺绣风格清晰的细节纹理,在使用更加丰富的风格模式时不够有效。
2.4服装图案刺绣风格化处理对比试验—AdaIN算法
AdaIN的训练类似于DIN,不同的是AdaIN操作不需要训练,而DIN内部包含了需要训练的 weight net 和 bias net 部分,因此本文将基于DIN算法的图案刺绣风格化与基于AdaIN算法的图案风格化相对比分析。
2.4.1实验模型结构
基于AdaIN[19]算法的图案风格化处理实验中所用的网络结构如图8所示,内容图片通过图像转换网络输出生成图片,然后生成图片与内容图片、风格图片一起通过损失函数网络计算总损失,通过使总损失函数最小化,对图像生成网络进行梯度下降,以此来优化参数模型,从而达到最好的迁移效果。
图8 AdaIN算法工作原理简单示意图
先用VGG-19提取风格图片和内容图片的特征,在AdaIN模块进行如公式所示的操作,将内容图片的方差和均值对齐到风格图的方差和均值:
(3)
其中,x表示内容图特征,y表示风格图特征,都是用矩阵的形式来表示。μ(x)和σ(x)分别代表内容图特征的均值和标准差,μ(y)和σ(y)分别代表风格图特征的均值和标准差。
然后在解码器(Decoder)中将特征再还原成图片,之后将还原的图片输送到损失函数网络,计算损失值的大小,具体计算方法如公式所示[20]:
(4)
(5)
(6)
其中, 是总损失, 是内容损失, 是风格损失, 是编码器Encoder, 是解码器Decoder, 是经过AdaIN层后产生的目标图片, 是指经过VGG-19的某一层提取的特征。
2.4.2 实验过程
训练时的内容图和风格图数据集同DIN算法训练模型一致。然后定义计算空间维度的均值和标准差的函数,对AdaIN算法进行实现,每迭代10000次保存一次结果图和权重。最后,在训练完成后进行测试并通过反归一化函数生成我们肉眼可见的可视化图片。
3 结果对比分析
3.1 定性结果分析
3.1.1 生成图片对比
通过对比试验结果如图9、图10所示,发现相较于AdaIN风格迁移模型,基于DIN算法获得的风格化图片具有刺绣特征、较清晰的内容,较好的保留了风格图像的颜色和纹理。
3.1.2 服装效果对比
最后,利用Photoshop软件将得到的几张效果比较好的风格图片模拟到日常穿着比较多的黑白短袖上,如图11和图12。我们的设计思路是将得到的风格图片当作印花使用的图片印在衣服的后背,这与当前市场国潮元素盛行的思路相仿,衣服前则是使用了“国潮计划”这四个字当作logo,更能体现出刺绣文化作为传统文化的瑰宝在当今市场国潮复苏的行情下的回暖情况。
从图片可以看出,上身效果具有一定的艺术性和观赏性,如果能够引入现代的服装市场可能会有不错的经济效益。将基于DIN算法获得风格化图片与基于AdaIN获得的风格图片服装效果相对比,如图13和图14,发现基于DIN算法获得的风格化图片在服装上更显自然和谐。
此外,将刺绣元素与现代服装融合的手段是多元化的,在这里采用的是印花的方式,因为已经将服装图案刺绣风格化了,就不用再采用绣花方式,在市场上更具经济效益。
3.2定量结果分析
本文使用以下5个指标来评估风格化图像的质量。结构相似性SSIM[20]是一种衡量两幅图像相似度的指标。SSIM实际上是测量两个相似图像之间的感知差异,主要用于检测两张相同尺寸的图像的相似度、或者检测图像的失真程度。SSIM算法主要通过分别比较两个图像的亮度、对比度、结构,然后对这三个要素加权并用乘积表示,数值较高意味着两个图像之间更好的结构相似性。峰值信噪比PSNR[21]用于衡量两张图像之间差异,PSNR数值越高,则两图像相似度更高。均方误差MSE[22]反映的是变量间的差异程度,是真实值与预测值的差值的平方然后求和平均,一种基于像素误差的图像质量客观评价指标,用于衡量融合图像和理想参考图像之间的差异。MSE越小,表示融合图像质量越好。均方根误差RMSE在MSE的基础上做平方根,衡量观测值与真实值之间的偏差。信息熵entropy[23]主要是度量图像包含信息量多少的一个客观评价指标。信息熵越高表示融合图像的信息量越丰富,质量越好。
如表2所示,基于DIN算法獲得风格化图片在结构相似性、峰值信噪比和信息熵方面得分都比基于AdaIN获得风格化图片得分要高。说明基于DIN风格模型生成的图像与内容图像具有较高的相似性,风格化图像质量较高,信息量较为丰富。在均方误差和均方根误差上基于DIN 算法的风格化方法得分为3214.0799和62.1414,得分比另一个方法低,说明该方法风格图和内容图融合质量较好,观测值与真实值偏差较小。使用基于DIN算法获得的风格化图片在这几个指标中具有优异的性能,即可以更好地保留内容图像的结构,又使图像具有刺绣的风格。
4结论
随着时代的发展,人们审美情趣的提高以及对中国传统文化的热忱,将刺绣文化与服装图案相结合的风格化艺术表现效果已然成为大众的要求。将风格化的思想使用到服装设计中,传统服装与现代服装的桥梁将被打通,现代服装的设计就更能体现出中国的优秀传统文化。使用DIN算法可以更灵活、更高效的实现内容图像的刺绣风格化。我们所利用的DIN算法使用了一个复杂的样式编码器来编码丰富的样式模式和一个轻量级的内容编码器来提高卷积效率,从结果表明,使用该方法得到了较为满意的效果,特别是在模拟色彩纹理不够突出的一些刺绣风格模式时,也能够获得不错的结果,相较于传统算法有着非常轻的计算成本。此外,能够实现图像风格化的实现方式有很多,每种方式都有着其特殊的优势和劣势,至于后续服装领域会采用哪种方式来进行风格化操作,这还需要综合维护成本及用户需求等因素来考虑,这里我们采用DIN算法来实现刺绣风格化,仅仅作为进行刺绣风格化的一个尝试,为未来服装领域应用刺绣风格的服装图案打下一定的基础。
参考文献:
王君. 基于风格化图像处理和个性化定制需求的丝巾设计[D]. 杭州:浙江理工大学,2018.
Gatys L A, Ecker A S, Bethge M. A Neural Algorithm of Artistic Style[J]. Journal of Vision,2016,16(12):326.
Johnson J , Alahi A , Fei-Fei L . Perceptual Losses for Real-Time Style Transfer and Super-Resolution[A]. European Conference on Computer Vision[C]. Springer, Cham, 2016.
Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[A].Proceedings of the IEEE international conference on computer vision[C]. 2017. 2223-2232.
Huo Z, Li X, Qiao Y, et al. Efficient photorealistic style transfer with multi-order image statistics[J]. Applied Intelligence, 2022, 1-13.
Xu Z, Hou L, Zhang J. IFFMStyle: High-Quality Image Style Transfer Using Invalid Feature Filter Modules[J]. Sensors, 2022, 22(16): 6134.
Ding H, Fu G, Yan Q, et al. Deep attentive style transfer for images with wavelet decomposition[J]. Information Sciences, 2022, 587: 63-81.
邱德府. 基于機器学习的童装服装智能设计方法研究[D].泉州:华侨大学,2020.
徐畅. 面向服装创意设计的图像风格迁移方法研究[D].昆明:昆明理工大学, 2021.
董学良. 基于深度学习的局部服装图像风格迁移研究[D].武汉:武汉纺织大学,2022.
Ulyanov D, Lebedev V, Vedaldi A, et al. Texture Networks: Feed-forward Synthesis of Textures and Stylized Images[J]. International Conference on Machine Learning, 2016,48:1349-1357.
Li C, Wand M. Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks[A]. European conference on computer vision[C]. Springer, Cham, 2016. 702-716.
陈淑環, 韦玉科, 徐乐,等. 基于深度学习的图像风格迁移研究综述[J]. 计算机应用研究, 2019, 36(8):6.
Jing Y, Yang Y, Feng Z, et al. Neural Style Transfer: A Review[J]. IEEE Transactions on Visualization and Computer Graphics, 2020,26(11):3365-3385.
Jing Y, Liu X, Ding Y, et al. Dynamic Instance Normalization for Arbitrary Style Transfer[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(4):4369-4376.
Chen T Q, Schmidt M. Fast patch-based style transfer of arbitrary style[J]. International Conference on Machine Learning, 2016,10: 48550.
Johnson J, Alahi A, Fei-Fei L. Perceptual losses for real-time style transfer and super-resolution[A].European conference on computer vision[C]. Springer, Cham, 2016. 694-711.
Li Y, Wang N, Liu J, et al. Demystifying neural style transfer[J]. arXiv, 2017,arXiv:1701.01036.
Huang X , Belongie S . Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization[A]. 2017 IEEE International Conference on Computer Vision (ICCV)[C]. IEEE, 2017.
Wang Z, Bovik AC, Sheikh HR, et al. Image quality assessment: from error visibility to structural similarity [J]. IEEE transactions on image processing, 2004,13(4): 600-610.
Setiadi, DIM. PSNR vs SSIM: imperceptibility quality assessment for image steganography[J]. Multimed Tools Appl 80, 2021:8423-8444.
Glentis G O , Slump C H , Herrmann O E . A true order recursive algorithm for two-dimensional mean squared error linear prediction and filtering[A]. Signal Processing[C]. Elsevier B.V. 2000. 1399-1418.
Sparavigna AC. Entropy in Image Analysis[J]. Entropy, 2019, 21(5):502.
Analysis on Style Design of Garment Pattern Embroidery Based on Deep Learning
LI Yuan, CHEN Zhi-hao, ZHANG Hui, YU Miao
(College of Textile and Clothing, Qingdao University, Qingdao Shandong 266071, China)
Abstract:In order to introduce the image style transfer technology based on deep learning into the field of embroidery element design in textile and clothing, and expand the innovative ideas and expression forms of embroidery in clothing. In this paper, the use of DIN algorithm for clothing pattern style migration processing, image stylized processing technology applied to clothing pattern design, clothing pattern embroidery stylized processing, in therealization of clothing pattern embroidery effect at the same time to reduce the input of manpower and material resources. Compared with the image stylization processing based on AdaIN algorithm, the structure of the original image is better preserved andmore natural, which verifies the effectiveness of this method. The study shows that DIN algorithm has a certain feasibility in fashion pattern embroidery stylization processing, and image style transfer technology can be used to better realize the application and research of embroidery in fashion design.
Keywords:Embroidery;Stylized; DIN algorithm;AdaIN algorithm; Deep learning
(责任编辑:李强)
*通讯作者:于淼(1984-),女,副教授,博士,研究方向:服装舒适性与功能防护服装.
基金项目:国家自然科学基金(52073151);山东省自然科学基金(ZR2019PEE022);中國纺织工业联合会科技指导性项目(2018078);教育部产学合作协同育人项目(202101102013);纺织行业智能纺织服装柔性器件重点实验室开放课题(SDHY2106).