APP下载

基于变分自编码器的现代服饰局部中国风格迁移

2021-09-25娟,胡

毛纺科技 2021年9期
关键词:编码器服饰局部

杜 娟,胡 静

(1.南昌航空大学 艺术与设计学院,江西 南昌 330063; 2.江西艺术职业学院 美术系,江西 南昌 330044)

在全球化的今天,文化艺术是国家和民族的显著标签[1]。在面向世界和接受世界多民族文化的同时,如何让现代化服装保持中国民族特色及风格是我们现在应该思考的问题[2]。让中国人的服装具有中国风格,这是文化自信的直接体现。当前市场中存在着大量的中国风服饰,但总体来说质量不高,并且存在以下2个重要的问题:①中国风服饰设计对专业设计师掌握中国文化深度广度的要求较高,设计师培养周期较长;②创意匮乏,在传统风格和元素的固定框架下进行二次创作的难度较大,导致大多数传统风格服饰的成衣效果千篇一律。

因此,如何高效高质量地创造出真正具有中国风的服饰,并且在现代服装的适当部分,融入适当的中国风格元素,成为现在大家关注的焦点。

早期非参数的图像风格迁移是一种分析风格图像的方法,根据风格绘制物理模型或者数学统计模型,然后对迁移的图像进行纹理的合成,让其更符合建立的模型。这种方法需要建立复杂的模型,对于理论有较高要求,且每个风格需要单独建模,费时费力。相较于深度学习方法[3],非参数的图像风格迁移方法表现出了越来越多的不足。Gatys等[4]提出了基于神经网络的图像风格迁移算法。然而早期基于深度学习方法产生的图像存在噪声、不清晰的问题。而且相较于传统方法需要巨大的数据集,这导致了训练速度慢、程序稳定性不佳等问题[5]。2017年,Zhu等[6]提出CycleGAN (Cycle Generative Adversarial Network),采用2个生成器和2个判别器实现风格转化,并加入一致性损失用于保存内容信息。Luan等[7]在CycleGAN的基础上添加了正则化用于防止过拟合,最终有效提升了图像清晰度。整体而言,基于GAN网络的风格迁移系统在图像全局风格迁移中有较好的效果,但在局部风格迁移中普遍存在局部区域划分不佳、风格迁移后存在边界伪影等问题。

在这样的背景下,本文结合服饰局部风格迁移的特点,提出了基于变分自编码器的局部服装风格迁移方法,有效利用了注意力机制的思想加强了各局部区域之间的相关性,可以只对特定相关区域进行风格迁移,其他区域保持不变,有效保留了原始图像的部分风格与迁移风格相结合,从而提高了输出图像整体的真实性和艺术性。

1 传统图像风格迁移

随着人工智能技术和深度学习技术的飞速发展,越来越多的领域应用了智能技术[8]。随着人民生活质量的不断提高,以文化和艺术为代表的产业快速崛起,并且其多为技术密集型产业,其发展依赖创意和创新。但创新能力的高低是该行业发展的重要瓶颈,因此,为广大的设计者注入全新创意的图像风格迁移技术便应运而生。

深度学习在目标识别、目标分类、图像分割和目标跟踪等领域都取得了重大的突破[9],而随着Gatys等[4]研究者将深度学习技术应用在图像风格迁移上时,人工智能又一次在全新的领域上大放异彩。

在机器视觉中许多经典的问题可以被认为是图像转换任务,即系统接收一些输入图像并将其转换为输出图像。图像处理的例子包括去噪、超分辨率和着色,其中输入是一幅原始图像(有噪声、低分辨率或灰度),输出是一幅高质量的彩色图像[10]。计算机视觉的例子包括语义分割和深度估计,其中输入是一幅彩色图像,而输出图像编码了有关场景的语义或几何信息。实现图像变换的一种方法是在监督下训练前馈卷积神经网络,使用每个像素损失函数来测量输出图像和真值图像之间的差异[11]。

Gatys等[4]进行图像艺术风格转换,将一幅图像的内容与另一幅图像的风格相结合,共同最小化特征重构损失,风格重构损失也是基于训练的卷积网络提取特征,类似的方法已经被用于纹理合成。他们的方法产生了高质量的结果,但计算代价昂贵,因为优化问题的每一步都需要通过预先训练好的网络向前和向后传递。为了克服这种计算负担,研究者训练了一个前馈网络来快速逼近其优化问题的解。目前基于传统方法的图像风格迁移算法主要有以下几种:基于画笔的渲染技术(SBR)、基于区块的渲染技术(Region-Based)、基于实例的渲染技术(EBR)、基于图像处理与滤波的技术(IPF)[12]。这些方法都可以有效对图像场景进行风格迁移,但由于传统方法对原始图像的要求过高,难以应对灵活多变的场景和图像结构。因此,随着深度学习的逐渐发展,越来越多的研究者采用深度学习方法进行图像风格迁移[12]。

2 基于变分自编码器的风格迁移

从原始图像数据中自动发现和识别的视觉概念是人工智能研究的一个重大开放挑战。为了解决这个问题,研究者提出了一种变异的无监督学习方法来表示潜在的复杂因素关系。人们从神经科学中获得灵感,并解释了如何在无监督生成模型中通过应用同样的学习能力来实现这一点。通过模拟在大脑的腹侧视觉通路,强制减少冗余,鼓励统计独立性,建立了一个能够学习复杂因素的变分自编码器(VAE)框架。现有的变分自编码器模型利用鉴别器和变分自编码器的对抗性训练,使编码器从图像中分离出图像内容在潜在空间的表示。然后将图像内容表示作为生成器的输入,同时加入目标风格向量Z,从而生成目标风格的图像。在生成器端加入的风格向量是由二进制的标签向量通过线性变换得到。当前,变分自编码器在广泛的数据集上训练测试都展示出了极佳效果。该框架在无监督学习的情况下对独立数据生成的因子进行可解释的因素化表示。人工智能能够像人类一样学习和推理,可以在完全无监督的方式下从原始图像数据自动发现可解释的因子潜在表示形式。

2.1 整体结构

自编码器是一种数据处理形式,其将目标数据X编码为向量Z,并通过解码器可以将Z重新生成X′。由于Z的形式固定,自编码器的工作过程是固定的,无法满足对多形式任意数据的处理需求。因此研究者们提出了变分自编码器来解决这个问题。变分自编码器结构示意图见图1。

图1 变分自编码器结构示意图

由图1示出,其直接对原始数据生成新的潜在向量Z,其中包括原始数据的信息和噪声信息。其中原始数据样本{X1,X2,…,Xn},整体用X来表示。X的分布为p(X):

(1)

其中,对于潜在结构维度的描述,是变分自编码器和自编码器不同的关键。

变分自编码器内部示意图见图2,由图示出,简单的向量Z并不能解释维度,样本Z可以从1个简单分布中获得:N(0,I),其中I是单位矩阵。由于n维空间中任何分布都可以有n个服从正态分布的变量生成,并且可以产生1个足够复杂的函数映射出来。这一过程在变分自编码器中被称为编码器,其主要作用是通过原始数据的输入,产生潜在变量的概率分布。而其中解码器是生成新的X′条件分布。由于噪声的加入,重构的过程变得更加复杂,但正是噪声的存在,增加了重构结果的随机性,目的是为了得到更好的重构模型。

图2 变分自编码器内部示意图

2.2 基于变分自编码器的图像风格迁移算法

基于变分自编码器的自身特点,本文设计了基于变分自编码器的风格迁移算法,并且将其应用在现代服饰的中国风格迁移研究中。该算法是在传统变分自编码器的基础上进行重新设计后得到的,主要由3部分组成:编码器、解码器和损失函数[13]。基于变分自编码器的图像风格迁移算法结构示意图见图3,由图示出,输入原始数据为内容图像(内容)和合成图像(风格),输入编码器后获得潜在的风格因素Z。风格因素与内容图像共同输入编码器后,可以融合内容图像的内容和合成图像的风格得到新的输出图像。进一步,损失函数中利用重构损失函数来评估输出图像与合成图像的差异,KL散度损失函数用来限定风格因素Z的正态分布[14]。

图3 基于变分自编码器的图像风格迁移算法结构示意图

2.3 服装图像预处理与风格迁移方案

在当前流行的服饰中融入中国风格,不是简单将整幅图像进行风格迁移变化。因为没有无风格的服装,也没有脱离服装单独存在的风格。并且内容与风格的界限十分模糊,应用在服装的风格迁移上,更难划分界限。

本文研究利用变分自编码器,将风格从风格图片中提取出来,并且应用在期望改变风格的服饰局部上。其中,服装图像预处理主要有目标检测和目标分割[15]。Yolo v3原理结构图如图4所示,选用Yolo v3的算法对内容图像中的服装模特进行目标检测。再利用经典语义分割算法(FCN)对目标区域进行更精确的语义分割,实现对局部目标的准确提取,最终实现仅对局部位置进行风格迁移。

图4 Yolo v3原理结构图

本文研究采用的Mask-RCNN以Faster-RCNN为主体框架,在其网络的头部引入另1条FCN并行分支用于检测ROI的mask map信息,这样其头部包含3个子任务:分类、回归和分割。第1阶段扫描图片并生成提议(即有可能包含1个目标的区域),第2阶段对提议进行分类并生成边界框和掩码[16]。

Mask-RCNN的处理过程一般是输入一幅要处理的图片进行相应的预处理(或者直接输入预处理后的图片),将处理结果输入到1个预先训练好的神经网络中得出对应的特征图,对特征图中每一点设定预定的ROI区域,从而获得多个候选ROI区域。将候选的ROI送入区域生成网络(RPN)进行二值分类(识别出是前景或是背景)和边框回归,过滤掉一部分候选ROI。对剩下的ROI将原图和特征图的像素点对应起来,将特征图和固定的特征对应起来,即ROI中的每个点取其所在格子的4个顶点的坐标值做双线性插值,对这些ROI进行分类、边框回归和MASK生成(在每个ROI里面进行FCN操作)[17]。

在传统变分自编码器的基础上,对编码器和解码器进行调整,能够以多种方式实现服装的风格迁移,从而达到不同的效果。第1种方法,保留完整变分自编码器架构,把整体模型用作风格迁移网络,在编码器中输入带有中国风格的风格图片,和经过预处理的原始服装内容图片,对局部细节进行中国特色风格迁移,找到潜在变量,通过解码器输入风格化后的合成图。第2种方法,通过屏蔽掉编码器,利用输入解码器的内容图像和正态分布中的采样作为潜在风格变量,最终实现固定服装样式不变,对目标服装进行多风格的变化。第3种方法,利用固定的风格编码,改变输入的服装内容图像,屏蔽编码器提取潜在风格步骤,可以实现输出风格一样而内容不同的服装样图。

3 中国特色风格迁移实验与结果分析

根据服饰风格迁移的实验需求,实验选取的计算机硬件CPU(配置Intel i7-9700K)、GPU(配置NVidia RTX2080)、内存32G;计算机软件为python(3.7.3版本)、TensorFlow(TensorFlow 2.0 Alpha版本)、IDE (PyCharm community edition版本)。

在数据集的选择上,由于本文是对变分自编码器的创新应用,网络同时输入内容图像与风格图像。内容图像数据集(局部)如图5所示,内容图像来自于AIUAI-Dataset-DeepFashion服装数据集,该数据集包含了50个服装类别和289 222张服装照片,本文研究选取50张不同类别图案简单的衣服图片,防止过于复杂的图案(如卡通人物等)影响实验效果。

图5 内容图像数据集(局部)

风格图片如图6所示,风格图片选择了2种具有中国传统特色的图片,一种为中国水墨画风格,另一种为中国传统西域壁画风格[18]。

图6 风格图片

本文采用Yolo v3的算法进行目标检测,其具有收敛速度快和避免过拟合的特点[19-20]。由于本文选用数据集的大部分目标,在背景中都是十分突出的,多种目标检测方法识别的准确率非常高,但考虑到未来实际环境中服装图片背景多较为复杂。因此复杂背景下的服装分割是必不可少的,因此选用兼顾速度与准确性的Yolo v3框架进行目标检测。图像分割见图7。

图7 图像分割

采用在Mask-RCNN引入FCN进行图像分割的方法。首先,算法对已经确定的模特所在区域进行二次目标检测,确定期望风格迁移区域。如图7所示,算法对2张不同图片目标检测得到的重点区域进行分割,在每个目标中生成高质量的分割掩膜,算法成功地将裙子、领口和裙摆分割出来。将分割出来的检测目标进行标记,作为生成器的输入进行中国风格的迁移。采用2.3节风格迁移的第1种方法进行实验,局部风格迁移实验效果如图8所示。首先生成1张全局风格迁移图片,同时在局部采用先目标检测后实例分割的方法生成掩膜。通过掩膜覆盖在全局风格迁移图片的方式实现风格转换。可以清楚看出,变分自编码器成功实现了对2种不同中国风格的采样,并且在该算法下所获得的风格数据可以在不同的对像中进行迁移。该算法同时可以学习一系列图像的潜在特性,并且依据这些规律和特征设计图像的潜在风格,为设计者提供了极大的方便。

图8 局部风格迁移

4 结束语

本文研究了变分自编码器在图像风格迁移方面的应用,针对图像风格迁移的算法所存在的局部区域划分不佳、风格迁移后存在边界伪影等问题,对服饰图片的风格迁移过程进行改进,提出了一种基于Mask-RCNN框架的FCN图像分割,对现代服装可编辑局部区域进行自动分割提取,设计了用于现代服饰风格迁移的变分自编码器方法模型,通过实验获得迁移后的合成图片变得更为清晰,细节更加丰富。同时可以对不同的中国风格进行有机融合实现风格迁移,在应用以后将大幅减轻了服饰风格迁移设计者的工作量。

此外,由于图像风格迁移的背景为服装设计,故对图片分辨率的要求远高于一般的图像风格迁移算法,但是在基于深度神经网络进行图像合成的方法中,分辨率不足的问题是不可避免的。如果想要获得更高质量的结果图像,意味着模型的参数增大,需要更大的训练集。在实际应用背景下,必须平衡二者之间的关系,这是未来服饰风格迁移算法的研究重点。同时,变分自编码器和传统的风格迁移算法中,都存在相同的问题,就是风格迁移的过程中,往往是固定内容图像对风格图像进行迁移,难以实现固定风格图像,对内容进行采样或者二者同时采样进行风格迁移,这个问题有待于未来进行解决。

猜你喜欢

编码器服饰局部
局部分解 巧妙求值
动物“闯”入服饰界
非局部AB-NLS方程的双线性Bäcklund和Darboux变换与非线性波
听诸子百家讲“服饰穿搭”
雪人的服饰
基于FPGA的同步机轴角编码器
基于PRBS检测的8B/IOB编码器设计
局部遮光器
吴观真漆画作品选
JESD204B接口协议中的8B10B编码器设计