APP下载

基于服装风格的款式相似度算法

2021-11-29慧,

纺织学报 2021年11期
关键词:风格特征残差款式

江 慧, 马 彪

(东华大学 旭日工商管理学院, 上海 200051)

随着大数据时代的来临,网络上有大量的服装图像,如各类时尚博主分享在社交媒体上的穿搭图像、用户随手拍的街拍穿搭以及服装时尚领域发布的流行服装搭配图像等,越来越多的用户通过各大电商网站提供的“以图搜图”功能购买相似商品,倾向于图像检索的方式实现跨场景的需求。实际场景中的服装图像更为复杂,包括很多难以用文字描述的属性特征,因此,研究合理有效的服装图像相似度的计算方法,是解决基于图像的服装个性化推荐的关键之一。

传统图像相似度的计算已经取得了较好的效果,韩旭[1]研究了商标图像的相似度计算,利用余弦相似度对待检索样本图像和验证样本图像进行相似度检索;王朝卿等[2]针对灰度直方图提取算法的局限性,提出基于特征点匹配的尺度不变特征变换(SIFT)算法,能更好地计算图像的相似度。传统的图像相似度计算大都提取的是图像整体特征,如颜色、纹理、轮廓特征等[3-4]全局特征,在普通图像相似度比较上效果显著。而服装图像细粒度分类多[5]、视觉变化大,其图像相似度计算更加依赖于服装设计元素或者裁剪方式等细节特征,而不仅仅是整体上的颜色、纹理、轮廓等全局特征,传统的图像相似度计算方法很难适用,其准确率和可解释性有待进一步提高。目前,区分不同服装类别的维度很多,如面料、颜色、款式造型、风格等[6],其中按照服装风格比较服装相似度是消费者最常用的方法。由于服装图像在款式风格上的复杂多样性,本文考虑对影响服装风格的因素进行分析和量化,进而研究基于服装风格的图像相似度计算。

服装风格的形成受很多因素的影响,刘晓刚[7]提出了服装风格可界定和量化的观点,之后许多学者开始专注于服装风格的量化研究,加大服装风格的区分度,使得服装风格的判断也能够有据可循。谢珍珍等[8]总结出服装风格形成的客观元素主要有服装造型、色彩和面料等,其中款式造型是服装风格量化研究的一个重要领域;冯利等[9]从服装的轮廓造型,包括领、袖、分割线和裁剪方式等角度对服装风格进行量化,得出服装风格和服装各部件裁剪造型之间的关系。此外,一部分学者还从服装风格的设计元素对服装风格进行相应的量化研究,贾玺增等[10]阐述了服装面料促成服装风格的形成,面料的特性会融入到服装的整体风格中;陈雁等[11]提出颜色对服装风格的重要影响,是与颜色的物理特征、人的生理感觉密切联系的。综上,本文考虑从服装风格比较重要的影响因素款式造型着手,如领口、袖口、衣长、剪裁方式等属性特征,获取服装在款式上的风格特征,从而判断不同服装的风格相似度。

近年来,越来越多的学者将深度学习与服装图像属性识别相结合,取得了不错的效果。吴圣美等[12]提出一种结合人体检测和多任务学习的少数民族服装识别方法,提高了少数民族服装图像识别的准确率和效率。张凯丽[13]构建了一个基于深度迁移学习和特征增强卷积神经网络模型,提高了服装属性识别的准确性。Liu等[14]融合了大类、属性、服装ID以及关键点4种监督信息来进行服装特征学习。林城龙等[15]提出了一个更加轻量的深度卷积神经网络模型,采用多任务分类方法提升了服装图像分类的准确率。现有的研究大都是提取服装图像的浅层特征,对服装单个类别进行分类,分类的粒度较粗,而本文主要研究更细粒度的服装属性识别,对类别的划分更具体,从而抽取到更丰富的服装款式风格特征,更好地构建基于服装风格的款式相似度算法。

综上,本文旨在构建服装款式的风格特征模型,研究服装款式特征的深度学习算法,提高图像属性的识别准确率,最终实现基于款式风格特征的服装图像相似度计算。

1 服装款式的特征模型

1.1 款式的风格特征构建

常用的图像相似度计算采用余弦相似度方法,如图1所示。基于余弦相似度方法计算图1(c)、(d)的图像相似度,计算结果为0.924 5,在一般图像上的相似度计算效果较为显著。基于余弦相似度方法计算图1(a)、(b)2张服装图像的相似度,计算结果为0.953 3,而这2张服装图像无论是在风格上还是颜色外观上都不具有较高的相似度,会和实际产生明显的偏差。

图1 图像相似度举例Fig.1 Image similarity example.(a)Clothing image 1; (b)Clothing image 2;(c) Natural image 1;(d) Natural image 2

传统图像相似度的计算方法在计算服装图像相似度的时候会和实际产生明显的偏差,原因在于传统的方法大都关注的是图像浅层的整体特征,如颜色、纹理、轮廓等全局特征,会忽略服装深层次的特征,如衣领、衣袖等局部细节。考虑到影响服装风格的服装属性类别多且细分程度很高,本身柔性、形变比较大,设计元素也比较多样,本文归纳出服装风格的构成要素:服装的款式造型、颜色风格以及服装面料等。其中款式造型是区分服装之间风格相似度的重要领域。因此,本文主要构建基于服装款式风格特征的图像相似度计算模型,如图2所示。

图2 基于服装风格的款式相似度计算模型Fig.2 Model for calculating style similarity based on clothing style

在服装设计中,冯利等[9]对服装风格进行量化,总结出了影响服装款式风格的几大类别以及各类别上的具体细分。夏明等[16]通过分析连衣裙款式关键点轮廓,总结出影响廓形的部位包括肩部、胸部、腰部、臀部、膝盖和下摆。本文结合服装风格量化的相关研究,构建了服装款式的风格特征,其数学表达式如下:

Style(i)={x(i),f(x(i))}

式中:Style(i)代表第i张服装图像的整体风格;x(i)表示影响第i张服装图像风格的组成要素,x(i)∈{款式造型,服装颜色,面料,…};f(x(i))表示对应要素下的具体特征分布。本文研究款式的服装风格特征构建,即x(i)取值为“款式造型”。

Style(i|x(i)=‘款式造型’)={Ci,Ai,Pi}

式中:Style(i|x(i)=‘款式造型’)表示第i张服装图像在款式造型上的风格特征,包括款式类别Ci和类别下的具体特征Ai;Pi表示具体的属性特征取值。Ci∈{长度设计,领子设计,裁剪设计}。当Ci取值为“长度设计”时,Ai∈{裙长,裤长,衣长,袖长};当Ci取值为“领子设计”时,Ai∈{领型,领深,翻领,颈线};当Ci取值为“裁剪设计”时,Ai∈{袖型,裤型,腰线,装饰物}。

基于所构建的服装款式的风格特征,进一步构建服装图像风格特征识别模型,采用深度学习网络可提取服装深层次的属性特征,最终基于提取出的服装款式特征计算服装风格的款式相似度,区分不同服装在风格上的相似度大小。

1.2 服装图像风格特征的识别算法

目前,在图像处理上采用的深度学习方法主要是卷积神经网络(CNN),准确率有了很大的提高,Chen等[17]采用不同的CNN网络结构进行服装分类实验,均取得良好的结果,最高准确度为92.02%。常见的深度卷积神经网络模型有LeNet、AlexNet、VGG-NET、Google-Net以及ResNet,本文要识别更多服装属性的深层次的特征,需要设计较多的网络层,网络层数越深,其表达能力越强,但网络设计得太深,会有梯度衰减等各种问题使网络的性能大幅度下滑,用一些正则化、线性整流函数(RELU)等激活函数也不能完全避免。而残差网络的特点是容易优化,其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题[18],能够通过增加相当的深度来提高准确率,且在2015年的ImageNet大规模视觉识别竞赛中ResNet残差网络分类算法获得了图像分类和物体识别的优胜。因此,对于本文的研究问题来说,使用残差网络设计较深的网络层数,从而提取服装更深层次的细节属性特征,可以达到较好的训练效果。

另外,为了获得良好分类能力的深度学习模型,需要大量服装图像进行训练,这样巨量的训练数据获取成为阻碍服装多标签分类的难点。而迁移学习是解决深度学习数据集稀少的常用方法,将源领域训练好的模型迁移到现有模型中,可很好地把一个领域学习的知识迁移至另一个领域,充分发挥其在源领域中学习到的图像细节特征提取的优势,提高模型的泛化能力。因此,本文采用迁移学习的思想,使用残差网络模型作为基础特征提取网络,解决服装图像数据不充足的问题,也能获得较好的训练效果。

综上,本文基于1.1小节构建的服装风格特征,结合迁移学习的思想,设计改进的残差神经网络模型ResNet,利用其在ImageNet中学习到的图像识别相关知识,将其迁移至新的服装图像属性识别的任务中,抽取到的通用特征对于新的识别任务产生了显著的效果,用于识别服装图像的风格特征。图3示出本文构建的服装图像风格特征的识别模型。采用了多任务的多标签分类算法,构建各个服装类别上的多标签分类模型,从而识别出服装图像在款式上的风格特征,如在裙长特征识别任务中,对于输入的图像,通过残差网络模型的特征识别,最终识别出该服装图像的裙长属性特征为“中裙”。

图3 服装图像风格特征识别模型(残差网络模型)Fig.3 Clothing image style feature recognition model (residual network model)

图3中的残差网络模型通过在源数据集上预训练神经网络模型得到源模型,然后构建一个新的神经网络模型作为目标模型,去除源模型的最后1层输出层,将剩余网络层的节点权重复制到新的目标模型上,确定目标模型输出层的输出大小,并对该层的模型参数进行初始化,从而将源模型中学习到的知识迁移到新的目标模型中,再通过模型的训练,就可识别出服装的属性。

随着网络深度的增加,深度神经网络的准确率会达到饱和,然后迅速退化。而本文使用的残差网络模型,基于残差学习单元可解决这个退化问题。在图4所示的残差网络结构图中:X可通过折线部分直接传输给下一层网络,残差网络中提出的残差映射(residual mapping)输出的是F(X),最终模型整个输出为H(X)=F(X)+X,ResNet改变了学习目标,不再是学习一个完整的输出,而是残差F(X)=H(X)-X,因此,训练目标就是要将残差结果逼近于0,随着网络加深,准确率就不会下降。

图4 残差网络结构图Fig.4 Residual block structure diagram

图5示出不同层数残差网络模型的残差块的结构,2种结构分别针对ResNet34(见图5(a))和ResNet50(见图5(b))。图5(a)中是2个3×3的卷积,图5(b)先使用1×1卷积对稀疏信息进行压缩,有效利用计算力,减少参数的运算,效率更高。因此,本文考虑到需要识别的服装属性特征较多,为了减少参数量,采用网络层数更加复杂的ResNet50模型,在提高模型运算的效率的同时也不会降低计算的准确率。

图5 残差块的改进-瓶颈结构Fig.5 Improvement of residual block-bottleneck

表1示出本文使用的ResNet50网络模型的结构。要求输入图像的大小为224×224×3,获取特征向量后对其进行平均池化,然后将特征向量输入到Softmax分类器得出服装图像所属类别的概率值,从而判断出当前输入图像所属的类别属性。

表1 ResNet50的网络结构Tab.1 ResNet50′s network structure

基于本文构建的风格特征识别算法,可识别出服装款式的风格特征,表示形式如下:

Style(i|x(i)=‘款式造型’)=

{Ci,Ai,Pi=maxaprob(a|I)}

式中:Pi为服装图像i在给定款式风格类别Ci、款式风格子类别Ai下的具体服装属性特征值;prob(a|I)为该类别下属性为a的预测概率分数,最终Pi的取值为最大输出概率对应的属性值,属性特征值的输出形式为[a,prob],包括属性a以及对应的概率值prob。

1.3 基于服装款式特征的相似度计算

基于识别到的服装图像款式风格特征,可计算服装之间的相似度大小,现有的几种基本方法都是基于向量,即计算2个向量的距离,距离越近,相似度越大。例如:皮尔森相关系数反映了2个变量之间的线性相关程度,其取值在[-1,1]之间,计算出来的欧几里德距离是一个大于0的数,距离越小,越相似,更多地体现个体数值特征的绝对差异,常用于需要从维度的数值大小中体现差异的分析。

考虑到风格特征的识别结果是离散形式的分类特征,余弦相似度计算结果对数据绝对值不敏感,通常描述用户的兴趣、喜好或用于情感分析,相比距离度量,余弦相似度更加注重2个向量在方向上的差异,可弱化风格特征度量标准不统一这一因素。因此,本文将输入服装风格特征,将其映射到向量空间,用向量空间中2个向量夹角的余弦值来衡量2个风格特征间的相似度,进而比较服装图像在款式风格上的相似度。其计算公式如下:

式中:cos(pic1,pic2)表示服装图像1和图像2风格特征之间的余弦相似度,用来度量二者在款式风格上的相似度大小;X表示服装图像1的款式风格特征向量;Y表示服装图像2的款式风格特征向量;i的取值范围为特征向量的长度。

2 实证研究

2.1 实验数据集

实验数据来源于天池大数据的FashionAI服装图像,服装图像超过10万张,每个类别的服装图像数据充足而且都有人工标注的属性标签,图像清晰完整,标注信息准确,对服装属性识别算法的训练和测试提供了完善的实验数据。基于阿里云天池大赛对服装图像属性的分类,本文对服装8个类别(领子、颈线、脖颈、翻领设计、袖长、衣长、裤长、裙长)分别进行多标签分类训练。

2.2 实验设计

图6为服装多标签属性识别算法流程图。用来训练服装多标签属性的识别算法包括以下几个步骤。

数据集预处理:图像集的预处理包括训练集和测试集的预处理。借助计算机视觉的图像增广技术,对训练集图像进行增广、随机裁剪、翻转等处理,增广前的服装图像大小为224×224×3,增广处理之后大小为256×256×3,既能扩大训练集规模,也能降低模型对图像特定位置的依赖,降低模型对图像位置的敏感性,一定程度上也能降低模型的过拟合,提高模型的泛化能力;对测试集不做裁剪和翻转,只需要进行简单的图像增广处理。在数据集预处理设置好之后,定义数据读取接口,训练集和测试集数据读取接口采用gluon框架自带的DataLoader数据加载接口,在读取速度上比较快,可以缩短模型训练的时间。

模型定义和参数设置:本文系统采用的服装属性识别算法的模型采用迁移学习的方式,使用预训练的残差网络模型ResNet50_v2,预训练的模型有2个成员变量features和output。features包括除去模型输出层之外的所有层;output是指模型的输出层。因此,将预训练模型上除了输出层之外的网络参数即features部分复制到本系统模型中来,然后再进行接下来的迁移学习模型的训练和测试。

图6 服装图像风格特征的识别算法流程图Fig.6 Flow chart of recognition algorithm of clothing image style features

微调:微调是迁移学习中常用的一种模型迁移技术,保留源模型输出层之外的网络层,然后对输出层进行调整,保留输出层的网络权重,调整输出层输出个数为指定服装类别的属性个数,然后对输出层的权重进行随机初始化,之后可将模型部署到一定的环境中,确定模型训练器的学习率为0.001,优化器中参数momentum=0.9,wd=1×10-4,batch_size=32。

模型训练:准备好数据集和读取数据的接口,部署好训练模型,然后迭代训练ResNet50_v2网络模型,从迭代器的训练集数据读取接口中获取到的批次数据及标签值,并通过自动梯度下降来实现图的计算,输出网络预测数据,并计算交叉熵损失率(Loss),对Loss进行反向传播,设置训练器的步骤数为批次数,累加每个批次的损失率,得到最后的损失。每次迭代都计算相应的准确率和损失率,来观测模型训练的效果。

模型测试:模型测试中,会输出概率最大的属性类别作为该图像的属性值,可选择测试集中已知的服装类别图像,验证模型的准确率。

2.3 实验结果和分析

本文将服装图像随机拆分为80%的训练集、20%的验证集,通过卷积和池化操作提取图像特征。表2示出其中8个服装类别的模型训练的实验结果。可看出,训练集和测试集的准确率以及平均精度的值都比较高,Loss值较低,这8个类别的算法在测试集上的平均准确率为0.80,平均精度为0.884,平均损失率为0.576,在准确率和精度上都达到了80%,精度接近90%,模型的训练效果显著。

表2 实验结果Tab.2 Experimental results

图7示出服装图像实例。基于服装风格特征识别算法,识别出各自的风格特征,特征表示如下:

Style(a)={(长度设计,裙长,‘short’)(领子设计,领深,‘Invisible’)(领子设计,领型,‘Invisible’)(领子设计,颈线,‘Deep V Neckline’)(长度设计,袖长,‘Long Sleeves’)(领子设计,翻领,‘Invisible’)}

Style(b)={(长度设计,裙长,‘short’)(领子设计,领深,‘Invisible’)(领子设计,领型,‘Invisible’)(领子设计,颈线,‘Deep V Neckline’)(长度设计,袖长,‘Long Sleeves’)(领子设计,翻领,‘Notched’)}

Style(c)={(长度设计,裙长,‘Floor’)(领子设计,领深,‘Invisible’)(领子设计,领型,‘Invisible’)(领子设计,颈线,‘Deep V Neckline’)(长度设计,袖长,‘Sleeveless’)(领子设计,翻领,‘Invisible’)}

Style(d)={(长度设计,裙长,‘Knee’)(领子设计,领深,‘Invisible’)(领子设计,领型,‘Invisible’)(领子设计,颈线,‘Straight Neck’)(长度设计,袖长,‘Long Sleeves’)(领子设计,翻领,‘Invisible’)}

图7 服装图像实例Fig.7 Examples of clothing images.(a)Lady dress 1; (b)Lady dress 2;(c) Bohemian dress;(d) National dress

基于识别出的服装图像风格特征,可计算不同服装在款式造型上的风格差异。图7(a)、(b)的风格相似度计算如下:

Similarity(a,b)=

式中:style(a)和style(b)为风格特征向量,基于图7(a)、(b)的风格特征向量间的余弦距离,可计算出服装在款式风格特征上的相似度,计算结果见表3。

表3 基于款式造型比较服装相似度Tab.3 Compare clothing similarity based on style

对比图7(a)和(b)可看出,二者基于款式风格特征的相似度为0.933,高于传统的基于图像余弦相似度计算出的结果0.881,本文的方法比传统的方法准确率更高;再比较图7(c)和(d),传统方法计算出的整体相似度为0.906,基于款式风格特征的相似度为0.684,而这2张图像风格不同,细节属性差异也很大,传统的方法在服装图像上的应用效果缺乏可解释性,无法捕捉到服装图像深层次的细节属性特征,从而在为用户推荐相似服装的时候,效果不尽如意。因此,在服装图像的环境因素比较复杂时,本文从服装的款式造型上比较图像风格的相似度,计算结果更具解释性,也更接近人的主观感知,可以较好地比对服装款式风格相似度,为服装个性化推荐提供新的思路。

3 结 论

基于电商大环境以及用户跨场景需求越来越多样化,本文通过对服装风格的量化分析,构建了基于服装风格的图像相似度计算模型,从影响服装风格的款式造型展开研究,构建了基于迁移学习的残差神经网络用来识别服装图像的风格特征,实现了基于服装风格的款式相似度计算,与传统的图像相似度方法相比,本文方法在计算结果上更准确,也更富解释性,能够从服装设计风格的角度比较不同服装图像的相似度,并为基于服装风格的个性化推荐提供新的思路。

此外,本文研究尚存在一些不足,需要进一步深入:1)进一步细化款式风格量化的粒度,实现对款式造型风格更加精准的量化;2)后续会对服装环境所造成的干扰进行噪声处理,并展开对非模特展示的服装图像研究,探究不同状态下服装图像属性识别的效果,增加算法识别的精度和鲁棒性;3)可进一步扩展影响服装风格的因素,如服装的面料、颜色、图案logo等,完善对服装风格的量化研究。

FZXB

猜你喜欢

风格特征残差款式
基于残差-注意力和LSTM的心律失常心拍分类方法研究
融合上下文的残差门卷积实体抽取
基于残差学习的自适应无人机目标跟踪算法
基于深度卷积的残差三生网络研究与应用
Dream Bag
浅析甘肃清水县轩辕鼓舞的风格特征
北海与上海两地水彩画比较研究
浅析蒙古族民间舞蹈中“绕肩”的审美规范
肖邦《降b小调夜曲》(OP.9NO.1)的演奏特点与风格特征
最火的单品款式