基于深度学习的产品风格精细识别
2024-04-10苏建宁张志鹏鱼宝银
李 雄 ,苏建宁 ,张志鹏 ,祝 铎 ,鱼宝银
(1.兰州理工大学 机电工程学院,甘肃 兰州 730050;2.兰州城市学院 培黎机械工程学院,甘肃 兰州 730070 3.兰州理工大学 设计艺术学院,甘肃 兰州 730050;)
0 引言
风格策略及设计是提升产品设计质量的重要手段之一[1]。良好的产品风格设计可以有效传达消费者的情感需求,也能充分体现设计师的理念,不仅是设计师与消费者沟通的重要方式,还是设计师准确把握和理解消费者对产品情感认知的重要途经[2-3]。从广义的角度来看,产品风格是地域、文化、经济、生产技术等环境因素综合折射的结果。但从狭义的角度看,产品风格是通过不同的造型方法将各种造型元素分析、组织后,构建出的一种具有相似造型特征的集合[2,4]。其内涵涉及造型特征和意象特征[2],是物理层面与精神层面高度融合的结果。因此,如何快速、准确、有效地计算产品风格及生成方法构建是研究者和实践者们长期探索的方向[2,4-5],风格识别作为产品风格设计计算的首要任务,在产品形态概念生成、设计评价和用户偏好推荐等方面扮演着重要角色[2,4-7]。
针对产品风格计算,文献[2]总结的4类方法相对全面合理,包括基于形状文法的产品风格描述与再现、基于感性工学的产品风格与造型要素映射、基于认知心理学的产品风格认知计算和基于模式识别理论的产品风格计算模型。其中第4类方法属于人工智能范畴,然而受限于当时的算力、算法和数据,研究并没有获得较好的效果,仅作为一种风格查询系统在使用[2]。近年来,深度学习作为人工智能的一个重要分支发展迅猛,特别是深度卷积神经网络(Deep Convolutional Neural Networks,DCNNs)的发展使得计算机视觉(Computer Vision,CV)在图像识别、目标监测、语义分割等方面取得了重要突破[8]。2012年AlexNet[9]横空出世,在ImageNet(2010)上的图像特征学习能力首次超过人工设计的特征,从而改变了人们对CV的理解方式。AlexNet不仅良好地继承了它的前贤LeNet-5(1998)[10],同时对后续DCNNs研究影响深远。例如,NiN(2013)[11],VGG(2015)[12]、GoogLeNet(2015)[13]和ResNets(2015)[14]都不同程度地参考和学习AlexNet。其中ResNets提出了具有残差块的网络结构,可将网络深度提升至千层,为深度神经网络的收敛做出了重要贡献。另外,研究者们提出的各种激活函数(如ReLU[15],GELUs[16])、暂退法(Dropout)[9,17]、层归一化(Layer Normalization,LN)[18]和批归一化(Batch Normalization,BN)[19]等方法与技术是避免深度神经网络过拟合或梯度消失的重要手段。这些神经网络结构组件的提出不仅促进了深度学习技术发展,还为产品风格智能识别与生成提供了技术基础和研究思路。
近几年,一些研究者开始应用DCNNs提取目标产品的特征信息。HU等[20]针对家具风格视觉分类任务,通过实验对比了基于人工特征设计的支持向量机(Support Vector Machine,SVM)和具有端到端学习能力的DCNNs(AlexNet、VGG16、GoogLeNet等),结果显示DCNNs具有明显优势,但人工设计的特征也不容忽视。朱斌等[21]应用VGG16模型对座椅进行感性偏好识别,对比实验结果表明VGG16感性识别准确率超过经典机器学习算法SVM。GONG等[22]基于AlexNet对产品包装进行像素级的感性分析。ZHOU等[23]应用简化后的VGG11对汽车进行二分类美学评估。王亚辉等[24]结合感性评价提出基于ResNets的人工智能设计决策模型,以起重机造型语义分类为实例进行验证。SU等[25]则应用DFL-CNN对汽车进行细粒度感性偏好分类识别。可见DCNNs在产品风格、感性意象识别、美学评价方面的研究已取得一些成果。然而,现有研究多侧重于验证深度学习方法在风格意象识别、美学评价等方面的可行性,所使用的算法模型多以通用经典深度学习算法为主,鲜有针对产品风格特征精细识别问题提出新的神经网络算法框架。尽管文献[20]发现将人工设计特征和神经网络自动提取特征相结合能提高准确率,但人工设计特征不仅耗时费力,而且不利于扩展风格对象。因此,针对产品风格特征提取及识别的神经网络算法仍需进一步研究。
注意力机制(Attention Mechanism,AM)使得神经网络具备专注于核心特征的能力,最初在自然语言处理中被证实具有突出的效果,现已经被广泛用于不同的CV任务,如图像分类、语义分割、目标检测[26],可以有效降低网络结构和模型复杂度。在DCNNs方面多以视觉注意力为主,常采用通道注意力和空间注意力。迁移学习(Transfer Learning,TL)是机器学习中解决训练数据不足问题的重要方法[27],它试图通过放宽小样本数据集必须为独立同分布的假设,将知识和经验从源域迁移到目标域。迁移学习在CV领域发挥了重要作用,通过在大数据集上预先训练获得一套模型参数,针对新的任务模型参数不再随机初始化,从而实现网络模型保留了在大数据集上获得的经验和知识。
产品风格精细识别是图像识别的一种特殊形式,属于CV应用研究子领域。相比粗粒度大类识别,产品风格精细识别属于细粒度子类识别问题,要求神经网络提取更多具有差异性的细节特征。另外,不同风格产品图像的数量是有限的,可归为小样本学习范畴[28]。因此,产品风格精细识别是一项更有挑战性的图像识别任务。注意力使得神经网络具有自上而下的特征选择而忽略无关特征的机制;预先训练模型作为迁移学习的重要范式为新的图像识别任务提供“通用视觉特征”,如“线条”、“轮廓”等。
基于上述分析,为更专注、更高效地抽取具有差异性的风格特征,提出一种基于复合学习机制(通路)的细粒度风格识别卷积神经网络,同时融入注意力机制和迁移学习模式,以提升产品风格识别准确率。该算法模型有助于设计师在风格特征设计阶段更有效地检索预期风格产品,实现对已有风格特征的检索和重用,也为识别用户风格偏好提供新的技术支持。
1 产品风格精细识别算法模型
1.1 风格识别网络
产品风格精细识别任务属于类内间的细粒度识别问题。DCNNs在图像特征学习方面的能力出众,特别是在数据量充足的条件下能够实现接近或超过人类分类识别水平[8]。然而,大多数产品历史图像数据较为有限,具体到不同风格的样本数据量则更小。本文创建的自行车头盔风格数据集,平均每种风格约有1 200幅图像,属于小样本数据集。如果使用较浅的网络模型难学习到更多有效特征,而采用较深的网络模型又易产生过拟合,二者均容易导致模型性能下降[8,28]。
研究表明,人脑神经系统有两个相对重要的学习机制,即迁移学习和注意力机制,前者能将从前积累的经验用于解决新问题,后者可有效处理信息过载问题。为融合、模拟这两种学习机制,本文提出一种复合并行学习的神经网络算法框架,包括注意力学习通路和迁移学习通路,用于提高复杂产品造型风格的识别精度,如图1所示。注意力学习通路实现“专用特征”学习,迁移学习通路基于大数据预先训练模型实现“通用特征”学习。同时给出一种具体的网络结构实现形式,并命名为细粒度风格识别卷积神经网络(Fine-grained Style Recognition Convolutional Neural Networks,FSR-CNN),如图2所示。一方面注意力学习通路由一种混合注意力残差网络(Hybrid Attention-based ResNet,HA-ResNet)结构实现,是在修改后的残差网络结构中嵌入多种注意力,优点是注意力强且结构简洁,但模型容量较小;另一方面迁移学习通路采用预先训练的GoogLeNet实现,优点是能通过小量数据学习引入外部经验记忆特征,以扩充HA-ResNet的容量。两条并行的学习通路优势互补,“专用特征”与“通用特征”的数量比为2∶1。最终的风格识别输出通过特征融合层和多层感知机(Multilayer perceptron,MLP)分类器实现。
图1 复合学习机制的神经网络算法框架
图2 细粒度风格识别卷积神经网络结构
1.2 混合注意力残差网络
在卷积神经网络中,较浅层用于捕获低阶语义特征,较深层可学习到更高阶的语义特征,因此卷积神经网络一直向着更深的网络结构发展。然而深层网络容易出现退化现象,模型训练难度大,容易出现梯度消失和梯度爆炸。为此,HE等[14]提出了残差学习框架,即通过快速跳跃连接的方式将信号前馈补偿,构建出了残差表示学习方法,从而解决了上述问题。这使得残差结构既可以增加网络层数,又能够防止网络退化现象。另外,注意力机制作为一种资源分配方案,能将有限的计算资源用来处理更关键的信息,可有效提高神经网络的计算效率[26,29]。基于此,本文提出混合注意力残差网络HA-ResNet,如图2所示。以残差结构作为网络基础架构,采用串并结合的方式将3种不同的注意力分阶段嵌入其中,有助于注意力学习通路捕获产品风格关键特征信息。
由图2可知,HA-ResNet输入的是一幅产品图像,输出是该产品造型风格注意力特征张量,共有3个模块组成,分别是图像输入模块、串行注意力模块和并行注意力模块。输入模块采用1个卷积层对输入图像进行处理,卷积核的尺寸为7×7,步长为2,将输入的3通道特征图映射后输出64通道的特征图。使用LN代替BN对卷积层的输出进行层归一化,将高斯线性误差单元GELUs作为激活函数,并用最大汇聚层(MaxPool2d)对激活后的特征进行降维。接着是串行注意力模块,由卷积残差块和坐标注意力块顺序交替组成,将特征图从64维映射到128维。最后是并行注意力模块,包括1个卷积残差块和1个混合注意力块。先由卷积残差块将特征图从128维提升至256维;然后利用自适应平均汇聚(AdaptiveAvgPool2d)提取特征并输出尺寸为7×7的特征图,为防止过拟合在其后加入Dropout层(概率为0.6);最后分别由卷积块注意力模块(Convolutional Block Attention Module,CBAM)和多头注意力(Multi-Head Attention,MHA)模块并行关注而成。另外,所有卷积残差块中卷积核的尺寸为5×5,且激活函数混合使用GELUs和ReLU。
1.2.1 串行注意力模块
深度神经网络靠前的浅层可识别物体的边、角和轮廓,靠后的深层可识别整体对象部分[30],这是一种从局部到整体的识别模式。然而这与WERTHEIMER[31]最先提出的格式塔视觉心理感知组织原则存在差异性。该视觉组织原则包括接近原则(相近的元素倾向于被组织成单元)、相似原则(看上去相像的物体常常被组合为一体)、连续性原则(除非有尖锐的拐点出现,不然视觉知觉认为是连续的)和闭合原则(倾向于完整地构建一个图形,而不是观察残缺的线条或形状)。通常,人们对产品风格的视觉心理感知同样遵循某一条或某几条原则。这说明人的视觉感知具有先整体后局部的先验性特点,为人类快速识别对象提供了有效支持。为了模拟这种视觉感知特点,论文在卷积神经网络较浅层嵌入具有全局注意力机制的坐标注意力块(Coordinate Attention Block,CAB)[32]。如此可使较浅的卷积层提前关注到全局信息,有助于降低网络的深度。由图2可知,串行注意力模块是由残差块和CAB串联而成,其中残差块已在上文进行详述,在此重点讨论CAB的算法结构。
CAB机制的实现如图3所示。首先,分别从水平方向和垂直方向进行平均汇聚操作得到两个特征向量;其次,在空间维度上先进行特征拼接操作(Concat operation),后进行1×1卷积运算,从而实现压缩通道数;然后,通过BN处理和非线性变换来编码垂直方向和水平方向的空间信息,并对其进行分割操作(Split operation);接着,再各自通过1×1卷积运算获得与输入通道数相同的特征图,并使用Sigmoid激活函数对特征数据进行归一化;最后,实现加权输出与输入相同维度的特征图。总结来说,CAB机制首先是在水平方向和垂直方向上同时进行平均汇聚,然后通过一系列变换方法对空间信息进行编码,最后把空间信息在通道维度上以加权求和的方式进行融合,从而实现更大区域特征信息的关注。具体网络设计是在第2个卷积残差块后使用了1个通道数为64、高宽均为56的CAB,以及在第3个卷积残差块之后使用了1个通道数为128、高宽均为28的CAB,从而构建了一个残差坐标串行注意力模块,如图2(第Ⅰ部分)所示。
图3 坐标注意力模块[32]
1.2.2 并行注意力模块
由图2(第Ⅰ部分)可知,并行注意力模块由1个卷积残差块和两个并行通路的注意力块组成,前者执行产品造型特征的高层语义表示,后者实现对重要信息的提取。由于HA-ResNet使用较少的卷积层进行特征提取,但为了从网络深层获得更多关键特征表示,本文提出混合两种不同的注意力机制进行并行特征关注,并与残差块顺序连接构成并行注意力模块,如图4所示。其中,CBAM是一种静态注意力计算模式;而MHA则是以动态生成注意力权重的方式捕捉交互信息,并且能以多头并行运算方式过滤信息。因此,以动静并行的注意力计算模式有利于关注到深层次的风格特征。
图4 并行注意力模块
CBAM[33]是一种用于前馈卷积神经网络的注意力模块,由通道注意力和空间注意力混合而成,如图4上半部分所示。可对给定任何中间特征图在通道和空间依次推断出注意力图,然后将注意力图与给定的中间特征图相乘以进行自适应特征精炼,从而实现对关键特征提取。其连续的注意力计算过程为:
(1)
式中:⊗表示按元素相乘,Fin∈256×7×7是前一层AdaptiveAvgPool2d输出的特征图,Mc∈256×1×1表示1维通道注意力映射,Ms∈1×7×7表示2维空间注意力映射。
MHA[34]是通过将h个自注意力头以并行独立学习的方式表示不同的关注行为,能让每个头都关注输入的不同部分,可以表示比简单加权平均值更复杂的函数,如图4下半部分所示。具体来说,当给定相同的查询(q∈dq)、键(k∈dk)和值(v∈dv)信息集合时,可以用独立学习得到的h个不同的线性映射来变换它们,并对其进行注意力汇聚和拼接,注意力头hi(i=1,…,h)计算方法为:
(2)
最后的输出需经过一个线性变换得到:
(3)
式中:Wo∈po×hpv为可学习的参数。
综合考虑CBAM和MHA,混合注意力特征计算方法为:
(4)
式中:fRD表示特征张量变形及均值降维,FCBAM∈256表示经fRD映射后的卷积块注意力特征;hi∈{1,2,3,…,6}表示使用了6个自注意力头,FMHA∈256表示经fRD映射后的多头自注意力特征;fCON表示特征拼接操作,FCON∈512表示经fCON映射后的混合注意力特征。
1.3 基于GoogLeNet的迁移学习网络
通常,提升网络性能最直接的办法就是增加网络深度,但一味地增加会导致网络参数激增、模型变大、容易导致过拟合、梯度消失、难以收敛等问题。为了解决这些问题,GoogLeNet研究人员基于赫布原理(Hebbian principle)和多尺度处理方法,提出具有并行卷积计算的Inception block算法[13],如图2(第Ⅱ部分)所示。Inception block由4条并行的卷积运算路径构成。前3条路径分别使用卷积核为1×1、3×3和5×5的卷积层抽取不同尺度的空间特征。第2、3条路径为减少通道数,均使用了1×1卷积层对输入进行处理,从而降低了模型的复杂度。第4条路径则首先使用核尺寸为3×3的最大汇聚层,然后应用1×1卷积层来改变通道数。为了使输入和输出的尺寸一致,4条路径的卷积层均使用了相适应的填充。最后将每条路径上的输出特征在通道维度上进行拼接操作。该算法重点解决了适度卷积核尺寸问题。通过组合不同大小卷积核的方式抽取不同尺度的细节特征,从网络宽度的角度提升模型性能,最终的GoogLeNet共串联了9个Inception block。相比LeNet-5[10]、AlexNet[9]、NiN[11]、VGG[12]等串行卷积运算方式,GoogLeNet的卷积层并行运算方式更有利于细粒度产品风格特征抽取。因此,本文采用在ImageNet上预先训练的GoogLeNet作为迁移学习通路,以便抽取多尺度“通用特征”,有助于扩充HA-ResNet容量,同时也扩展了FSR-CNN的宽度。对模型最后一个线性层进行微调,先将其输出特征修改为256,然后进行层归一化处理,并将GELUs作为激活函数层,最后使用Dropout层预防过拟合,概率为0.3,如图2(第Ⅱ部分)所示。
1.4 损失函数
(5)
1.5 评价指标
为了验证比较模型的风格识别性能,本文采用与文献[21,23,25]相同的准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值(F1Score)对训练好的模型进行评估比较,如式(6)~式(9)所示:
(6)
(7)
(8)
(9)
式中:TP是指实际为正例,预测为正例的样本数量;TN是指实际为负例,预测为负例的样本的数量;FP代表实际为负例,但被预测为正例的样本数量;FN代表实际为正例,但被预测为负例的样本的数量。
2 实验
本文实验平台为双GPU(RTX2080/8GB显存),并使用CUDA11.0加速;操作系统为Ubuntu18.04,深度学习框架为PyTorch1.8.1;训练过程由Visdom可视化监测。以自行车头盔数据集对FSR-CNN及对比算法模型进行训练。
2.1 数据集
由于目前鲜有开源细粒度产品风格数据集,本文创建了1个自行车头盔风格数据集,共包含6 502幅自行车头盔图像,训练/验证集为6 217幅,测试集为285幅。一共有5类风格的自行车头盔图像,即波线型(线条交错)、科幻型(造型独特)、流线型(多线条并行)、硬朗型(型面交错规整)、包裹型(形态圆润),每种风格的样例和数量如表1所示。
表1 自行车头盔风格数据集
2.2 网络验证实验
2.2.1 网络对比实验
设FSR-CNN最大训练轮数max_epoch为800,批量大小batch_size为88。使用AadmW[35]优化器优化网络参数,初始学习率为2E6,β1=0.9,β2=0.999,同时使用权重衰减策略,衰减系数λ为5E-2。训练时将自行车头盔风格数据集划分为训练集与验证集,比例为6∶4。
如图5所示为FSR-CNN训练损失与验证损失变化对比,误差均逐轮降低并趋于稳定,其中验证损失曲线下降的更快,表明网络具有较好地学习和抗过拟合能力。图6为训练准确率与验证准确率曲线对比,二者均逐轮上升,其中验证准曲率增长相对较快,并最终趋于稳定,表明具有较好地泛化性能。最好模型出现在第725轮,其验证准确率为87.79%。
图5 训练损失与验证损失对比
图6 训练准确率与验证准确率对比
为对比验证,还训练了7个经典DCNNs算法模型,即LeNet-5[10]、AlexNet[9]、VGG11[12]、VGG16[12]、GoogLeNet[13]、GoogLeNet(pretrained)[13]和ResNet18[14],网络深度依次增加。需要说明的是不同的超参数会对训练结果产生不同程度的影响,本着较小过拟合的原则经过多次实验,7个对比模型选择了训练曲线与验证曲线振荡较小的超参数,具体如表2所示。训练模型时,验证集的损失变化曲线与准确率变化曲线如图7和图8所示。对比可知FSR-CNN的验证误差下降明显,小至0.4附近且振荡小;同时验证准确率曲线逐轮提升,且振荡最小。这表明FSR-CNN算法模型具有更好的泛化能力和稳健性。
表2 经典算法模型的超参数
图7 8个算法模型的验证损失变化曲线对比
图8 8个算法模型的验证准确率变化曲线对比
在测试集上对训练好的FSR-CNN及上述7个算法模型进行风格识别性能测试,结果如表3所示,加粗数据表示最优值。可知,FSR-CNN在准确率、精确率、召回率和F1值4项评价指标均高于其他7个DCNNs算法模型,说明该模型与自行车头盔风格数据集的复杂度最匹配。同时,还可看出GoogLeNet在6个非预训练算法模型中的表现相对更好,这也验证了选择GoogLeNet作为迁移学习通路具有一定的合理性。
表3 FSR-CNN与经典算法模型对比结果
另外,通常由于数据集中的每种风格类型的样本数量是不相等的,表3中的评价结果并不能直接反映出模型在每个风格类型中的识别性能。因此,必须使用更有效的指标来衡量FSR-CNN的性能。混淆矩阵(confusion matrix)是评价分类识别模型优劣的更直观的工具。如图9所示为FSR-CNN模型在测试集上的混淆矩阵,矩阵的每一列代表模型识别的结果,矩阵的每一行表示样本的真实风格标签。
图9 FSR-CNN在测试集上的混淆矩阵
由图9可获得识别错误的风格类型和样本数量,波线型(1Sleek)、流线型(3Streamline)、硬朗型(4Hale)和包裹型(5Wrap)各有4个、5个、3个和5个的自行车头盔被识别为科幻型风格(2Sci-fi),同时科幻型风格有4个被识别为波线型,8个被识别为硬朗型,2个被识别为包裹型。波线型中有4个被识别为科幻型、2个被识别为流线型、1个被识别为硬朗型。另外,前4种风格中除了科幻型有2个被识别为包裹型外,其余风格均识别正确,而包裹型风格中有5个被识别为科幻型,4个被识别为硬朗型。由此表明,模型识别科幻型风格的准确率最低,而识别包裹型风格的准确率最高。进一步通过式(7)~式(9)可得到每种风格类型的具体精确率、召回率和F1值,结果见表4。比较F1值可知,模型在5种风格类型上的稳健性由高到低依次为包裹型、硬朗型、波线型、流线型和科幻型。部分风格样例识别结果如图10所示。
表4 FSR-CNN风格类型评价结果
图10 FSR-CNN的风格预测结果(部分)
2.2.2 网络消融实验
对于较为复杂的神经网络,消融实验常用于分析各神经网络算法模块对整个网络的贡献性,可采用删除网络中的部分算法模块以验证其对网络整体性能的影响。为了验证2个学习通路对FSR-CNN的影响,以及不同的注意力机制对FSR-CNN的影响,本文以模块组别的方式设计了消融实验。其中,组别0是FSR-CNN,组别1是FSR-CNN中的注意力学习通路HA-ResNet,组别2是FSR-CNN中的迁移学习通路,组别3是删除了FSR-CNN中的坐标注意力机制(CAB),组别4是删除了FSR-CNN中的混合注意力块(CBAM和MHA)。如表5所示为各组别神经网络算法在测试数据集上的识别性能对比结果,加粗数据表示最优值。可以看出,FSR-CNN在准确率、精确率、召回率和F1值4个评价指标上的表现均最佳。因此,FSR-CNN模型具有一定的合理性和先进性。
表5 各组别神经网络消融实验对比
3 讨论
面对FSR-CNN对自行车头盔风格的预测结果,可由图10中的一些结果作进一步分析和推断。在波线风格中,3号方案被识别为科幻型,但识别概率(0.558)较低,这是由于该方案的线条交错相对规整。在科幻风格中,8号方案被识别为包裹型,这是由于该方案在整体造型上与包裹型比较接近,仅通过头盔后部翘起的渐消面体现科技感,容易导致识别错误;对比9号和10号方案发现,受视角影响9号方案被识别为包裹型。在流线型风格中,因风格特征不够强烈导致识别错误,如12号方案。在硬朗型风格中,因部分方案存在风格特征的交叉而容易出现识别偏差,如17号方案兼具波线型和硬朗型,但标签更偏向硬朗型风格。在包裹型风格中,同样出现因风格特征差异不明显导致的识别错误,如22号方案,其标签为包裹型,但模型识别为科幻型。由此可知,产品风格分类与识别,不仅需要从总体上识别产品的造型结构,还需要考虑视角,以及判别具体形态细节,如线条、尺度、色彩等。
结合图10中的识别结果,考虑到神经网络算法缺乏人类视觉的空间构思能力,单一视角容易出现识别错误。为此,本文尝试了多视角综合识别任务,如图11所示。发现综合评估多个视角的风格特征概率能够提高预测准确率,同时也表明FSR-CNN具有较好的泛化能力。
图11 多视角综合识别结果
FSR-CNN本质上输出的是设计方案的风格概率分布,因此能够对设计师绘制的概念草图进行风格概率分布预测,如图12所示。从该图中可以清晰地看出每种概念设计方案的造型特质和风格趋向,有助于高效引导设计师分析、探索和聚焦符合用户风格认知的设计概念。例如,图中Sketch_6以流线型(3Strealine)为主,兼具波线(1Sleek)和硬朗(4Hale),且波线风格强于硬朗,而包裹和科幻风格特征则相对很小。与形状文法、感性工学等[2]传统风格计算方法相比,无论是在风格要素评价上,还是在产品风格继承性和竞争对手产品决策分析方面[1],FSR-CNN的风格计算识别方法为设计师提供了一种相对理性、高效的智能分析手段,有利于设计团队及时调整和把控产品风格策略。
图12 FSR-CNN风格策略分析
FSR-CNN为产品风格智能分类与识别提供了新方法和新思路,但该项工作仍有一个问题必须面对。产品风格传递的是一种综合体验,既有物理层面的造型特征,还有精神层面的意象特征。从2.2.1节的实验过程及结果可知,FSR-CNN更多的是在物理层面学习不同风格间的差异性特征,所提供的单一风格标签标是其进行学习的引导性准则,未融入多样化的风格情感属性。这也是细粒度风格识别出错的一个重要因素。因此,还需挖掘产品在线评论数据,进一步探索多模态多标签产品风格识别方法,以及多标签风格策略分析。
4 结束语
针对产品风格精细识别任务,本文提出一个细粒度风格识别深度卷积神经网络FSR-CNN,以复合并行通路连接的方式融入了迁移学习和注意力机制。这两种学习机制的联合为产品风格精细识别提供了新思路,不但有利于抽取更加细腻的特征,而且面对小数据集有抗过拟合特性。消融实验不仅验证了FSR-CNN在产品风格精细识别上的优良性能,还进一步地表明了复合学习机制的优势。
注意力学习通路使用论文提出的混合注意力残差网络HA-ResNet实现。该网络在残差映射结构中先以串行的方式嵌入了两个坐标注意力块,而后以并行的方式同时嵌入了卷积块注意力和多头注意力,不仅能够较早地关注自行车头盔风格特征的全局信息,还能重点关注空间位置信息和有效的特征差异信息,对提升模型的识别准确率起到了至关重要的作用。迁移学习通路采用预先训练的GoogLeNet,其网络结构特点是多感受野并行计算,能提取更加细腻的风格特征细节。另外,面对样本数量有限的条件下,在网络中加入层归一化、自适应平局汇聚和暂退法,并混合使用ReLU和GELUs激活函数,有利于缓解过拟合现象,提升模型泛化能力。
通过实验与7个经典深度卷积神经网络对比,证明FSR-CNN能以较高的准确率和良好的稳健性对自行车头盔图像进行风格识别。与传统风格认知计算模式相比,FSR-CNN无需手工提取特征,实现端到端的风格识别,且省时省力。不仅可以辅助设计师实施产品智能风格策略分析及设计定位,还可为用户精准风格推荐提供支持,也为产品风格聚类奠定了基础。
本文所提出的具有复合学习机制的并行网络架构也可以应用到其他精细分类和识别任务,针对类内间差异大小、数据集规模等,设计出更有针对性的混合注意力网络通路,以及尝试更合适的迁移学习网络通路。