视觉影像分析算法在美术场景中的应用

2021-03-10冯帆

系统仿真技术 2021年4期

冯帆

（陕西学前师范学院，陕西西安 710061）

随着社会的发展，绘画已经从精英艺术转变为大众艺术。受西方视觉艺术以及绘画形式的影响，中国当代艺术也开始利用符号对社会场、文化构建以及大众审美趣味进行阐述［1］。绘画作为一种重要艺术创作形式和民族遗产，通过优美的表现形式，展现了人类文化的风貌，传递出人类的思想情感，是人类对世界认识的独特形式。图像分类是当前计算机研究的重点，为人类绘画图像数字化提供帮助，实现了绘画作品的研究和创新［2］。通过将计算机和绘画创作相结合，可以拉近艺术创作和观赏者之间的距离，提升艺术家对绘画符号语言的认识和运用［3］。在历史长河中，人类创作了大量绘画作品，其内容涵盖了多种艺术风格，为了更好地学习绘画知识，利用计算机提取绘画作品特征，实现对绘画的评估、识别、分类和保护。

为了研究视觉影像分析算法在艺术场景中的应用，本文利用卷积神经网络结合符号学对绘画进行解读。首先利用符号学和艺术史的理论知识，基于符号学的角度结合美学和现象学等学科领域的知识，对当代绘画的符号化表现进行横向分析，并对符号进行分类；再进行纵向的切片分析，总结符号的形成和运用技法。结合神经网络对绘画中的图像特征进行分析和解读。

1 方法

1.1 利用符号学解读绘画中的视觉艺术

对符号的使用可以追溯到人类生命活动伊始，符号学说主张艺术起源于人类用来表示某种含义的符号，艺术形式是一种符号体系。符号学注重研究构成和表征的问题，将“文本”当作具有特定意义的合成符号［7］。因此，符号学可以作为一种视角和观念性的工具，消除艺术品的形式主义和自律性，能动地理解视觉艺术品。并且符号学注重意义和产生意义的形式，将视觉艺术品的外表和细节符号化［4］。

符号学可以提供由心理分析、叙述以及修饰理论产生的思想和理念，来深入细致地分析艺术品。查尔斯S·皮尔斯的理论指出，符号可通过3种姿态发挥作用：（1）特定的符号或表征。（2）特定的精神图像，也称为解释符号。（3）客体或词语指标的对象。对一幅关于果盘的荷兰静物画（图1），就是关于某种事物的表征或符号，观察者在看到这幅绘画时，会将这个事物与脑海形成的意象相结合。对于第一个观察者来说，它可以是真实的水果；对另一个人来说，可能是别的静物画；对第三个人来说可能是“17世纪的荷兰”。因此绘画所表现的客体是由观察者的主观意愿所决定的［5］。

图1 荷兰静物艺术画Fig.1 Dutch still life art painting

视觉艺术中叙述的解释是关于如何通过图像去讲故事，罗兰·报在《S/Z》中提到了5种符码的解析。行动性符码是指通过“一系列动作”帮助观察者将细节代入到故事的序列中，在某种意义上，时间图像是符码的叙述性描述。阐释性符码是通过预设有个难题，引导观察者去寻找解答这个难题的细节。当图像的主题难以辨认时，阐释性符码才会起到作用。语义性符码包含文化信息，需要观察者代入到图像人物的背景信息中［6］。象征性符码需要观察者引入象征的方式，对图像中的某些细节进行解读。参照性符码则包含一定的文化知识，需要观察者了解图像中的历史信息。这些符码通过对图像做出叙述，每个解释的细节都有一个恰当的说法。这种叙述在分析图像时，被观察者有力地呈现出来，并将思想代入到这个过程中［7］。

因此，基于绘画图像的符号分析可以帮助观赏者了解艺术家隐藏在绘画中的思想和情感，为了更好地对绘画所蕴含的信息进行分析，结合卷积神经网络算法对绘画中的图像特征进行识别，并依据绘画风格进行分类，可以帮助观察者更好地对绘画进行解读。

1.2 基于卷积神经网络的视觉影像分析算法

人工神经网络是通过模拟生物体的神经连接以及大脑处理和记忆信息的方式进行数据信息的处理。卷积神经网络是人工神经网络的一类，对网格状数据结构的处理效果尤为显著，由于卷积神经网络具有很好的图像处理和特征识别效果，因此广泛应用于计算机视觉和自然语言处理领域［8］。卷积神经网络的结构包含输入层、卷积层、池化层、全连接层和输出层，图2为LeNet-5卷积神经网络模型的结构图［9］。该网络包含7层结构，C1表示具有6个卷积核的卷积层，S2表示池化层，C3表示具有16个卷积核的卷积层，S4表示池化层，C5和F6表示全连接层，输出层为基于径向基函数的分类层。

图2 LeNet-5模型结构图Fig.2 LenNet-5 model structure diagram

卷积层具有权值共享和局部连接的特点，权值共享是指在对模型的卷积层输入图像后，会增加一个偏置项，使卷积核的参数量增加一个。卷积运算的函数公式f()为

其中，ω表示卷积核参数；×表示卷积运算；b表示偏置项；x表示输入。

权值共享意味着卷积核在对图像进行遍历时，卷积核的参数固定不变［15］。例如在遍历图像时，使用的卷积核参数为26个，这样模型中用了6个卷积核，总共权值参数也只有156个，可以有效地降低参数量。

局部连接是指卷积神经网络中相邻两层间，采用部分节点连接的方式提取局部特征，其构思来源于生物视觉神经元中起到感知外界环境功能的只有部分神经元，并且图像中像素之间的相关性与像素间的距离有关［10］。因此采用局部感知的方式采集图像中的信息，最后综合图像信息，实现增强图像信息的目的。采用局部连接的方式，可以降低参数量，提升参数的学习速率，防止神经网络在训练过程中发生过拟合现象。

池化层的具体操作与卷积层相似，但池化只取对应位置的最大值和平均值，并且不经过反向传播的修改。进行平均池化和最大池化后，以步长为2遍历特征图，将特征数据的维度减半，池化后的结果经过激活函数，输出为下一层网络的输入值。激活函数是用于实现非线性特征映射，例如：Sigmoid函数、tanh函数和ReLU函数等［11］。

反向传播算法（Back Propagation）和梯度下降算法（Gradient Descent）是神经网络训练中重要的权值迭代更新方法，在神经网络中从前往后的传播方式称为前向传播，结构如图3所示。神经网络中神经元的激活值可以利用激活值的公式计算得到，即

图3 反向传播算法Fig.3 Back propagation algorithm

然后将神经网络每层的输出值作为下一层的输入值，并不断向前传播直至到输出层进行输出，称为完成一次前向传播。接着利用损失函数将结果反向传播，并做出下面两个假设条件。

（1）损失函数可以作为训练样本X的代价函数C的均值，公式为

对单一的训练样本(x，y)，代价函数Cx的公式为

（2）代价函数可以作为输出值的函数，多个训练样本的整体损失函数为

为了使网络迭代更新过程中，得到的损失函数值最小，降低生成的预测值和实际值之间的误差，可以利用梯度算法对其进行求解。通过梯度下降的方式对参数进行更新，使代价函数的值最小，公式为

通过调节移动步长和梯度下降的方式对参数进行更新。在迭代过程中，根据公式可以使损失值达到最小值，得到训练好的网络模型参数。

卷积神经网络的最后一层通常为Softmax回归分类层，Softmax是逻辑回归模型对多分类问题的推广，可用于处理多分类问题。Softmax的损失函数J(θ)为

其中，θ表示参数；m表示训练集大小，即{(x1，y1)，(x2，y2)，…，(xi，yi)，…，(xm，ym)}；I{}表示取值规则。对于输入x分类、类别为j的概率为

1.3 基于卷积神经网络的图像特征提取

使用卷积神经网络结构进行预训练，为保证对比实验的合理性，将默认参数设置和预训练网络保持一致。对用户输入的风格图像进行预处理，包括颜色通道转换与去均值化。提取图像风格信息特征流程如图4所示。

图4 图像风格信息特征提取框架图Fig.4 Frame diagram of feature extraction of image style information

提取信息特征首先解析风格图像的文件长度，然后对风格图像数目进行裁剪，设置每一张图像的尺寸与颜色通道。最后将图像转化到BGR（Blue Green Red）通道，对通道上的像素去均值化。完成上述准备工作后，开始对输入数据进行提取信息特征。整个图像像素矩阵预处理后输入到网络结构中，其中提取的网络层包含3层卷积层、Relu层与池化层。纹理信息源自于底层信息特征之间的相关一致性，所以需要协调比较多个相关的信息特征层，这样就可以得到最佳的风格特征，即

其中，wl为风格信息特征层权值，Sl为输出的目标风格信息与某一层的损失值。

具体的数学公式为

其中，Tfeature为目标输出图像的信息特征，Sfeature为当前风格图像的输出特征。

对于输入的内容与风格图像，需要从多层中间输出层中提取图像的风格特征，而只截取对应的高层语义信息特征便可以提取到对应的内容特征。如图5为提取图像内容信息特征的流程。把输入的内容图像进行颜色通道转变与去均值化，输入网络结构提取目标图像信息特征。

图5 图像内容信息特征提取框架图Fig.5 Frame diagram of feature extraction of image content information

本文采用LeNet-5模型作为视觉影像分析算法的模型，并针对多种风格的绘画进行实验，识别绘画中的符号特征，并对图像进行分类。训练集的数量为4878张，测试集的数量为2500张。为了扩大训练集数量，提升模型训练效果，针对训练集中的一幅绘画分别旋转90度、180度和270度，将训练集扩大4倍。采用同样的方法对GoogleNet模型和ResNet模型进行训练，并进行识别效果的对比。

2 算法性能对比

本文采用LeNet-5模型、GoogleNet模型和ResNet模型进行实验，3种模型的网络层数分别为7、22和152层。对2种数据集的识别结果如图6所示。

图6 3种模型对2种数据集的识别准确率Fig.6 Recognition accuracy of the three models for two kinds of data sets

由图6可见，3种卷积神经网络模型均对数据集有较高的识别准确率，对2种数据集的识别准确率均高于99%，但当增加训练集数量时，模型的识别准确率没有明显的提升，并且随着网络层数的增加，模型变得更加复杂，训练模型的时间越来越长。总体来说，卷积神经网络可以很好地识别绘画中的符号特点，有效地对绘画进行识别和分类。

综上所述，本文利用卷积神经网络结合符号学分析绘画特征，并通过建立视觉影像分析算法对绘画进行识别和分类。实验结果证明该算法对绘画特征识别具有很高的可行性。

3 结论

为了利用视觉算法对美术绘画图像进行解读，本文首先通过符号学对绘画进行解读。然后基于卷积神经网络建立视觉影像分析算法，实现利用计算机对绘画进行识别和分类。实验结果显示，视觉影像分析算法对绘画的分类准确率为99%以上，具有很好的绘画识别效果和分类能力。对识别不同绘画分割的视觉艺术具有可行性。但本文仍存在一些不足，由于美术绘画风格多种多样，而训练集中的样本数和包含的绘画形式相对较少。因此，对绘画风格的识别能力有限。在后续研究中，将会扩大数据，提升视觉影像分析算法的识别能力。