基于眼动仪和LBP的抽象画方向审美与识别

2020-08-12白茹意

计算机技术与发展 2020年8期

白茹意

(山西大学软件学院，山西太原 030013)

0 引言

抽象画是由绘画者通过他们的主观思想，用点、线、面、颜色等组合视觉形式来表达的，通常被理解为不描述自然的艺术[1]。抽象画通过色彩，图像的组合来表达人内心热烈的情感，被称为“热抽象”；不表达情感，而是通过图形和色彩的组合来表达结构，被称为“冷抽象”。在创作抽象画时，艺术家根据自己的审美观念，决定作品悬挂的正确方向。虽然正确的方向通常在画布的背面指定，对于普通的没有艺术背景的观察者来说是很不明显的。如何在抽象绘画中找到与方向相关的因素，大众对抽象画的审美价值是否因错误的绘画方向而降低。这些问题成为研究抽象画方向审美的基础。一些心理学研究已经表明[2]，绘画方向是一个与审美评价有关系的因素，抽象绘画的原始方向更易于获得较高的审美评价，专业的艺术家或非专业的观赏者对正确方向的欣赏程度远远高于平均水平(25%)，但低于完美(100%)。

随着信息数字化的趋势，在网上可以很容易地找到绘画的数字图像。这使得计算机辅助绘画分析成为可能，通过直接探索计算视觉特征与人的审美感知之间的关系，人们研究了各种审美评价方法。近年来，许多计算机视觉、模式识别、图像处理等方法已经被广泛应用到绘画分析中，但很少有方法通过关注绘画的方向来分析图像审美评价。

Amirshahi等人[3]招募受试者对艺术家的高质量的彩色绘画图像进行审美评分，然后计算每幅绘画图像的平均分，最后根据评分将图像分为两类(高美学和低美学)。Yanulevskaya等人[4]招募100个受试者给500幅抽象画进行7级评分，采用Lab颜色模型和SIFT(尺度不变特征转换)提取图像特征，将特征输入SVM分类模型，实现绘画的情感分类。Li等人[5]招募42名受试者对100幅绘画图像进行1-5级美学评分，分析绘画的视觉复杂度。Guo等人[6]要求受试者按照1-7级对绘画图像进行复杂度评分，将“3”和“5”作为阈值，按照评分把图像分为“低复杂度”、“中复杂度”和“高复杂度”。这些方法主要通过调查问卷实现美学评价，而文中则通过眼动实验对图像美学进行客观评价。

目前，研究者也对如何判断图像的方向进行了大量的研究。Mather[7]以调查问卷的形式设置实验，研究受试者对抽象画不同方向的审美偏好。Lumini和Nanni[8]自动检测摄影照片的方向，提取了颜色和纹理特征，在6 000多个数据集上采用SVM(支持向量机)、AdaBoost和子空间分类器进行方向识别。Lyu[9]对18 040幅自然图像进行自动方向检测，采用多尺度多方向小波变换提取特征，最后通过多二进制支持向量机确定图像方向。Ivana等[10]在5 400幅数据集上对户外图像方向(0o,90o,-90o)进行自动检测，首先根据图像所包含的语义线索(如人脸、光线或天空)，将图像按层次分为不同的组，然后对每组进行独立的SVM分类器训练。Borawski等[11]判断图像法步骤如下:图像降尺度，定位图像子部分，计算绝对频谱的对数，计算极坐标，最后确定图像的方向。Ciocca等[12]采用图像的底层特征，基于人脸方向判断图像的正确方向。Ciocca等[13]采用LBP-LRR方法对10万张场景图像的方向进行自动识别。Hollitt等[14]使用图像的功率谱密度估计摄像系统的滚动方向，并利用Hough变换确定图像中线的方向。Swami等[15]通过使用低水平视觉特征，采用卷积神经网络对大量图像进行方向检测，准确率达到95%。Jia[16]基于抽象艺术理论，将图像进行上下、左右分割，并采用颜色和纹理特征，运用朴素贝叶斯和BP神经网络对抽象画的方向进行分类。

基于以往的研究，文中的优势在于：(1)目前有关抽象绘画方向的审美数据获取主要采取问卷调查等方法，致使绘画样本及数据偏重主观性，缺乏客观的准确表述。文中采用眼动追踪技术，结合审美偏好数据对抽象画的方向审美进行主客观综合分析。(2)目前对方向检测的研究主要针对自然和场景图像。然而，抽象画图像的内容和语义相对于自然图像比较含蓄，不明显，因此对抽象画的方向检测会比较困难，近几年的相关工作也比较少。为了提高抽象画的方向检测准确率，文中采用基于非旋转不变等价LBP(nri-uniform-LBP)描述符和支持向量机(SVM)算法的自动识别方法，将抽象画分为正确方向(向上)和不正确方向(不向上)两类。算法框架如图1所示。

图1 算法框架

1 抽象画方向审美研究

1.1 眼动方法

眼动方法[17]在视觉心理学中的应用由来已久，国外学者将眼动引入到视觉心理学的研究来考察与视觉认知过程中的眼动特点，近几年来，心理学家越来越重视各种视觉认知过程的眼动研究。当前主要的眼动数据可视化工具包括BeGaze，TobiiStudio，GazrTracker等。这些工具能导入眼动数据文件，然后生成热点图、扫描路径图等可视化结果，并支持视频回放、兴趣区AOI定义、数据统计等功能，最后还能将可视化结果以图片的形式输出与保存，可有效地提高数据可视化的效率和质量。随着这些工具的推广,眼动数据在用户界面可用性评估、广告与品牌、产品设计评价、学习与阅读、驾驶行为等研究领域也得到了广泛应用。

文中采用的实验仪器为Tobii_T60眼动仪，眼动数据采样频率为60 Hz，显示器大小为17英寸，分辨率为1 280*1 024，实验图片均为png格式。眼动数据分析使用Tobii_Studio分析软件，其自带四种强大的可视化工具——热点图、聚类、眼动轨迹图和眼动过程还原，该软件还支持眼动数据的统计分析。文中所有数据结果均使用SPSS 20.0软件进行处理。

眼动研究选用的指标相对集中，特别是针对艺术作品的眼动研究中所选用的指标比较统一，主要指标有：注视次数、注视时间、首次注视时间、眼动轨迹、眼跳距离等等。针对文中的研究目的，最终决定采用以下两个指标进行眼动规律的分析，即注视次数(FC)、注视时间(FD)，并结合审美偏好进行主客观的综合分析。

1.2 实验设计

选取25幅来自于Wikiart(http://www.wikiart.org)的抽象画，每一幅画被顺时针旋转(0o,90o,180o,270o)后得到四幅方向不同的绘画，随机摆放到一张图片上同时显示，在每幅图下标记(A,B,C,D)，如图2所示。选取15名(9名男性，6名女性，年龄19～22)受试者参与实验。所有受试者视力或矫正视力正常，之前均没有绘画及美学方面的研究背景。实验操作时，受试者端坐于电脑桌面的正前方，与屏幕保持大约55 cm～60 cm的距离(该距离为实验的有效距离)，完全固定受试者的座椅来保持这个有效距离，并且要求受试者的头部在实验中不能左右移动。由于眼动是一种易受外界干扰的活动，实验过程中确保环境安静，光线强度适中，每一位受试者的眼动实验相对独立的进行。受试者独立进行实验，未做实验前，受试者不允许提前观看实验材料，受试者进行实验的先后顺序可认为是随机的。受试者被给定一个无限制的时间观看每张图片上的四幅绘画，“选择四幅图中你认为最令人舒适的或有意义的一幅”，并在图片下方用鼠标点击该幅绘画所对应按钮，问卷调查结果即为受试者对抽象画的审美偏好。与此同时，通过眼动仪记录受试者的眼动轨迹。

图2 实验界面

1.3 审美偏好结果分析

实验结束后，调查审美偏好数据由电子问卷导出Excel格式数据，回收15份调查问卷，回收率100%，问卷数据可以说明15位被调查者对这100幅绘画的审美偏好。将每张图片中的四幅绘画分为两组(由表1所示)：方向正确I(包含一幅绘画0°)与不正确组Ⅱ(包含三幅绘画)。实验结果显示，受试者选择结果与绘画正确方向一致的概率达到62.4%，这一数字与文献[7]中的实验结果相近，其余三个方向的被选择率分别为16%，10.4%和10.9%。这一结果表明，所有其他方向被选择的概率要低得多，大约在10%～16%，即受试者对方向正确(0°)的偏好明显高于其他方向的偏好。

对以上数据进行F检验得出，对组Ⅱ内部的三幅图片进行单因素方差分析得，F(2,72)=1.071,p=0.348，即组Ⅱ内部没有显著性差异。对组I、组Ⅱ分析得F(3,96)=35.1,p<0.001，即组Ⅰ和组Ⅱ之间存在显著性差异。比较表明，参与者一般不会倾向于将前后颠倒的图像混淆，他们要么选择了正确的方向，要么选择了其余三个中的一个。

表1 审美偏好数据分析

1.4 眼动结果分析

每位受试者独立完成实验后，将每张图片中四个不同方向的抽象画划为4个兴趣区(AOI)，观察每个AOI的热点图，如图3所示。

图3 眼动实验AOI热点图

从图3中可以直观看出,被试者对方向正确绘画(A)的关注程度明显高于其余三幅绘画(B,C,D)。针对文中的研究目的，采用注视次数(FC)和注视时间(FD)两个眼动指标进行分析，同样将每张图片中的四幅绘画分为两组：方向正确组Ⅰ(包含一幅绘画)与不正确组Ⅱ(包含三幅绘画)。如表2所示，四幅绘画中，受试者对方向正确的绘画注释注视时间最长的概率为72.7%，受试者对方向正确的绘画注释注视次数最多的概率为68.18%；组Ⅱ内部没有显著性差异，而组Ⅰ和组Ⅱ之间存在显著性差异。这一结果与审美偏好的结果一致，说明受试者对方向正确的绘画注视时间会比较长，次数也比较多。

表2 眼动数据分析

1.5 综合分析

将调查问卷中每幅绘画的被选择率作为该绘画审美偏好的量化值，结合注视次数和注视时间，进行二元定距变量相关分析，发现审美偏好与两个眼动指标的Pearson相关系数为0.348和0.395(见表3)，即在0.01的显著水平上，相关程度为弱相关(0.3≤|r|<0.5)。结果说明受试者在审美过程中的眼动与其心理活动具有一致性，结合表2的结果可得出，一般来说受试者对方向正确的绘画注视次数较多，时间较长，审美评价也比较高。

表3 注视时间、注视次数与问卷数据的相关性

2 抽象画方向自动识别

2.1 LBP

LBP[18](local binary pattern，局部二值模式)是由Ojala的机器视觉研究小组针对纹理图像的研究所提出的，在模式识别和计算机视觉领域得到了广泛的应用。该方法是一种用来描述图像局部纹理特征的算子，被定义为图像中每个像素周围的局部模式的直方图。LBP具有对灰度变化不敏感，计算复杂度低，高效的识别能力、无需训练和易于工程实现等优点，主要应用于人脸识别、遥感图像分析、工业检测、医学图处理和动态纹理识别等。然而，提出的方向识别方法采用的是LBP的另一个特性，即旋转可变特性。

LBP是通过某个像素的灰度与其领域像素的灰度进行阈值化来计算的。给定邻域半径R和像素个数P(邻域R上的采样点数)，每个像素的LBPP,R计算如下:

(1)

其中，gc是当前像素的灰度级，gn是其领域的灰度级，s(x)是一个符号函数：

(2)

设P=8，R=1时，图像某像素的LBPP,R码的计算过程为：将该像素点的值与其邻域像素点的值进行比较，若邻域像素点的值大于中心点像素，则将该领域位置置1，反之置0，形成一个局部二进制模式。将该模式以x正轴方向为起点，按逆时针方向读取圆形采样点，最终得到一个8位二进制数序列，并将其转换成十进制数，即为LBPP,R码，例如(01111000)10=120。

当一幅灰度图像的大小为M×N时，该图像所有像素的LBP算子出现的频率直方图记为H，H作为该图像的LBP特征。

(3)

(4)

其中，0≤k

按照上述方法设定的LBP算子的应用有些不足：P=8，R=1的邻域范围较小，对于大尺度的纹理结构无法捕获；该邻域的采样方式不宜于旋转。之后，经过不断探索，研究人员对原始的LBP算法提出了多种优化和改进策略：

(1)LBP圆形算子：把图像中的某个像素点作为中心点，取半径为R，按照(Rcos(2πn/P),Rsin(2πn/P))方法进行灰度插值，得到的圆形采样点集作为该中心点的领域点，P为采样点个数，这样能满足不同尺度和频率采样的需要。

(2)LBP旋转不变模式(rotation invariant)：不采用这个特性，因为旋转不变性显然会丢弃关于图像方向的重要信息。

(3)LBP等价模式(uniform)：半径为R，采样点为P的圆形算子会产生2P种编码。很明显，LBP编码的种类会随着采样点数的增多而急剧递增，这使得LBP模式的统计直方图过于稀疏。为解决这一问题，“等价模式”限制二进制序列从0到1或从1到0的跳变次数不超过2，跳变次数计算公式如下：

U(LBPP,R)=|s(gP-1-gc)-s(g0-gc)|+

(5)

跳变次数小于等于2的各自为一类，跳变次数大于2的所有情况归为一类。经过优化之后，LBP编码的种类大大减少，由2P减少为2+P(P-1)，而且不会丢失任何信息。

针对图像方向检测的目标以及计算成本，文中采用基于半径为2，采样点为16的“非旋转不变等价”描述符LBP2,16作为特征，特征编码种类为243。

2.2 “非旋转不变等价”LBP特征提取

(1)颜色模式转换：一幅彩色抽象画图像的大小为M×N，将彩色图像(RGB模式)转成灰度图像。设原始图像为G,采用平均值法，得到灰度图像G_GRAY。

(6)

(2)LBP特征：设置半径R为2，圆形采用点数P为16，对G_GRAY中的每一个像素求出对应的“非旋转不变等价”LBP2,16描述符。

(3)直方图：采用(2)中的方法，统计灰度图像G_GRAY中所有像素的LBP值，组成LBP频率直方图(横坐标为243种LBP编码方式，纵坐标为每个样本出现的频率)，然后对该直方图进行归一化处理，最终得到243维特征向量。该向量作为下一步分类模型的输入特征。

2.3 实验数据

此算法运行的软件环境为Anaconda3，编程语言为python。随机选取500幅抽象画作为实验数据集，选取400幅绘画作为训练集，100幅作为测试集，按照1.1节中的方法旋转，最终得到训练集1 600幅，测试集400幅，采用SVM分类器进行方向自动识别，运用10倍交叉验证评估分类模型。对于大多数绘画来说，其悬挂方向不会是斜的，因此将抽象画分为正确(向上)和不正确(不向上)两类。

2.4 结果分析

文中采用SVM算法将抽象画分为“正确方向”和“不正确方向”两类。由于数据集中的正负样本数量不等，因此很多文献会采用不同手段将正负样本平衡表示。但是，文中倾向于保持数据集的不平衡，因为这样更能代表实际应用中所发生的情况。

在使用LBP进行绘画图像特征提取时，不同的邻域半径和采样点个数会导致不同的特征描述，表4中显示了不同半径情况下的分类精度。结果显示，半径为1，采样点为8时的分类准确率为73.5%；当邻域半径为2，邻域像素为16,分类准确率最高为76.75%；半径为3，采样点为24的准确率与半径为2是基本相同的，但是考虑计算成本，文中实验选取LBP2,16算子进行方向特征的提取。

表4 不同邻域半径和邻域像素数的分类精度

在三种不同的颜色模式(灰度图像，RGB，HSI)下，采用LBP2,16算子的LBP特征得到的分类准确率，分别为76.75%，76.5%和76.75%，如表5所示。实验结果表明，采用不同的颜色模式，对提出的方向识别算法影响不大。

表5 不同颜色模式的分类精度

为了验证文中算法的有效性，在同一数据库下，将所提方法与文献[16]中的最新抽象绘画方向识别方法进行比较。实验结果显示，文献[16]的分类精度为74%，而所提算法精度高于文献[16]，达到76.75%。

在实验结果中发现，内容清晰的抽象画的方向对眼睛和分类模型都很明显的，更容易被区分(见图4第一行)。然而，还有一些内容抽象或含蓄的抽象画，它们的方向无论是眼睛还是模型都很难判断(见图4第二行)，这些也是下一步的研究重点。

图4 抽象画

3 结束语

设计了眼动实验，通过审美偏好数据和眼动数据对抽象绘画的方向审美评价进行综合分析，用客观的数据反映了人类的主观审美偏好。实验证明，客观的眼动数据和主观的审美偏好之间具有一致性，并且受试者对方向正确的绘画有比较高的审美偏好，同时也为抽象画的审美评价提供了一个新的研究视角。此外，采用了一种非旋转不变等价LBP纹理描述算子和SVM分类器，实验结果表明，该方法得到了最好的分类效果。

然而从上述结果看出，由于抽象画的内容相对含蓄，因此分类准确率不是特别高。在未来的研究中，可以从特征和分类器选取等方面进行研究，进一步提高抽象画图像方向的分类精度：仅仅提取了LBP描述符，今后可以实现与方向相关的多特征融合，例如颜色、布局和语义等；实验样本数只有500，今后可以增加抽象画样本的数量，采用深度学习算法(例如，CNN等)实现更快速有效的方向识别。