APP下载

多指标融合的人物图像美感评价算法研究

2021-12-21王美丽

关键词:清晰度饱和度分值

朱 瑞,王美丽,2,3

(1.西北农林科技大学信息工程学院,陕西 咸阳 712100) (2.农业农村部农业物联网重点实验室,陕西 咸阳 712100) (3.陕西省农业信息感知与智能服务重点实验室,陕西 咸阳 712100)

图像可计算美学于2005年在图形图像视觉可计算美学欧洲研讨会上正式提出[1],近年来已然发展成为计算机视觉领域的研究热点[2]. 它模拟人类感知及审美思维,以可计算的方法对图像美感做出恰当的判断[3],广泛运用于摄影美学预测、图像美学修正、艺术作品风格分析及人机交互等方面[1]. 目前在全部图像基础上开展的可计算美感评价研究较多,一般从整体和局部、底层和高层等不同方面对其进行探索,然而图像的分支——人物图像还未有统一且完善的美学质量评价标准. 由于对人物图像的关注度越来越高,针对这一具体类别的研究成果也具有越来越大的应用价值.

人物图像可计算美感评价属于艺术、心理学及计算机科学等多学科交叉的创新性研究课题[4],同时也具有很大的复杂性和主观性,是图像处理领域极具挑战性的一个难题,近年来很多科研人员从不同角度对其进行了研究. Li等[5]对包含人脸的社会图像进行了美学评价研究,并且构建了一个包含多人主观美感评分的人物图库,在亮度、清晰度和背景复杂度等基本美学特征的基础上加入了表情特征、关系特征以及部分构图特征等,使用支持向量机(support vector machines,SVM)与支持向量回归(support vector regression,SVR)算法进行美学分类与回归,实验结果显示该特征集对人物图像美感度具有一定的分类能力,美学回归计算也显示出一定的相关性. Khan等[6]提出了一种利用7种特征对人像照片进行美学评价的方法,提取特征后分别使用5种分类器对人像照片数据集进行训练和分类,再对结果进行比较和分析. Huang等[7]搭建了一个人像照片美感度在线评级系统OPARS,该系统将用户对照片评价的结果作为动态优化图库中该张照片的原始评判. Chu等[8]研究了图像尺寸对其美感的影响程度,利用基于图像内容和特征建立的一组回归模型在特定的显示尺寸内预测图像的美感等级. Xue等[9]针对单人物图像和多人物图像分别进行了两种不同的美学分类算法研究,也取得了不错的分类效果. Redi等[10]基于人物摄影规则设计了包括清晰度和 HSV(hue saturation value)平衡等在内的36种特征对人像照片进行训练和分类,分类准确率在一定程度上得到了提高. 陶则恩[11]提出了使用视觉平衡、人脸比例、人眼开度和亲密度等指标的不同计算规则分别对单人物图像和多人物图像进行美感评价的方法,并按照合适比例分配优先级给出人物图像的综合评分.

本文提出一种评价人物图像美学质量的可计算方法,从技术特征、感知特征和社会特征3个方面对图像进行特征提取并作为评价指标,融合各指标建立美感评价模型,通过在线调研的方式确定各指标的影响因子,从而实现人物图像美感自动评价. 本文充分发挥评价模型的应用价值,设计并开发一个手机应用程序对用户上传的人像照片进行美感评价和打分,并根据评分结果简化用户选择过程.

1 美感特征提取

一幅人物图像美学质量的好坏有许多评价标准,表现在计算机语言上即为人物图像的美感是由图像中的某个特征或特征组合来决定的. 因此,本文从技术特征、感知特征和社会特征3个方面对人物图像进行研究,在特征提取算法选择上充分考虑其普遍适用性及执行效率.

1.1 技术特征

技术特征与照片拍摄的环境条件、设备的质量和拍摄人员的技术有着密切关系. 本文主要考虑以下 3个具体特征:对比度、饱和度和清晰度.

1.1.1 对比度

对比度主要从亮度方面影响图像的美学质量. 本文采用一种基于直方图的对比度评价算法来衡量一幅人物图像的对比度特征[12]. 先将图像由RGB(red green blue)空间转化到HSI(hue saturation intensity)空间,接着计算亮度分量直方图,再将直方图按照灰度值划分为J0到J45个区域,临界值分别为[0,50],[51,120],[121,199],[200,236]和[237,255],最后选取平均像素灰度值最大的区域和次大的区域来确定图像的对比度,当最大区域和次大区域的下标属于{0,4}或{1,4}时,对比度过大;当最大区域和次大区域的下标属于{1,2}、{3,4}或{2,2}时,对比度过小. 本文使用CRS(contrast ratio score)来表示对比度分值,对比度正常时取值为1,过大或过小时取值为0.

1.1.2 饱和度

饱和度主要从色彩方面影响图像的美学质量. 本文采用一种基于Logistic回归的饱和度评价算法来衡量一幅人物图像的饱和度特征. 此算法的核心思想是:利用回归分析的方法,根据图像饱和度和亮度之间的关系来预测图像最佳饱和度,再将其与平均饱和度进行比较. 本文使用SL(saturation level)来度量图像的饱和度,具体计算方法如下式所示[13]:

SL=1-|B0-B|,

(1)

式中,B0为图像的理想饱和度,由经实验确定的饱和度和亮度间的Logistic非线性回归拟合函数计算得到,B为图像的平均饱和度. 饱和度分值由SLS(saturation level score)表示,当SL计算结果大于或等于0.5时,SLS的取值为1;当SL计算结果小于0.5时,SLS的取值为0.

1.1.3 清晰度

清晰度主要从细节方面影响图像的美学质量. 清晰度评价函数主要包括:熵函数、梯度函数和频谱函数等. 对于人物图像来说,人的面部区域对清晰度的要求更高,因此为了确定这部分的清晰度,本文采用了一种基于自适应窗口的清晰度评价算法.

本文利用Dlib对图像进行人脸检测并对面部进行68个关键点的标注,包括眉毛、鼻子、眼睛和嘴等面部关键器官,如下图所示[14]:

图1 人脸关键点标注演示图Fig.1 Demonstration of facial key points annotation

算法中,自适应窗口尺寸的具体计算方法如下式所示[13]:

R={f(x,y)|a-m

(2)

式中,O(a,b)为面部区域的重心,ltop、ldown、lleft、lright分别为图像的上下左右边界,dl为欧式距离.如此处理的优势在于所选窗口的位置和大小是随着面部区域的变化而自适应改变的.然而提取的窗口边缘可能含有部分模糊的背景,为了得到更为有效的评价结果,本文将窗口划分为9个子窗口,定义为Rk(k=0,…,8),利用Tenengrad评价函数分别计算每个子窗口的清晰度,具体计算方法如下式所示[13]:

(3)

式中,|Rk|为第k个子窗口中的像素点数,S(x,y)为用Sobel算子计算得到的水平梯度和垂直梯度的平方和.将各子窗口清晰度的加权平均值确定为图像最终的清晰度,具体计算方法如下式所示[13]:

(4)

式中,wRk为各子窗口的权重.最后使用双曲正切函数DT进行归一化处理,具体计算方法如下式所示[13]:

DT=tanh(cC+d).

(5)

1.2 感知特征

感知特征即以观察者角度来衡量的特征,描绘了人类感知中的一些艺术概念.本文主要从构图、视觉平衡性和景深这3个角度进行考量.

1.2.1 构图

构图反映了图像结构安排是否协调、是否美观.在考虑构图时引入“黄金分割/三分法”摄影规则,具体表述为在水平和垂直两个方向上分别用两条直线将图像等分为3部分,4个三分点为黄金分割点[15].人物图像的“黄金分割/三分法”构图规则建议将双眼中点置于黄金分割点处,使人物图像主体突出,生动鲜明.

本文使用CP来度量双眼中点与三分点的接近程度,越是接近4个三分点的图像构图越合理,具体计算方法如下式所示[16]:

(6)

1.2.2 视觉平衡性

视觉平衡是指观察客体的视觉中心在按照一定原则确定的基础上,图像具有平衡感的视觉效果,主题含义突出,主次分明,进而达到美的境界.

近年来,已有很多算法用于评价图像的视觉平衡性,这些算法大多都是在图像显著性区域检测的基础上再进行后续的一系列操作.图像的显著性区域是指最能体现图像内容和最能引起人们兴趣的区域,即上文提到的观察客体的视觉中心.图像显著性区域检测即提取图像中的显著性区域,广泛应用于图像研究的各个领域.

通过对比多种算法的效果和性能,本文采用LC(luminance contrast)算法[17]进行人物图像显著性区域检测. LC算法是一种利用图像颜色统计来得到显著性图的有效方法,该算法用像素间在灰度值上的距离来表示显著性值.其核心公式如下式所示[17],其中,Wz为该像素点的灰度值,Wi为图像中其它像素点的灰度值.

SalS(Wz)=∑∨Wi∈W‖Wz-Wi‖.

(7)

在通过LC算法得到显著性区域后,再利用最大熵二值化法对显著特征图进行分割,融合二值图像与原图像获取图像中显著性区域的信息.

视觉平衡性主要体现在显著性区域与整幅图像的面积比例关系上[18],当主体面积与图像尺寸的比例为0.1、0.56、0.82时,视觉平衡性的效果最佳[19].本文使用VB(visual balance)来度量图像的视觉平衡性,具体计算方法如下式所示[16]:

(8)

式中,E=max(|q-0.1|,|q-0.56|,|q-0.82|),r=0.05,q为显著性区域在整幅图像中的面积占比.视觉平衡性分值由VBS(visual balance score)表示,当VB计算结果大于或等于0.5时,VBS的取值为1;当VB计算结果小于0.5时,VBS的取值为0.

1.2.3 景深

景深是指当焦距对准某一点时,其前后都仍保持清晰的范围.浅景深构图是摄影师较常使用的拍摄手法,它通过虚化背景来突出视觉主体,令其得以更加清晰的展现,容易让人对主体更为专注.

本文利用显著性区域与图像整体的清晰度差值来判断图像的景深情况,将用Laplace算子计算得到的图像平均梯度能量作为清晰度的度量,具体计算方法如下式所示[13]:

(9)

式中,G为待评价区域,t为需要计算清晰度的区域,St为该区域的面积.本文使用DOF(depth of field)来度量图像的景深,具体计算方法如下式所示[13].

DOF=log2(|Fu-Fv|+1)+0.5,

(10)

式中,Fu为显著性区域的清晰度值,Fv为整幅图像的清晰度值.景深分值由DFS(depth of field score)表示,当DOF计算结果大于或等于0.5时,DFS的取值为1;当DOF计算结果小于0.5时,DFS的取值为0.

1.3 社会特征

社会特征反应人物图像特有的社会属性,从人物自身出发衡量该幅图像的美感情况.本文分别从人眼睁闭情况、微笑情况和人物间亲密度这3个方面进行讨论.

1.3.1 人眼睁闭情况

在日常生活中评价一张人像照片时,人眼睁闭情况通常会影响评价结果,明亮有神的大眼睛会让人感觉到有精神、状态好,给人更好的美感体验,而闭眼的照片一般是不被选择的.

在使用Dlib进行关键点标注时采用以下方式:从眼睛的左角开始对眼睛周围进行顺时针标注,且每只眼睛使用6个(x,y)坐标表示.本文利用如下式所示的人眼长宽比(EAR)[14]来判断人眼睁闭情况,设定阈值为0.25,人眼长宽比大于或等于阈值时即判定为睁眼,小于阈值时即判定为闭眼,演示图如图2所示.

图2 人眼关键点标注与睁闭时长宽比展示图Fig.2 Key points of human eyes and display of aspect ratio during eye opening and closing

(11)

人眼睁闭情况分值由OCS(open and close score)表示,睁眼的人物比例大于或等于0.5时,OCS取值为1;睁眼的人物比例小于0.5时,OCS取值为0.

1.3.2 微笑情况

通过一定范围内的调研和日常经验发现,人的表情同样能够影响观赏者的情绪与感受.表情识别是一个受关注度较高的计算机视觉与模式识别研究方向,所涉及的算法也比较复杂[20],考虑到研究目的和计算效率,本文无需对表情进行过于细致的分类,只需判断正面表情(笑)和其他表情两种状态.本文借助微笑检测器在已检测出人脸的基础上进行微笑检测,微笑情况分值由SIS(smile score)表示,微笑的人物比例大于或等于0.5时,SIS取值为1;微笑的人物比例小于0.5时,SIS取值为0.

1.3.3 亲密度

多人物图像的美感还与人物间的亲密度有关,而人物间距离的远近能在一定程度上表现人物间的亲密度.经研究表明,人物间距离越近且不重叠时美感最好,图像会显得目标集中且和谐.设人的面部宽度和为M,相距最远的两个面部的中心距离为N,则确定亲密度函数如下式所示[11]:

I=M/N.

(12)

当距离最远的两个面部距离无限大,而所有面部宽度和无限小时,I最小接近0;当两个面部紧凑无缝隙时,I最大值接近2.本文使用IM来度量人物间的亲密度程度,具体计算方法如下式所示[11]:

(13)

亲密度分值由IMS(intimacy score)表示,当IM计算结果大于或等于0.5时,IMS的取值为1;当IM计算结果小于0.5时,IMS的取值为0.

2 评价模型建立

对于一幅人物图像,将上文提出的各特征作为评价指标建立如下式所示的美感评价模型:

SUM=m1×w1+m2×w2+m3×w3…,

(14)

式中,SUM为图像的总分值,m1,m2,m3…等为各评价指标,w1,w2,w3…等为各指标对美感评价结果的影响因子,具体数值由实验结果和一定基数的在线用户调研结果共同决定.

设计调查问卷来确定3类共9个指标对人像照片美感情况产生影响的重要程度,要求测试人员根据示例图片和日常生活中拍摄照片的经验,先浏览整个问卷后再分别对各指标的重要性进行打分,得分分为1~5五个等级,重要性依次增大.

在“问卷星”网站上共回收有效样本233份,用户群体来自广东、辽宁等29个省份,男女均有,年龄在18岁以上,有较为成熟的审美观,样本具有一定的代表性.统计和分析结果后按照各指标分值占比归划至0到1之间的规则确定最终评价模型.

单人图像的美感评价模型如下式所示:

SUM1=0.128×CRS+0.128×SLS+0.134×DTS+0.123×CPS+0.123×VBS+0.116×DFS+0.125×OCS+0.123×SIS

(15)

式中,CRS、SLS、DTS、CPS、VBS、DFS、OCS、SIS分别为对比度分值、饱和度分值、清晰度分值、构图分值、视觉平衡性分值、景深分值、人眼睁闭情况分值和微笑情况分值.

多人图像的美感评价模型如下式所示:

SUM2=0.114×CRS+0.115×SLS+0.120×DTS+0.110×CPS+0.110×VBS+ 0.104×DFS+0.112×OCS+0.110×SIS+0.105×IMS

(16)

式中,CRS、SLS、DTS、CPS、VBS、DFS、OCS、SIS、IMS分别为对比度分值、饱和度分值、清晰度分值、构图分值、视觉平衡性分值、景深分值、人眼睁闭情况分值、微笑情况分值和亲密度分值.

3 实验结果与分析

汤晓鸥等[21]对图像美学分类进行了较为细致且深入的研究.他们将图像细分成7大类并构建了 CUHKPQ 美学质量评价数据集,其中人物类别数据集共有图像 3 148幅,包含678幅高美感图像,2 470幅低美感图像,部分图像如下图所示.

图3 人物类别数据集中高美感示例图片Fig.3 High aesthetic instance image in character category dataset

图4 人物类别数据集中低美感示例图片Fig.4 Low aesthetic instance image in character category dataset

为了说明提出方法的有效性,本文对在CUHKPQ人物图像数据集上开展的实验进行了对比分析. 汤晓鸥等[21]在该人物图像数据集上结合全局特征、局部特征以及人脸特征进行SVM训练与测试,取得了97.40%的分类准确率.

刘剑聪[22]在已有特征上进行了拓展,新增了全局特征、显著特征和显著纹理特征,还加入了包括面部光影特征、几何比例特征和表情特征等在内的人脸美学特征进行综合研究. 提取特征后在CUHKPQ人物图像数据集上采用SVM 算法进行分类测试,达到97.71%的分类准确率.

本文同样在CUHKPQ人物图像数据集上进行测试. 通过Dlib检测到的人脸数量来判断图像为单人物图像还是多人物图像后再分别应用评价模型,根据图像总分值进行高低美感分类,最后综合与图像本身类别的对比结果确定分类准确率. 具体的准确率比较结果如表1所示.

表1 评价结果准确率比较Table 1 Comparison of accuracy of evaluation results

通过对比可以发现,本文提出方法的分类准确率高于文献[21]和文献[22]中的方法,本文提取的技术特征、感知特征和社会特征具有一定的有效性,模型具有一定的准确性. 并且各特征的评价结果更为直观,能够从各角度对提高图像美学质量起到指导作用.

4 评价模型应用研究

目前随着智能手机的发展与普及,用手机拍摄照片已经成为一种留住美好瞬间的既方便又快捷的方式,特别是人们通常对拍摄人像照片情有独钟,然而由于手动挑选和删除多张照片费时费力,且没有一个合适的标准帮助人们进行选择,在一定程度上给人们造成了困扰. 因此针对此问题,本文将美感评价模型集成到手机应用程序中,设计并开发了一个应用程序为用户提供实质性帮助.

该手机应用程序具体运行过程如下,点击“快来点我选择照片”按钮,用户可以一次上传不多于9张的人像照片,开始页面、选择照片页面和选择成功页面如图5(a)(b)(c)所示;选择好照片后点击“点我开始评分”按钮即可开始对照片进行美感评价,评价页面如图5(d)所示,默认展示第一张照片的评价结果和最终得分;点击“GO”按钮可以显示下一张照片的得分情况,点击“Back”按钮可以显示上一张照片的得分情况;点击右上角“删除”按钮,确认是否删除页面如图5(e)所示,确定删除后可以按照总得分排名保留美感最好的一张照片,将其余美感较差的照片全部删除,删除成功页面如图5(f)所示.

图5 手机应用程序运行界面Fig.5 Mobile program running interface

总之,该手机应用程序能够最大化地发挥美感评价模型的应用价值,将研究成果落地,解决人们生活中的实际问题.

5 结论

本文将可计算美学理论、摄影理论和图像处理理论等有效地结合起来,从技术特征、感知特征和社会特征3个方面提取了人物图像的9个特征作为评价指标,融合各指标从单人物和多人物两个角度建立美感评价模型,并将模型集成到手机应用程序中. 实验测试结果表明,本文提出的方法获得了较高的准确率,评价指标明确且具有代表性,各指标评价结果清晰直观,对今后的人物图像美感评价研究起到了一定的借鉴作用. 并且在此基础上开发的手机应用程序也可以满足用户自动评价人像照片和简化选择过程的需求,为人们的生活提供了便利.

猜你喜欢

清晰度饱和度分值
新入职护士工作价值观、未来工作自我清晰度与心理弹性研究
影响摄影图像清晰度的因素
芍梅化阴汤对干燥综合征患者生活质量的影响
糖臬之吻
鲜明细腻,拥有更好的清晰度 Ascendo Immersive Audio CCRM-12 MKII/CCRM-6P/SMS-15
修身的效果,改善声像和定位的清晰度 意大利新一代架皇 BAS AS-S4/AS-B4避震脚钉
悄悄告诉你:统计这样考
谁是科创板创值全能冠军
制作一个泥土饱和度测试仪
巧用有机物的不饱和度