APP下载

基于卷积神经网络的人脸图像美感分类

2020-01-13朱欣娟吴晓军MATTHIAStsch

西安工程大学学报 2019年6期
关键词:人脸美感卷积

吴 菲,朱欣娟,吴晓军,MATTHIAS Rätsch

(1.西安工程大学 计算机科学学院, 陕西 西安 710048;2.陕西师范大学 计算机科学学院,陕西 西安 710062;3.洛特林根大学 机械工程学院,德国 洛特林根 72762)

0 引 言

随着计算机视觉、人工智能领域飞速发展,越来越多的学者从计算美学的角度,希望计算机能够模拟人脑,通过可计算方法自主评价图像美学质量[1]。为了能够筛选出高质量图像,早期通过手动提取图像美学特征,再利用传统分类器对图像高低美感进行分类[2-5]。近年来深度学习卷积神经网络在计算机视觉领域,如物体分类、语义分割、目标检测及物体跟踪等表现出越来越大的应用潜力[6]。研究者们基于图像全局[7-9]、局部[10-12]、个性化查询[13]等方法,使用卷积神经网络[14]进行图像美学评价。

机器人作为人工智能与机器视觉的代表,不仅实现智能化,同时能够对事物进行观察并作出判断[15]。人脸图像美学评价成为机器学习领域的研究热点之一[16-20]。人脸图像识别是基于人的脸部特征信息进行身份识别的一种生物识别技术[21],它不仅要提取人脸特征,还要将待识别的人脸特征与已得到的人脸特征模板进行比较,根据相似程度对人脸的身份信息进行判断。人脸图像美学识别是以艺术为主体,通过识别人脸图像,使计算机模拟人脑对人脸图像美感进行判断识别。人脸图像识别和人脸图像美学识别均属于生物特征识别范畴,研究人脸面部图像,在图像特征提取、图像数据集上有很多共性。但是由于美学感知受个人主观、文化喜好等影响,因此人脸图像美学识别在研究时需要考虑主观评价因素。目前,针对人脸美学评价的研究,公共数据集较少,2015年华南理工大学公开了专门用于人脸美丽评价的基准数据集“SCUT-FBP”[22]。SCUT-FBP数据集为人脸图像美学评价的研究作出了贡献[23],但该数据集数据量小、图片背景简单、表情中性,且均为亚洲女性。由于现实环境复杂多变,对人脸图像进行美感分类评价时很难控制人物所在背景的单一性,同时识别的人物从年轻到年老的情况均会出现,因此,人脸图像美感评价分类器采用这些简单背景数据集训练会出现识别率不高等问题。

图像感知人脸美学计算具有广泛的应用前景。在机器视觉领域,计算机对人脸的美学评价,感知人脸的美感,可以更好地进行人机交互。同时,在照相机系统中,人脸图像美学评价可以帮助用户自动筛选出满意的照片等。因此研究复杂环境背景下人脸图像美感分类具有重要的现实意义和实用价值。本文基于经典的LeNet-5网络模型,通过改变卷积神经网络中卷积层、全连接层,并在FemaleFace数据集上进行模型训练和结果测试,确定出适合判断人脸图像美感分类的卷积神经网络模型。

1 人脸图像美感分类模型设计

本文的人脸图像美感分类识别算法流程如图1所示。

图1 人脸图像美感分类算法流程图

主要通过对比经典卷积神经网络模型,实现对数据集图像进行高低美感分类。同时在模型的构建过程当中,当模型没有达到收敛状态时,采用误差反向传播更新权值来缩小误差。

1.1 人脸图像美感分类网络模型构建

针对小样本数据集FemaleFace,本文选用经典的LeNet-5网络模型作为基础网络,给出了一种针对人脸图像美感分类的网络模型F-Net(FemaleFace-Net)。该网络模型通过保留LeNet-5网络中固有的网络层数量,根据对网络模型中卷积核大小、池化操作、损失函数等进行调整。调整全连接层当中特征元数量,网络模型结构如图2所示,包括4个卷积层、4个池化层和2个全连接层,以此实现对复杂环境背景中人脸图像高、低美感分类。

图2 F-Net网络模型结构

1.2 模型参数优化设置

1.2.1 卷积层 在卷积层中,采用不同数量的3*3大小的卷积核对输入的人脸图像进行特征提取,每一层卷积后会将本层提取到的特征传递给下一层。卷积操作的计算公式为

(1)

1.2.2 池化层 为了降低计算复杂度,在池化层选择最大池化方法对提取到的图像特征进行降维,同时池化单元具有平移不变性,保证提取到的图像特征不变。这样不仅增强了对数据集中图像位移的鲁棒性,同时可以忽略目标人脸图像的倾斜、旋转等相对位置的变化,以此提高对数据集中人脸图像特征提取的精度,增大模型的适应性。

为保证人脸图像边界信息的完整性,在卷积层、池化层中全部采用相同填充对输入的人脸图像进行边缘补齐,进而保证了图像输入输出维度的一致性。相同填充对输入输出图像大小关系计算公式为

n1=n2/S

(2)

式中:n1为输出图像;n2为输入图像;S为步长大小。

1.2.3 LRN归一化层 在模型设计时,为了提高模型的收敛效率,同时可以创建神经元的竞争机制,引入LRN归一化层,来提高神经元的活跃程度。LRN计算公式为

(3)

1.2.4 交叉熵损失函数 使用交叉熵损失函数,计算人脸图像美感分类模型中正确结果与预测结果之间的误差,运算公式为

(4)

式中:p为标准的概率分布;q为预测的概率分布。由于在分类模型训练中学习速率可以被输出的误差所控制,因此使用交叉熵损失函数可以避免在模型梯度下降时学习速率降低的问题。

2 实验及结果分析

2.1 实验参数

实验环境在Windows 10 64位操作系统的TensorFlow环境中执行,处理器为Inter(R)Xeon(R)CPU E5-2620 v4 @ 2.10 GHz 2.10 GHz,显卡型号是NVIDIA Quadro P4000,显存8 G的计算机下完成。训练batch size 设置为10,初始学习率设定为0.001,训练阶段共迭代2 000次,每200次保存一次模型。

FemaleFace数据集来源于德国洛特林根大学RT-Lion实验室,共收集了1 600张人脸图片,用于机器人视觉研究。数据集图片来源于人物实际工作和生活,均为处于复杂环境背景下的不同年龄、不同表情的女性人像图。与现有人像数据集SCUT-FBP相比,此数据集中人物所处背景复杂,形态多样,年龄跨度大,表情丰富,同时数据集中人像包含不同种族和肤色人种。本文将数据集中图片按照0~1分值分成高、低美感2类,分值0.500以下为低美感图像,分值0.500及以上为高美感图像。

2.2 实验过程

实验初期,首先使用经典的卷积神经网络模型LeNet-5、AlexNet、VGG-16分别在FemaleFace数据集中进行模型训练,使用训练好的模型在测试集中进行测试,测试结果为LeNet-5的分类准确率66%,AlexNet分类准确率58%,VGG-16分类准确率为62%。LeNet-5网络是最简单的网络模型,在FemaleFace数据集中分类结果是最佳,分类准确率没有因为模型简单而受到影响;在训练复杂的VGG-16网络模型时,因其网络层数多,数据集样本量小,造成过拟合现象,不仅浪费了空间资源,同时在训练过程中耗时长,准确率不高。因此在构建网络模型时,以经典的神经卷积网络模型中卷积层数、全连接层数为参考,使用LeNet-5网络模型作为基础网络进行模型的改进。

2.2.1 卷积层数的确定 由于使用了小样本数据集,在构建网络模型时为了能够确定人脸图像美感分类网络模型中卷积层的数量,在LeNet-5网络层数的基础上,依次增加1层、2层、3层、4层卷积层进行网络模型训练,并将网络模型命名为T1、T2、T3、T4,同时每个卷积层都包括池化操作。网络模型训练完成后,对测试集图像进行分类识别,每个网络的识别准确率如表1所示。卷积层数的变化会影响分类准确率,准确率均保持在60%以上,最高准确率达到68.67%。在模型训练的过程中,随着卷积层数的增多,准确率没有呈现明显的上升趋势,因此在保证网络简单的前提下,选择准确率的第一个峰值点所对应的T2网络结构,作为卷积层数的最终选择。

表1 不同卷积层测试准确率

2.2.2 全连接层确定 由于全连接层能够根据特征的组合进行分类,进而减少因特征的差异对分类结果的影响,因此全连接层在分类准确率中也有很大作用。在全连接层层数的确定中,参考3个经典卷积神经网络模型中全连接层层数,在全连接层数上没有过多改变,在每层全连接层特征元的提取数量进行了调整。在已经确定好卷积层数量的T2网络结构中,通过改变全连接层层数和全连接层提取特征数量,进行5次实验。实验结果如表2所示。

表2 不同全连接层数量及特征个数测试准确率

通过在FemaleFace数据集中卷积层相同,全连接层不同的网络模型中进行训练并测试,结果表明,全连接层每层特征数量的变化会影响分类结果的准确率,同时随着增加特征元减少的全连接层,分类准确率也会受到影响。因此选择实验结果的第一个峰值点。

2.3 结果分析

2.3.1 数据集分析 在进行人脸图像美感分类模型训练和测试的数据集中,由于图像分值处在高低美感分界线0.400~0.600之间的图像,识别错误率较高,在分类过程中,容易将分值0.400~0.500之间的低美感图像识别为高美感图像,同时在FemaleFace数据集中,佩戴墨镜、帽子等配件的人物图像因其遮挡五官也会容易将此类高美感图像识别为低美感图像。由于数据集中图像没有处在一个单一的背景环境下,当图片中出现多人物关系时,模型在测试过程中很难判断人物的主次关系而造成识别错误;最后,表情过分夸张,大喜、大怒的人脸图像容易识别错误。因此,分值在分类线的图像的错误判断对实验的分类准确率结果影响很大。

2.3.2 模型结构分析 F-Net网络模型添加局部响应归一化LRN操作,使用交叉熵损失函数。在每个卷积层后面都使用池化层中最大池化操作进行降维。同时F-Net采用相同填充方式保证了图像边缘信息不被丢失。该模型在FemaleFace数据集训练得到的网络模型分类准确率最高,达到73%。与经典的卷积神经网络模型在FemaleFace数据集上训练得到的模型相比,LeNet-5模型分类识别准确率为66%,F-Net提高了7%;AlexNet分类识别准确率为58%,F-Net提高了15%;VGG-16分类识别准确率为62%,F-Net提高了11%。F-Net以简单的网络模型结构达到了良好的分类效果。

3 结 语

本文基于LeNet-5经典网络模型,在复杂背景、人脸表情丰富的FemaleFace人脸图像数据集进行人脸图像美感分类卷积神经网络模型训练和测试。通过对模型参数的优化,对比不同卷积层数量、全连接层数量及每层全连接层神经元的提取数量确定了一种适用于人脸图像美学评价的卷积神经网络模型F-Net,通过与经典卷积神经网络模型分类准确率的对比,验证了本文改进网络模型的有效性。

对于人脸图像美学评价,复杂的背景环境难免会对评价结果产生影响,在以后的工作中,主要集中在图像局部与整体的分割,通过将图像中人脸部分进行人脸识别,增强人脸区域提取局部特征,同时将图像整体进行遍历提取图像全局特征,将提取到的特征进行特征融合,以进一步提高识别的准确率。然而,目前样本数据集量小,将会继续增加数据集中的样本数量,提高模型的泛化能力。

猜你喜欢

人脸美感卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
有特点的人脸
一起学画人脸
卷积神经网络的分析与设计
从滤波器理解卷积
三国漫——人脸解锁
兼具力度与美感 Bowers & Wilkins 702 S2/707 S2/HTM71 S2/ASW10CM S2
基于傅里叶域卷积表示的目标跟踪算法
关于书法美感问题的几点思考
大桥下面:我喜欢被遗忘的美感