基于卷积神经网络的人脸表情识别研究
2019-09-10方彦
摘 要:人脸表情识别是图像识别的一个重要领域。由于人脸表情较多,图像背景复杂,不同类型人脸相似,同类型人脸的差异甚小,人脸表情识别仍存在很大挑战。传统人脸识别分类方法主要基于依靠人工提取分类特征,且精度不高。本文构建基于Keras的卷积神经网络模型,并运用FER2013数据集,结果表明该方法提高了人脸表情识别的精度,为该问题的解决提供了新的思路和方法。
关键词:卷积神经网络;表情识别;深度学习
中图分类号:TP389.1;TP391.4 文献标识码:A 文章编号:2096-4706(2019)14-0081-03
Research on Facial Expression Recognition Based on Convolutional Neural Network
FANG Yan
(School of Mathematics and Computer Science,Quanzhou Normal University,Quanzhou 362000,China)
Abstract:Facial expression recognition is an important field of image recognition. Face expression recognition still faces great challenges because of the large number of facial expressions,the complex image background,the similarity of different types of faces and the small difference between the same types of faces. Traditional face recognition classification methods mainly rely on manual extraction of classification features,and the accuracy is not high. This paper constructs a convolutional neural network model based on Keras and applies it to FER2013 data set. The results show that this method improves the accuracy of facial expression recognition and provides a new idea and method for solving this problem.
Keywords:convolutional neural network;expression recognition;deep learning
0 引 言
人脸表情识别作为情感计算研究的一个重要方向,是人机交互的重要组成部分,在医学、教育以及商业营销等领域都有着广泛的应用。美国著名心理学家Mehrabian[1]提出,在人类的日常交流中,通过语言、声音传递的信息分别占全部的信息总量的7%和38%,而通过人脸表情传递的信息量则占到了55%。美国心理学家Ekman和Friesen[2]通过大量实验,定义了人类六种基本表情:高兴、生气、惊讶、害怕、厌恶和悲伤。基于特征的识别方法,是分类器进行表情识别的关键,传统的分类方法需要人为提取特征进行分类,特征选取的好坏直接决定了识别准确率的高低,而特征选择需要有一定的专业知识,且识别率较低、耗时费力。近年来,深度学习作为机器学习研究的一个新的领域,受到人们的广泛关注。深度学习在时效性和准确性上有了显著的提高。卷积神经网络(Convolutional Neural Network,CNN)是深度学习的一种算法,1989年LeCun等[3]最先提出了它的思想,并于1998年提出了應用卷积神经网络的算法解决手写数字的识别。2012年,Alex Krizhevsky等[4]使用卷积神经网络在ImageNet 2012比赛中获得冠军。卷积神经网络可以在没有进行数据预处理的情况下直接输入图像并得到最终的分类结果。通过搭建具有一定深度的神经网络模型,结合卷积和池化等非线性操作,从而实现模仿人脑的分级处理和视觉神经的局部感知两大重要的功能。事实证明,该网络在人脸识别[5]、语音识别[6]、车辆检测[7]和目标跟踪[4]等方面取得了较好的成果。
1 卷积神经网络的结构
随着计算机计算性能的迅速发展,深度学习在许多领域有了广泛的应用。本文提出将基于卷积神经网络的深度神经网络应用到表情分类问题中。
2 数据集
2.1 数据集介绍
本文采用的数据集是FER2013人脸表情数据集。FER 2013数据集是目前较大的人脸表情识别公开数据库。该数据库包含35887张人脸表情图片,其中训练集有28709张图片,公开测试集和私有测试集各3589张图片。每张图片由大小固定的像素为48*48的灰度图像组成,共有7种表情:生气、厌恶、害怕、开心、难过、惊讶和中性,分别对应于数字标签0—6。图1给出了7种表情图。
2.2 数据集扩增
在训练深度神经网络时,小样本集训练模型的泛化能力相对不足,在评价网络性能时说服力不够,因此考虑人为扩展训练数据。本文通过运用翻转变换、平移变换等方法将训练集扩充了十倍。部分操作效果图如图2所示。
3 实验
为了验证卷积神经网络模型在人脸情绪识别上的性能,本文构建了基于Keras平台的卷积神经网络模型,而后随机取80%的数据集作为训练集训练模型,并将剩余的20%的数据集作为测试集测试性能。表2表示的是本文卷积神经网络模型在FER2013数据集的识别效率,实验表明,我们在FER2013数据库上的识别率为66.38%,达到了在使用人工的情况下对该数据集的平均识别率水平65%±5%。
4 结 论
本文主要研究基于卷积神经网络的人脸表情识别方法,通过构建基于Keras平台的卷积神经网络模型,能够有效地对人脸表情进行识别并分类。该人脸表情识别应用可以根据不同的目标表情集调用不同的模型文件进行情绪识别,为人脸表情识别研究做出了一定的理论和实践的参考。考虑到系统复杂度等问题,本文未对化妆、遮挡等条件进行研究,如何在这些极端条件下进行人脸表情识别还需要进一步研究。此外,对于卷积神经网络而言,需要尽可能多地收集数据,合理扩增数据集,使得训练的网络具有更好的泛化性能,减小过拟合。
参考文献:
[1] Mehrabian A. Communication without words [J].Psychology Today 2,1968(4):53-56.
[2] Ekman P. Universals and cultural differences in facial expressions of emotion [C]// Nebraska Symposium of Motivation,1972. University of Nebraska,Press,1972.
[3] Lecun Y,Bottou L,Bengio Y,et al. Gradient-based learning applied to document recognition [C]// Proceedings of the IEEE,1998,86(11):2278-2324.
[4] Krizhevsky A,Sutskever I,Hinton G. ImageNet Classification with Deep Convolutional Neural Networks [C]// NIPS. Curran Associates Inc. 2012.
[5] Schroff F,Kalenichenko D,Philbin J. FaceNet:A unified embedding for face recognition and clustering [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston,USA,2015.
[6] Ribeiro E,Uhl A,Hafner M. Colonic Polyp Classification with Convolutional Neural Networks [C]// 2016 IEEE 29th International Symposium on Computer-Based Medical Systems (CBMS),Dublin,2016:253-258.
[7] Girshick R,Donahue J,Darrelland T,et al. Rich feature hierarchies for object detection and semantic segmentation [C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition,Columbus,2014:580-587.
作者簡介:方彦(1981.10-),女,汉族,福建福清人,讲师,硕士,研究方向:机器学习。