基于改进卷积神经网络的人脸情绪识别研究
2021-01-20林紫雯韩慧娜
王 遥 金 玲 林紫雯 韩慧娜
(吉林工商学院,吉林 长春130062)
1 改进的卷积神经网络
卷积神经网络在本质上是一种从输入到输出的映射关系,并且不需要任何的数学表达式来表达其输入到输出之间的关系,而只需要利用已知的数据对卷积网络模型进行训练,从而能使得网络具有了输入输出之间的映射关系。并且再卷积神经网络进行有监督学习之前, 需要采用不同的随机数对网络中的各项权值进行初始化操作。本文设计的用于人脸情绪识别的改进后的卷积神经网络,结构如图1 所示。
图中所示的模型有着20 个卷积层,以此来形成人脸表情的特征提取。此模型中含有8 个残差深度可分离卷积层,在每个卷积层后都是一个批归一化操作和Relu 激活函数。接着是一个全局平均池化层,在将最后的结果输入Softmax 分类器当中从而生成表情识别的预测值。最后的Softmax 分类器对全局平均池化层的输出结果进行分类处理,将人脸情绪分类愤怒、沮丧、恐惧、高兴、悲伤、惊讶、中性七类。
1.1 卷积层
卷积神经网络是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元, 对于大型图像处理有出色表现。卷积神经网络中每层卷积层由若干卷积单元组成,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网络能从低级特征中迭代提取更复杂的特征。一般情况下,设输入图像矩阵A,B,其行列数分别为ma、na、mb、nb,则卷积层的计算公式如下:
图1 表情识别模型
当我们选择激活函数为Relu 函数时, 卷积层的计算公式如下:
卷积层作为实现起到特征提取的功能, 每一层的每个神经元输入需要与前一层的局部感受相连, 从而提取出该局部的特征。本文模型中的卷积层1 采用3×3×8 的卷积核对输入图像进行卷积求和操作,最后输出得到8 个46×46 的特征图,同理经过卷积层2 得到16 个44×44 的特征图。深度可分离卷积层1、深度可分离卷积层2 以及深度可分离卷积层3 均分别得到32个44×44、64 个11×11、128 个6×6 的特征图。卷积层4 等得到7 个3×3 的特征图。
1.2 池化层
本文模型中采用了两类池化层,一类是最大池化层,另一类是平均池化层。为了防止直接将学习到的特征直接进行Softmax训练从而带来的参数维度过高的问题, 最大池化层的目的就是将特征图大小减小, 并且在减小的同时是特征图的输出具有平移不变性。全局平均池化层与最大池化层不同,它不改变输入特征图的大小,而是会将每个特征图形成一个值。相对与使用全连接层减少了参数并且提高了训练时间,减少了过拟合。
1.3 Softmax 层
2 实验结果及分析
采用的数据集是来自kaggle 竞赛中的数据Fer2013, 数据集由35886 张人脸表情图片组成,其中,测试图28708 张,公共验证图和私有验证图各3589 张, 每张图片是由大小固定为48×48的灰度图像组成,共有7 种表情分别对应于数字标签0-6,具体表情对应的标签和中英文如下:0 anger 生气;1disgust 厌恶;2fear 恐惧;3happy 开心;4sad 伤心;5surprised 惊讶;6normal 中性。但是,数据集并没有直接给出图片,而是将表情、图片数据、用途的数据保存到csv 文件中。经过10000 次的迭代训练,本文的表情识别模型在fer2013 数据集上的训练效果达到了67.2%的准确率,结果如下表(表1)。图2 与图3 分别描述了本文模型在训练过程中的训练损失值及训练准确值。
表1 本文模型在fer2013 数据集上的识别结果
从表1 中可以看出,本表情识别模型对高兴与惊讶的识别准确率最高,准确率分别为86%和88%,但是对于恐惧和悲伤这两种表情的识别准确较低,分别为57%及49%,根据模型猜想是对特征图的提取参数过少,忽略了部分表情特征使分类效果降低。
与传统的深度学习模型在fer2013 数据集上的准确率对比结果如表2 所示,其中LBP 由Rivera 设计提出,采用人工特征提取筛选进行表情识别, 但其识别准确度略低于常用深度学习算法。CNNs 模型采用并行卷积神经网络模型,使fer2013 的最终识别准确率达到了65.6%。本文中设计的表情识别模型,比LBP 模型提高了1.7%,比CNNs 模型提高了1.6%,证明了本文设计的模型在人脸识别上具有较好的识别功能。
表2 不同模型在fer2013 数据集上识别率对比
3 结论与反思
本文以CNN 卷积神经网络为基础,建立人脸情绪识别模型,实验证明建立的模型预测效果优秀,正确率较高,并且以改进的卷积神经网络提高了传统识别模型对于fer2013 数据集上的识别了吧, 但分析识别结果在对于恐惧和悲伤表情的识别上该模型仍具有进步空间, 需要对与脸部特征再进行细分提取从而提高分类准确率。本模型为人脸情绪识别提供了可靠的技术分析支持,可以将该模型应用于病理研究、公共安全预警系统、机器人仿真等方面。