基于改进的卷积神经网络多姿态人脸识别研究

2018-10-10王学军

吉林大学学报(信息科学版) 2018年5期

韩东, 王学军

(吉林大学通信工程学院, 长春 130022)

0 引言

人脸识别技术由于相较于其他生物特性辨别技术(指纹识别、虹膜识别等)具有隐蔽性、易操作性与结果直观性的特点, 因此广泛应用于居民日常监控、国家金融安全和信息技术安全等领域[1-4]。但在非约束环境下, 摄像头往往采集不到非常合适的人脸, 各种不同姿态的人脸图像对识别技术造成了较大的干扰。

近年来卷积神经网络[5]已成为越来越多科研工作人员研究的对象, 它将深度学习的思想引入神经网络中, 通过卷积运算和池化运算等方式由浅入深的多个层级的提取图像的特征, 从而模仿大脑神经突触的工作方式, 使卷积神经网络所提取的特征与生物系统相类似, 利用其高度并行性特征、非线性特征、稳定性特征以及容错性, 应用在图像识别处理等领域中[6]。

LeNet-5经典CNN(Convolutional Neural Network)结构[7]已经在手写数字识别领域中得到了应用, 笔者通过分析LeNet-5经典CNN结构, 利用卷积和数目和池化方式对其进行了改进, 取得了较好的识别效果。

在我国农村金融创新过程中，需要在农村开展普惠性的金融教育，提升农民及新型农业经营主体的金融意识、信用意识、法律意识，特别是培育负债经营意识，逐渐建立农村金融消费者自我保护意识，防止盲目投资和过度负债。

1 卷积神经网络模型

卷积神经网络主要由卷积层和池化层组成[8], 每个卷积层后都需设置池化层, 最后由全连接层进行连接输出, 卷积层的所有神经元都不只与前一层单一局部感受野相连接, 同时对局部感受野内的图像特征进行提取, 经过提取的不同特征图组合后经过非线性激活函数变换输出。并且由非线性激活函数对图像信息进行多次非线性变换, 最终得到一个多维的图像特征向量。

图1所示的图像矩阵尺寸为5×5, 经过尺寸为3×3的卷积核进行卷积后, 得到一个3×3的特征图, 其计算公式为(5-3+1)×(5-3+1)。卷积层的某个卷积核W通过对上一层全集得到的特征图像进行卷积, 然后通过激活函数f(·)进行非线性变换, 最终得到输出特征图X。输入图像进行多次卷积后得到输出图, 用数学语言描述为

1.1 卷积层

卷积层的主要作用是对图像进行特征提取, 每种卷积图都可提取一种图像特征, 在卷积神经网络结构中, 每个卷积层由于含有多个卷积图, 所以该卷积层可提取多个特征。卷积运算过程如图1所示。

图1 卷积过程Fig.1 Convolution process

即将到来的各种节日，不仅是奢侈腕表，更是几乎所有奢侈品牌争夺的营销主战场。想要从中分一杯羹，创新的营销形式、精准的渠道选择以及电商导入能力，在品牌营销中更加至关重要了。

(1)

在卷积核数目的增加过程中, 人脸识别率也会随之提高, 但在卷积核的数目增加到一定数值时, 识别正确率开始变化不大。所以, 当(C1 C2)选择(8 16)时, 卷积神经网络能最大化地对图像特征进行提取, 且能保持一定的正确率。

1)地名本体是从人的思维出发，受到内部的人的因素(思维、语言、文化传统等)影响，外部的历史、政治、经济等因素影响，使得地名本体构建相对困难，此外，目前指导地名本体构建的规范性的方法和技术手段还没有，虽然大家认可了地名本体在GIS中发挥的重要性，但是在地名本体的实际构建中，还处在自编自建的阶段。

1.2 池化层

卷积神经网络的性能受许多参数影响, 笔者通过对卷积核数目、卷积核尺寸、池化层方式和正则化手段等参数的实验对比, 分析这些参数对卷积神经网络性能的影响, 通过选取最优参数构建适合多姿态人脸识别的卷积神经网络。

最大池化[9](max-pooling)就是将池化窗口中的最大值元素选出作为该池化窗口的输出值, 平均池化[10](average-pooling)是将池化窗口内的所有元素求和, 求其平均值, 其表达公式如下

(Sk)max-pooling=max(ai)i∈Rk(2)

随机池化[11]按照概率p随机的选择窗口内的元素作为输出值。其公式如下

(4)

池化窗口内把第i个元素的值与窗口内元素值总和相除, 得到该元素的概率值, 然后在按照概率值对单位长度进行划分, 大的概率值对应长的区间, 最后随机地由算法生成一个数, 该数所属区间所对应的元素值, 即为随机池化的输出值。

其中Mi代表数值矩阵, 且第i层神经元所输出的维度与数值矩阵的维度相同。Mi中的元素除了以概率p设为0的, 其余皆设置为1。Dropconnect方式[13]是在dropout方法的基础上进行了改进, 与dropout类似, Dropconnect方式也在训练的过程中将隐含层的某些值以概率p设置为0, 当权值进行更新时, 与该节点相连的权值不再更新。不同的是, Dropconnect方式随机将节点的输入权值清零, 而不是将隐藏层节点的输出清零。

1.3 正则化方式

卷积神经网络由于要对海量的数据进行处理, 所以非常容易出现过拟合现象。如果卷积神经网络中使用Dropout方式[12]进行正则化处理, 则可有效避免过拟合现象的出现。Dropout方式以概率p(0

(5)

增加Dropout正则化后, 式(5)可改为

(6)

新媒体赋权对伦理世界的影响和变革，是从对传统伦理世界的解构开始的。最初，媒体只是影响社会文化和公众舆论的众多因素之一，但是发展到新媒体阶段，高科技信息方式的融入逐渐且不可避免地改变了人们认知和理解世界的方式和态度。当前，新媒体所创造的数字化社会语境已经彻底改变了传统的对话方式，对社会语境、人类生活和生命个体都产生了革命性的影响，给传统的家——国——社会的伦理机制赋予了新的内涵。媒体赋权的伦理本质，从传统大众传播媒体时代的被动赋予，向新媒体时代的主动建构过渡，形成了一种去中心化的伦理关系、一种多元化的伦理场域和一种实践性的伦理情感。

2 改进的卷积神经网络

卷积层对图片进行特征提取得到维度通常都会很高, 这将为分类器的训练带来更大挑战, 而且会出现过拟合现象, 为了解决此类问题, 则需进行池化采样。池化层可通过对卷积层进行池化操作, 从而降低特征的维度, 最大程度的避免过拟合现象的发生。以下3种池化方式最为常用：随机池化、平均池化和最大值池化, 每种池化方式的选择都能够为卷积神经网络产生不同的效果。

2.1 卷积核数目对比分析

以LeNet-5为基础, 更改其池化方式, 并选取其中3种有代表性的池化方式, 在CAS_PEAL人脸库上进行人脸识别实验, 并对实验数据进行采集和统计, 结果如表3所示。

表1 卷积核数目对比表

2.2 卷积核尺度对比分析

以LeNet-5为基础, 更改其卷积核窗口的大小, 并选取其中10种有代表性的卷积核尺度参数, 在CAS_PEAL人脸库上进行人脸识别实验, 并对实验数据进行了采集和统计, 结果如表2所示。

气象导航诞生于20世纪50年代，发展到今天，已经成为一门学科。实践也证明气象导航明显地提高了船舶航行的安全性，其主要表现在以下几个方面：

表2 卷积核尺度对比表

从表2中的数据可看出, 卷积核滑动窗口的尺度与该卷积神经网络的识别性能相关, 卷积核窗口过小或过大都会降低识别正确率。由以上实验数据分析可得出, 当卷积核窗口的尺寸设置为(5,5)时, 能最大程度提高人脸识别正确率。

2.3 池化方式对比分析

选取满足覆盖人脸识别需求的十组卷积核数目对, 以LeNet-5为基础, 按照该十组卷积核的数目设置10个卷积神经网络模型, 为保证实验数据的全面性, 选取CAS_PEAL人脸库[14]中男女各10幅不同姿态的图像进行识别实验, 并对每组卷积神经网络的实验数据计算其平均值, 结果如表1所示。

由表3可知, 最大池化模型和随机池化模型在人脸识别的效果上优于平均池化模型, 在训练时间上, 最大池化效率明显高于随机池化。所以, 当卷积神经网络使用最大值池化时, 能使人脸识别更加精确、高效。

表3 池化方式对比表

2.4 正则化方式对比分析

笔者在LeNet-5结构上分别增加以上两种正则化手段, 设计两种实验模型, 为保证实验数据的全面性, 选取CAS_PEAL人脸库中男女各10幅不同姿态的图像进行识别实验, 并对每组卷积神经网络的实验数据计算其平均值, 结果如表4所示。

本系统程序设计采用顺序功能图进行编程，将复杂的控制过程分成若干工作步，步与步之间通过转移条件连接。图8和图9为根据系统控制要求编制的顺序功能图，根据该功能图在西门子smart 200软件中编程，并分别下载到PLC中运行，即可分别实现集热系统对太阳高度角和方位角的追踪，制冷系统中对太阳能清洗电机、溶液泵电机和循环泵电机的控制。通过主站S7-300来实现对两个从站S7-200之间数据的读写操作，完成整个系统的通信，从而实现太阳能制冷系统的功能。

表4 正则化方法对比

综上实验对比分析, 两种正则化方法都能在一定程度上提升人脸识别的效果, 笔者选取Dropconnect正则化方法的神经网络表现相对较好, 并且其值设定为0.5能更好地提高识别率。

2.5 改进的卷积神经网络

综上所述, 经过大量的实验, 笔者改进的卷积神经网络的主要结构如图2所示。

图2 改进的卷积神经网络Fig.2 Improved convolutional neural network

卷积层负责特征提取工作, 池化层负责特征压缩。输入图像的一些基本特征通过可学习的卷积核提取, 比如角点特征和边缘特征等。然后将这些基础特征进行整合、汇总, 形成了图像的全局特征。每个卷积核都能提取一种基础特征, 当增加卷积核的数目时, 对同一幅图像所提取到的不同特征图也就增多, 将这些不同的特征图进行组合就是卷积层的输出。

初始条件设为有机溶剂用量10mL，KOH甲醇质量浓度为0.2g/mL，用量5mL，提取温度为40℃，提取时间为2h，BHT添加量为0.2g，研究甲醇、四氢呋喃、正己烷和乙酸乙酯对稻谷中叶黄素提取效果的影响。取上述实验的最佳有机溶剂，溶剂用量分别设为 5mL、10mL、15mL、20mL，探究有机溶剂用量对稻谷中叶黄素提取量的影响。

3 实验结果及分析

a 查询图像 b 搜索结果图3 人脸识别结果Fig.3 Face recognition results

通过笔者构建的卷积神经网络提取的特征向量维度可经过PCA算法[15]降低到一定的特征向量维度。使用笔者改进的卷积神经网络对CAS_PEAL人脸库进行特征向量提取, 并分别建立5种常见不同维度的特征向量库, 然后在CAS_PEAL人脸库中选取10名志愿者(男女各5名)的9种不同姿态的人脸图像作为待识别人脸图像。

笔者实验算法比较复杂, 为更好地实现算法效果, 选用专业性、便捷性都很强大的Matlab R2015b作为仿真实验工具。对待识别人脸图像分别在笔者所建立的5种不同维度的特征向量库进行人脸识别实验, 实验结果如图3所示。

本实验主要通过识别效果、识别时间分别对笔者算法进行评估。

阿联酋是中东地区重要产油国，欧佩克组织主要成员，油气资源丰富且对外开放，政治生态开明，政局稳定，社会安全，经济金融开放，汇率稳定。该国政府尊重合同，具备契约精神，适合油气项目投资。该国油气项目曾长期由埃克森美孚、BP和道达尔等西方大型石油公司掌控。2014年以来，中国石油抓住历史机遇，践行“一带一路”倡议，利用技术及一体化优势，成功进入阿联酋油气领域，短短几年已取得不菲的成绩，同时促进了工程建设及技术服务队伍的合作，成为这一全球油气高端市场的重要合作伙伴。

1) 识别效果分析。本实验识别率的计算方式：对同一角度下的10名志愿者人脸图像分别进行10次实验, 每次实验能同时检索到9幅不同姿态的人脸判定为识别正确, 最后计算识别率, 其计算方式如下

得到的实验数据如表5所示。由表5和图4可知, 在提取的特征向量是32维时, 识别正确率最低, 这是由于卷积神经网络所提取的32维特征向量不足以代表人脸的全部特征；在提取的特征向量为512维度时, 由于提取了过多的人脸特征向量, 超过了正常能代表人脸特征向量的范围, 多余的特征向量对正常的特征向量在识别的过程中造成了干扰, 所以识别率并不是最高；当提取的特征向量控制在128维时, 足以代表人脸所需的全部特征, 所以能达到最好的识别效果。

在农民培训过程中，农民科技教育中心承担着重要的工作职能，参加培训农民的组织和管理以及培训内容和项目的策划，都需要农民科技教育中心提前进行规划和设计。在此过程中，农民科技教育中心应该不断地强化自身的管理水平，对农民教育培训过程中的关键问题展开深入的调研和探讨，然后结合农民的实际学习情况，对于培训内容提出相应的合理建议。

表5 不同维度识别率数据表

图4 不同姿态维度识别率对比图Fig.4 Comparison of recognition rates of different dimensions

2) 识别时间分析。对同一角度下的10名志愿者人脸图像分别进行10次实验, 并对每次实验的训练时间和识别时间进行记录, 训练时间为对CAS_PEAL人脸库(1 070张人脸图片)进行特征提取的总时间, 识别时间为对各个人脸进行识别的平均时间, 具体实验数据如表6所示。从表6可知, CAS_PEAL人脸库的训练时间并不随特征向量的维度增加而增加, 但识别时间有少量增加, 其主要原因在于识别阶段, 经过卷积神经网络所提取的特征向量维度增加, 余弦相似度计算量也随之增加, 所以导致识别时间也少量增加。