基于LVQ神经网络的人脸朝向识别研究
2021-12-02张军黄阳罗蓓谢辉
张军 黄阳 罗蓓 谢辉
摘要:本文提出一种基于LVQ神经网络的人脸朝向识别的方法。本文首先对LVQ神经网络进行介绍,通过对该算法的进一步研究,利用MATLAB工具将LVQ神经网络应用于人脸朝向识别,采用30幅人脸图像提取出的特征向量作为训练数据,采用20幅人脸图像提取出来的特征向量作为测试数据。实验结果验证了本文采用方法在人脸朝向的判断和识别具有一定的有效性,为下一步开展人的行为动作识别打下基础。
关键词:图像处理;人脸识别;MATLAB;LVQ神经网络
1、引言
针对传统的基建工程项目管理模式存在的弊端,搭建智慧化工地管理平台,实现现场实时监控,数据及时传输,保障现场安全,减少项目管理成本。本文依托于西南油气田公司下属的通信与信息技术中心关于智慧化工地管理平台的科研项目开展研究,通过对LVQ神经网络的研究,实现对人脸朝向的判断和识别,为下一步开展施工人员的抽烟、打手机等不规范行为的识别打下基础。
2、LVQ神经网络概述
2.1 LVQ神经网络的结构
学习向量量化(Learning Vector Quantization)神经网络由Kohonen竞争算法演化而来,是一种用于训练竞争层的有监督学习方法的输入前向神经网络,LVQ神经网络在模式识别和优化领域有着广泛的应用。LVQ神经网络由输入层、竞争层、线性输出层构成,竞争层位于中间层,采用全连接的方式与输入层相连,采用部分连接的方式与线性输出层相连。由于各层之间神经元的连接方式,导致竞争层的神经元数量多于线性输出层:竞争层内每个神经元只与一个线性输出层的神经元相连接,连接权值为1;线性输出层的每个神经元则与多个竞争层的神经元相连接。当向LVQ神经网络输入数据时,竞争层内与输入数据距离最近的神经元被激活,赋值为1,竞争层内其他神经元则为0,而与被激活竞争层神经元所连接的线性输出层神经元也被赋值为1,其余为0。
2.2 LVQ神经网络的特点
竞争层神经网络将对输入向量模式的分类进行自动学习,但输入向量之间的距离决定了竞争层的分类,即两个输入向量的距离非常近的时候,它们则有可能被竞争层归为一类,而在竞争层的设计中并没有严格地判别任意两个输入向量是否属于同一类,但是LV Q神经网络可以通过监督学习的方式实现对输入向量的准确分类。相较于其他模式识别或映射方式,LVQ神经网络具有网络结构简单的优势,通过其内部单元的相互作用即可完成复杂的分类处理;对于设计域中各种分散且繁杂的设计条件,LVQ神经网络具备将这类设计条件收敛到结论的能力。同时,该网络可直接计算输入向量和竞争层之间的距离达到模式识别的目的,而不需要对输入向量进行归一化、正交化处理。
3、MATLAB实现步骤
考虑到人脸水平旋转对识别过程的影响,本文对10名素材提供人员进行人像采集,采集方向为:左面、左前、正面、右前、右面,每人5幅图像,共计50幅。通过对50幅素材的分析,对面部器官在各个朝向的位置进行分析,发现眼睛在不同朝向的图片中的位置具有较大的差异。因此,本文考虑将眼睛位置的特征参数提取出来作为LVQ神经网络的输入。以数字“1、2、3、4、5”分别代表“左面、左前、正面、右前、右面”,作为神经网络的输入,利用训练参数对网络进行训练,以达到能够对任意给出的人脸图像进行朝向的识别和判断。按照上述思路,本文采用方法主要步骤如图1所示:
步骤一:面部特征参数提取
本文将素材图片划分为6行8列,通过对素材图片的剪裁,让眼睛保持在图片的第2行,利用边缘检测后,位于第2行的8个子矩阵中数值为1的像素点与面部朝向有直接的关系,因此将第2行中的8个子矩阵中数值为1的像素点作为不同面部朝向的特征参数。面部的划分如图2所示:
步骤二:生成测试数据
步骤二目的是提取出素材图片中描述人眼位置的信息,即网格中第2行中8个子矩阵数字为1的像素点个数。本文以表示不同素材提供者的编号,表示面部朝向,即;特征参数存放于TZ_value中。
步骤三:创建网络
本文利用MATLAB工神经网络工具箱中的newlvq()函数创建LVQ网络,即:
其中PR为输入向量的范围、R为输入向量维数,S1为竞争层的神经元个数,PC为线性输出层期望类别的占比,LR为学习速率,LF为学习函数。
步骤四:训练网络
本文一共采集10位人员的面部信息,每人按照预先设定的面部朝向,各采集5幅素材图像,共计50幅。随即选取其中的30幅作为训练数据,对网络进行训练,在程序中设置 net.trainP.goal 为0.001,剩余的20幅作为测试数据。
4、实验结果
完成LVQ神经网络的训练之后,本文对该网络进行了测试。测试分为两类进行:一类是正常训练,即在训练神经网络的时候,所有的素材图片内的面部均为图2所示的正常状态;另一类异常训练,即训练神经网络的时候,将部分训练素材倒置,如图3所示。
本文按照正常训练和异常训练,分别进行10次測试,测试结果如下:
通过两种类型的测试对比不难发现:当测试数据均为正常状态的情况下,眼睛基本都处于第2行内,本文采用的方法能够准确地采集特征参数用于网络训练,在正常状态下,对于面部朝向的识别准确率较高,达到97%;当测试数据发生倒置等异常时,异常图片内的眼睛不在第2行内,导致异常训练的情况下,对于面部朝向的识别率交底,仅为89%。
5、总结
本文简单介绍了LVQ神经网络的原理,并利用MATLAB工具箱建立LVQ神经网络,通过对10位测试人员共50幅素材图片的采集,对网络进行训练并测试。在面部正立情况下,本文的方法对于人脸朝向识别的准确率较高,但将部分素材图片进行倒置之后,面部朝向识别的准确率明显下降。通过本次实验,验证了该方法在人脸朝向识别的有效性和可行性,但考虑到建设工地施工现场采集的图像情况较为复杂,人员的行为动作存在多种可能,本文在完成人脸朝向的识别后,在后续的研究中,将结合人员肢体的识别,进行综合判断,进一步提高人员不规范行为识别的准确率。
参考文献
[1]任明武,数字图像处理(第一版)[M].南京理工大学,2003年
[2]勒中鑫等编著,数学图像信息处理[M].国防工业出版社,2004年
[3]章毓晋,图像处理和分析[M].清华大学出版社,1999年
[4]汪孔桥,数字图像的质量评价[J].测控技术,2000年,第19卷第5期,pp.14-16
[5]Ardeshir Goshtasby,Fusion of Multi-exposure Imgaes[J].Image and Vision Computing 23(2005) 611-618
[6]贾永红编著,计算机图像处理与分析[M].武汉大学出版社,2001
[7]王小川等编著,MATLAB神经网络43个案例分析[M].北京航空航天大学出版社,2013.8