基于PC机的视觉点定位
2015-05-30高倩李世友马晓辉葛星
高倩 李世友 马晓辉 葛星
摘 要:该文系统旨在获取人眼在观看电脑屏幕时的视觉定位点。利用个人计算机摄像头拍摄人脸在屏幕前的图像,对图像进行预处理,通过Haar特征与级联分类器结合的方式提取图像中的人脸特征信息,包括人眼,鼻子及嘴巴的位置,最后由特征信息作为神经网络的输入参数经BP神经网络模型得到视觉定位点。该系统用简单的设备完成了视觉定位的功能,定位出人眼的视觉点。
关键词:Haar特征 级联分类器 图像预处理 BP神经网络 视觉点定位
中图分类号:TP399 文献标识码:A 文章编号:1674-098X(2015)11(a)-0150-02
在科技日益发展的今天,人们对于计算机的要求随着发展而增长,计算机视觉定位是当今研究的热点问题。之前对于视觉定位的研究都是基于双目或者单目相机,对于设备有着较高的要求。
1 图像获取及图像预处理
该系统根据对人脸在计算机屏幕前的姿态的分析,得到视觉定位点的结果。需要计算机摄像头实时地拍摄计算机屏幕前的人脸图像,得到所需的图像信息。
计算机获取图像的时候不能保证在一个光线均匀的环境中,得到的图片会明暗不清,为保证在后面环节中能够得到好的结果,我们需要对图片进行预处理,使图片信息更加清晰。进行预处理之后的图片会更加有利于计算机对于图片的处理应用。
图像增强:
设分别为原图像和处理后图像,则图像增强方法的具体步骤如下:
(1)求原图的灰度直方图,设用256维的向量表示。
2 人脸特征提取
在各种人脸特征提取方法中haar特征用于人脸特征提取效果明显,该文系统所用到的提取方式为用Haar特征对人脸进行描述,再用级联分类器对其进行筛选分类,层层选择之后得到人脸上的特征坐标。
3 BP神经网络应用
3.1 输入数据的调整
由文中提到的特征提取得到脸部特征信息,即人脸上左右眼,鼻子,嘴巴这四个特征在人脸上的位置,得到特征在影像上的绝对坐标点。然而输入数据是左右眼、鼻子、嘴巴这四个特征在人脸坐标系中的绝对坐标的话,由于影像的大小不一,人脸的大小也不一样,特征点在影像中的绝对坐标并不能反映特征在人脸上的真实位置。因此需要将特征点在影像上的绝对坐标转换成相对于人脸的相对坐标。
由于影像中的人脸大小不一样,还需要将坐标转化为以人脸长宽为参照的相对坐标
为比例转换之后的特征点的相对坐标;
为影像宽;为影像长;为脸宽;为脸长。
3.2 确定BP神经网络的结构
(1)隐含层的确定。
实际上,三层的神经网络就足以完成任意的M为到N维的映射。所以该文采取一个隐含层进行神经网络的建立。
(2)激励函数。
BP神经网络中隐含层最常用的是Sigmoid转换函数,其可以满足输入层和输出层采用线性的转换函数,Sigmoid转换函数使三层BP神经网络可以以任意精度逼近任何有理函数。该文采取Sigmoid函数作为激励函数。
S型激发函数公式:
≤≤1 (5)
(3)每层节点设置。
输入的是四个特征点的坐标点信息,将输入层节点设置为4。输出信息为在屏幕上的视觉落脚点,根据屏幕的分割格网确定输出节点数,如屏幕分为2×2的格网则为四个输出节点。隐含节点数会影响计算的快慢以及计算最后的结果的正确率。选择隐含层节点一般原则是:在能正确反映输入输出关系的基础上,应选用较少的隐层节点数,以使网络结构尽量简单。所以将隐含层节点数设为4个。输出信息为网格坐标位置,即眼睛对于屏幕的观测点,将初始权和阀值为0.1,学习率为0.1。进行BP神经网络的训练。
3.3 神经网络实验
实验中利用人眼看向屏幕上的不同点位提取的人脸特征坐标数据,进行BP神经网络的训练训练以及实验。实验结果如图表1所示。
其中GW为格网方式,N为训练样本数,Q为正确率。可以看出,正确率随着网格的加密而下降,需要密于3×3正确率就小于了90%
4 结语
在对于设备的轻便性和实用性的要求越来越高的今天,该文的视觉定位系统很好地满足了现今对于轻便这一点的要求。该系统仅仅是基于PC电脑,没有大型设备的硬性要求,采用的摄像设备为计算机自己配备的摄像头,处理过程也在计算机内部自行进行得出结果,整个过程简单方便。系统中用到的人脸特征提取以及训练的BP神经网络都能很好地到达最后的结果。但是这些结果都是在背景简单以及人脸很好的运动较慢的呈现在计算机面前得到的结果,在环境的改变以及人运动对于结果造成的不好影响还需要进行改进。
参考文献
[1] 吴昌友.神经网络的研究及应用[D].东北大学,2007.
[2] 谷晓平,王长耀,王汶,等.应用于水文预报的优化BP神经网络研究[J].生态环境,2004,13(4):524-527.
[3] 宋万.基于OpenCV视觉库的人脸检测[D].吉林大学,2014.