浅谈人脸识别技术及其应用
2011-04-12耿艳萍
耿艳萍
(山西大学工程学院,山西 太原 030013)
人脸识别是基于人的脸部特征,对输入的人脸图像或者视频流进行一种判断,首先判断其是否存在人脸,如果存在,则进一步的给出每个脸的位置、大小等信息,并依据这些信息来提取每个人脸中所蕴含的身份特征,将其与已知的人脸进行对比,从而识别每个人脸的身份。广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术。
当前很多国家展开了有关人脸识别的研究,主要有美国等欧洲国家以及日本,著名的研究机构有美国MIT的Media lab,AI lab,CMU的 Human-Computer Interface Institute,Microsoft Research,英国的Department of Engineering in University of Cambridge等。
国内关于人脸自动识别的研究始于20世纪80年代,主要的研究单位有清华大学、哈尔滨工业大学、中科院计算所、中科院自动化所、复旦大学、北京科技大学等,并都取得了一定的成果。国内的研究工作主要是集中在三大类方法的研究:基于几何特征的人脸正面自动识别方法、基于代数特征的人脸正面自动识别方法和基于连接机制的人脸正面自动识别方法。周激流实现了具有反馈机制的人脸正面识别系统。彭辉、张长水等对“特征脸”的方法做了进一步的发展,提出采用类间散布矩阵作为产生矩阵,而降低了产生矩阵的维数。程永清、庄永明等对同类图像的平均灰度图进行SVD分解得到特征脸空间,每一幅图像在特征脸空间上的投影作为其代数特征,然后利用层次判别进行分类,张辉、周洪祥、何振亚采用对称主元分析神经网络,用去冗余和权值正交相结合的方法对人脸进行特征提取和识别;北京科技大学的王志良教授主要研究人工心理,建立了以数学公式为基础的心理学模型。
图1 人脸结构相似性
1 人脸识别技术
1.1 人脸识别研究中的主要方法
综合国内外研究现状及有关文献,目前人脸识别的方法主要集中在以下几个方面:
1.1.1 模板匹配
主要有两种方法,固定模板和变形模板。固定模板的方法是首先设计一个或几个参考模板,然后计算测试样本与参考模板之间的某种度量,以是否大于阈值来判断测试样本是否为人脸。变形模板在原理上与固定模板相同,但其中包含一些非固定的元素:①手工构造参数化的曲线和曲面以表征人脸中的某些非固定特征;②系统自动生成自适应的曲线或曲面,以构成变形人脸模板。检测方法是:将模板与测试图像进行弹性匹配,并加入惩罚机制,利用某种能量函数表示匹配程度。
1.1.2 示例学习
示例学习的基本思想是从某一概念的已给正例和反例的集合中归纳产生出接受所有正例同时排斥所有反例的该概念的一般规则。将人脸样本和非人脸样本送入学习机中,产生出判别规则,从而用于判断输入的测试图像是否属于人脸的主要判别依据。为了获得较高的精度,学习过程需要大量的样本,另外样本数据本身是高维矢量,因此,研究通用而有效的学习算法的关键是精确的区分性和数据维数的降低。将多个表示人脸模式的线性空间进行组合,是示例学习的另一条途径。
1.1.3 神经网络
从本质上讲,神经网络也是一种基于样本的学习方法。将神经网络用于人脸检测取得了很大的进展。MIT的学者首先对人脸样本集和非人脸样本集聚类,以测试样本与人脸样本集和非人脸样本集的子类之间的距离作为分类的度量,利用多层感知器(MLP)网络作为分类器。CMU的研究人员直接以图像作为神经网络的输入,设计了一个具有独特结构的适用于人脸特征的神经网络分类器,并通过前馈神经网络对检测结果优化。
1.1.4 基于隐马尔可夫模型的方法
马尔可夫模型是一个离散时序有限状态自动机,隐马尔可夫模型(HMM)是指这一马尔可夫模型的内部状态在外界不可见,外界只能看到各个时刻的输出值。对于人脸模式来说,我们可以把它分成前额、眼睛、鼻子、嘴巴和下巴这样一个序列。人脸模式就可以通过对这些区域的有序的识别来检测,这正好是隐马尔可夫模型容易做到的。除此以外,基于AdaBoost的人脸识别算法,基于彩色信息的方法,基于形状分析的方法,以及多模态信息融合的方法在国外都进行了大量的研究与实验。
1.2 人脸识别研究的关键问题
总结上面人脸识别的研究现状及主要方法不难看出,人脸识别的困难主要是人脸作为生物特征的特点所带来的。
1.2.1 相似性
不同个体之间的区别不大,所有的人脸的结构都相似,甚至人脸器官的结构外形都很相似。这样的特点对于利用人脸进行定位是有利的,但是对于利用人脸区分人类个体是不利的。
1.2.2 易变性
人脸的外形很不稳定。人脸具有相当复杂的细节变化,可以通过脸部的变化产生很多表情,如眼、嘴的开与闭等,不同的人有不同的外貌如脸形、肤色等,在不同观察角度,人脸的视觉图像也相差很大。另外,人脸识别还受光照条件(例如白天和夜晚,室内和室外等)、人脸的很多遮盖物(例如口罩、墨镜、头发、胡须等)、年龄等多方面因素的影响,见图2、图3。
图2 人脸识别受光照影响
图3 人脸识别受表情姿态影响
在人脸识别中,第一类的变化是应该放大而作为区分个体的标准的,而第二类的变化应该消除,因为它们可以代表同一个个体。通常称第一类变化为类间变化(inter-class difference),而称第二类变化为类内变化(intra-class difference)。对于人脸,类内变化往往大于类间变化,从而使在受类内变化干扰的情况下利用类间变化区分个体变得异常困难。
2 人脸识别技术的应用
每个人都有一张脸,而且脸也是一个人最重要的外貌特征。目前最热门的应用领域有3个方面:
(1)身份认证与安全防护。在这个世界上,只要有门的地方几乎都带有一把锁。当然,在许多安全级别要求较高的区域,例如金融机构、机关办公大楼、运动场馆、甚至重要设施的工地,都需要对大量的人员进行基于身份认证的门禁管理。手机、笔记本电脑等个人电子用品,在开机和使用中经常要用到身份验证功能。
(2)媒体与娱乐。人们的许多娱乐活动都是跟脸部有关的。最著名的娱乐节目之一就是川剧的变脸;在网络虚拟世界里,通过人脸的变化,可以产生大量的娱乐节目和效果;手机、数码相机等消费电子产品中,基于人脸的娱乐项目越来越丰富;QQ、MSN等即时通信工具以及虚拟化身网络游戏也是人脸合成技术的广阔市场。
(3)图像搜索。目前Google的图像搜索其实还是文字搜索。基于人脸图像识别技术的搜索引擎将会具有广泛的应用前景。
2.1 人脸识别系统
从20世纪90年代中期开始,人脸识别技术得到广泛应用,陆续出现了一些人脸识别商业系统,例如智能门卫、智能视频监控、公安布控、出入境管理、司机驾照验证等都是典型的应用。
一般来说,人脸识别系统输入的是一张或者一系列含有未确定身份的人脸图像,以及人脸数据库中的若干已知身份的人脸图象或者相应的编码,而其输出的则是一系列相似度得分,表明待识别的人脸的身份。一个完整的人脸识别系统的主要的功能模块有:
(1)人脸捕获:人脸图像数据源包括图像序列(视频流)和静止图像。主要可以通过扫描仪,数码相机,摄像头等数字输入设备获取。
(2)人脸检测定位:该模块用来分析输入的图像,判断其是否存在人脸,如果存在,则进一步给出每个脸的位置,并把人脸从背景图像中分离出来。
(3)图像预处理:尽可能使人脸图像处于同一尺度和标准,为后续处理提供高质量的输入图像,需要完成对图像的尺度归一化,灰度归一化,降噪,去光照等功能。
(4)特征提取和选择:对处理后的人脸图像按照某种策略提取出用于识别的特征,将原始的脸空间映射到新的特征空间。
(5)训练:此过程主要生成可用于识别的参数。通常,在已有的训练样本集基础上设定某个判别规则,按此规则对识别对象进行分类所造成的错误识别率最小。
(6)识别。通过比对获得未知人脸参数和训练所得的人脸参数完成人脸的分类和判别,并给出识别结果。
2.2 人脸识别系统的硬件及软件支持
2.2.1 硬件结构
系统采用客户端、服务器结构,具有建库(注册)和识别功能,支持多种输入设备。识别系统可以建在市级,一个识别系统可以有多个前端(客户机),前端可以建在分局乃至建在派出所。识别系统可以使用一个服务器,也可使用多个服务器,一般来讲,基于数据库的识别系统,单服务器保持在50万人以下的数据容量,多服务器按50万人/台的规模来设置。见图4。
图4 人脸识别系统结构
2.2.2 软件支持
2.2.2.1 规范化的人脸数据采集
(1)照片的形成。基本上应按照身份证照片的要求,大头照,最好要露出眉毛。
(2)扫描仪分辨率的设置。用扫描仪形成数字图像时,可以采用600 dpi分辨率扫描1寸的照片,形成BMP图像。保持较高分辨率的原始图像是很重要的,同时,应保证数字图像中包括头顶到下巴的完整人头像。为了降低存储空间,常采用图像压缩技术对人脸图像进行压缩。
2.2.2.2 系统支持软件
(1)人脸图像尺寸归一化软件。人脸图像应只包括头顶到下巴的完整人头像,在一个数据库中,应有一个准确的尺寸。
(2)人脸图像设备属性归一化软件。一般由于照片的数量较多,所以就以照片为标准进行归一化的工作。
(3)人员信息库的数据导出软件。在各单位已有人员库,其中有照片和文档资料。如果有导出软件,就可以大大减少重复性的工作。
(4)批量入库软件。人脸识别通常在大库上运行(10万以上),单张照片入库太慢,因此需要批量入库。批量入库包括两方面:文档直接倒入照片特征提取入库和图像压缩入库。
在上述软件的支持下,根据已有经验,在一个月内建立百万级的人脸识别数据库是可能的。
2.3 人脸识别系统的性能指标
(1)误识率(False Accept Rate)。这是将其他人误作指定人员的概率。
(2)拒识率(False Reject Rate)。这是将指定人员误作其他人员的概率。
计算机在判别时采用的阈值不同这两个指标也不同。一般情况下,误识率FAR随阈值的增大(放宽条件)而增大,拒识率FRR随阈值的增大而减小。因此,可以采用错误率(Equal Error Rate;ERR)作为性能指标,这是调节阈值,使这FAR和FRR两个指标相等时的FAR或FRR。
3 结束语
随着人脸识别技术的发展与人脸识别市场应用日渐广泛,针对人脸识别的难题和困境,一些创见性的解决问题方案也相继提出。人脸识别技术已经成功应用到金融、军工等多个领域,行业发展优势明显。基于现阶段的技术与市场现状,人脸识别的发展前景十分乐观,伴随技术的不断创新,人脸识别应用领域会更加广阔,民用市场就是其中之一。目前,已有多家国内知名防盗门厂商与人脸识别技术提供商取得联系,就人脸识别技术嵌入式家用防盗门展开合作。也许在不久的将来,人们将与钥匙彻底告别,而迎来人脸开门的新时代。另外,大型的考生验证系统也是人脸识别将来有望大展拳脚的领域,一旦打开这个“缺口”,不仅能够直接刺激人脸识别市场的发展,对于人脸在其他领域的应用也将带来更好的前景。
[1]孙涛,谷士文,费耀平,等.基于PCA算法的人脸识别方法研究比较[J].自动化技术,2005,10(3):112~114.
[2]李武军,王崇骏,张炜,陈世福.人脸识别研究综述「J」.模式识别与人工智能,2006(19):58~62.
[3]张翠平,苏光大.人脸识别技术综述[J].中国图象图形学报,2000,5(ll):885~894.
[4]山世光.人脸识别中若干关键问题的研究[D].北京:中国科学院博士学位论文,2004.