APP下载

基于多纹理CS-LBP特征的 多视角人脸检测算法

2018-11-06陈广秋谷欣超孙俊喜

吉林大学学报(理学版) 2018年3期
关键词:查准率级联人脸

崔 凯, 才 华, 陈广秋, 谷欣超, 孙俊喜

(1. 长春理工大学 电子信息工程学院, 长春 130022; 2. 长春理工大学 计算机科学技术学院, 长春 130022; 3. 东北师范大学 信息科学与技术学院, 长春 130117)

人脸检测在人机交互、 身份验证等领域应用广泛[1]. 人脸特征的提取是人脸检测的基础, 特征模型可表示人脸的主要特征, 在实际应用中, 由于复杂背景、 人的丰富表情、 光照明暗变化等条件的干扰, 给特征的提取带来了诸多困难, 为了保证人脸检测的有效性, 用于人脸检测的特征必须有较强的鲁棒性.

纹理特征是内容图像检索技术(CBIR)研究的重点[2]. 局部二值模式(LBP)特征[3]是一种常用的有效纹理特征, LBP特征可提取图像局部区域的纹理信息, 但其存在一定的局限性, 如所得数据维数过高、 对纹理区域不鲁棒等; 文献[4]提出了中心对称局部区域二值模式(CS-LBP)描述符, 该特征可很好地描述纹理图像的局部特征, 但其不具有旋转不变性, 易导致图像中心邻域点局部信息的丢失. 基于此, 本文借鉴二进制Haar特征的积分图求累积强度[5], 并考虑到特征的旋转不变性, 提出一种多纹理CS-LBP特征算子. 多纹理CS-LBP特征继承了二进制Haar特征和LBP特征的所有优点, 特征数量少, 但可有效地捕获图像的局部强度结构, 具有更强的辨别能力, 且在检测过程中不需要特殊的光照校正, 节省计算成本[6].

目前, 主要有3种不同类型的人脸探测器: 1) 改进自Viola和Jones的级联框架[7]; 2) 可变形模型(DPM)[8]; 3) 基于神经网络的探测器, 如卷积神经网络(CNN)等[9-10].

本文综合考虑人脸检测精度和时间, 采用一种针对多视角人脸检测级联结构人脸检测框架, 通过引入由精到粗的设计理念[11], 针对人脸图像中的不同视角进行分区, 分别进行多纹理特征的提取, 并采用并行计算方式的独立分类器, 逐渐去除非人脸窗口. 采用多层感知器MLP综合各视角的检测效果, 最终实现快速准确的人脸检测. 最后, 在人脸检测测试集FDDB[12]和CMU PIE[13]上对本文检测方法进行验证, 测试效果较理想.

1 多纹理CS-LBP

1.1 LBP与CS-LBP特征描述

LBP主要用于获取图像的局部纹理特征, 该特征通过提取度量图像的局部对比度获得. 先将中心像素周围8个像素的灰度值减去中心像素灰度值, 如果差值大于0, 则标记为1, 反之该像素所在的位置记为0; 然后与相应的权重相乘, 乘积的累加和即为该8邻域的LBP值[14], 如图1所示.

图1 原始LBP特征Fig.1 Original LBP features

LBP特征值定义为

图2 CS-LBP特征Fig.2 CS-LBP features

CS-LBP特征如图2所示, 其对灰度图像的方向变化进行编码, 该特征结合了SIFT特征[16]和LBP特征的优点.

CS-LBP特征值定义为

其中, 阈值t反映了纹理的平坦性特点. CS-LBP特征有效地将图像维数降为16维[17].

1.2 多纹理CS-LBP特征

人脸局部特征具有不同的方向性, 本文对CS-LBP特征进行改进, 得到4个部分特征: 水平纹理、 垂直纹理、 +45°纹理和-45°纹理, 该方法一方面保留了CS-LBP的优点, 另一方面引进了方向, 在保证对光照的鲁棒性外, 还具有一定的旋转不变性.

为了加强特征的辨别能力, 本文借鉴Haar特征, 通过积分图进行运算, 即合并8个局部相邻的大小相同的2-矩形二进制Haar特征, 它们拥有同一个中心矩形. 用于组合的8个二进制Haar特征如图3所示.图4为组合特征, 其中黑色区域表示共享.

图3 用于组合的8个二值Haar特征Fig.3 Eight binary Haar features for combination

图4 组合特征Fig.4 Combination features

组合特征用I(X,Y,S,L)表示, 其中:X和Y表示图像特征左顶位置的坐标; (S,L)表示矩形的宽度和高度. 特征组合完成后, 即可进行多纹理CS-LBP特征的计算.图5为多纹理CS-LBP特征的模型.

莫言认为:“长篇小说的结构是长篇小说艺术的重要组成部分,是作家丰沛想象力的表现。好的结构,能够凸显故事的意义,也能够改变故事的单一意义”[13]。在他看来,结构从来不仅仅是小说的外在形式,它有时候就是故事的内容,是作家思想情感的展示方式,包孕着作家的胸怀气象和话语寄托,传达着作家的艺术才华和审美意图。只有好的故事结构才能承担起故事的丰富内蕴,呈现文本的多义多解。在诸多长篇小说叙事结构中,“复调型的民间叙事结构是莫言小说的最基本的叙事形态”[14](P29),成为莫言文学作品深厚内蕴的有力承载者。

多纹理CS-LBP特征模型计算公式如下:

(10)

(11)

图5 多纹理CS-LBP特征模型Fig.5 Multi-texture CS-LBP feature model

其中:Ti表示第i个像素区域的灰度值之和;t表示阈值;ω表示各方向纹理特征的权重. 多纹理CS-LBP特征继承了二进制Haar特征和LBP的所有优点, 数量较少, 却可有效地捕获图像的局部强度结构, 具有较强的辨别能力, 并在检测过程中不需要特殊的光照校正. 该特征对人脸纹理具有代表性, 同时还可以减少特征的数量.

2 多视角人脸探测器

图6 人脸检测器的整体结构框架Fig.6 Overall framework of face detector

采用级联结构多视角人脸检测器, 在检测框架中, 根分类器进行二值分类. 根据视角的不同, 人脸被分成多个子类, 每个子类都由相应的模型进行处理. 级联结构采取并行模式, 在精度和速度方面效果较好.图6为检测器的整体结构框架. 首先针对不同视角, 多个分类器并行运行, 进行多纹理特征的提取, 迅速剔除多数的非人脸候选窗口. 每个分类器针对不同视角进行专门训练, 以确保具有较高的召回率. 其次, 采用多层感知器MLP级联(multilayer perceptron)[18]验证剩余候选窗口, 此时分类器的数目较前面有所减少, 虽然更耗时, 但判决能力更强. 最后, 通过统一的MLP处理余下的各视角的候选窗口, 实现最终的人脸检测输出.

首先, 将复杂的多视角人脸检测划分成多个简单的单视角人脸检测问题. 根据提取的多纹理特征, 采用多个快速级联分类器进行分类, 每个独立视角的分类都是并行的, 当且仅当所有的快速级联分类器分类为非人脸时, 窗口才被去除. 所有模型共享用于特征提取的特征图, 运行速度快, 召回率高. 此外, 并行结构允许视角分区, 灵活性更强, 不会像树形结构因为不正确的分支而导致漏检.

其次, 完成上述操作后, 多数的非人脸窗口被排除, 余下的候选窗口需要进一步验证. 引入多层感知器MLP级联, MLP是一种由输入层、 输出层和隐藏层三部分组成的神经网络.N层多层感知器F(x)可表示为

F(x)=fN-1(fN-2(…f1(x))),

(12)

fi(x)=σ(Wix+bi),

(13)

(14)

其中:xi表示第i个训练样本的特征向量;yi相应的标记为1或0, 表示样本是否为人脸.

最后, 采用统一的MLP处理前两个阶段保留下来的少数窗口. 综合各视角的检测结果, 最终实现人脸与非人脸区域的准确区分.

3 实验结果与分析

为了验证多纹理CS-LBP特征和检测器的有效性, 本文在FDDB和CMU PIE两个验证数据集上进行实验.

共采用150个多纹理CS-LBP特征, 这些特征是从图像的局部片段中提取的, 如果它们之间有较大的重叠, 则多余的部分会被覆盖, MLP级联阶段有一个隐藏层, 分别包含10,15,20个隐藏单元, 最后的统一MLP包含60个隐藏单元的隐藏层结构.

3.1 不同特征的检测性能对比

为了分析多纹理CS-LBP特征的检索效果, 统计一般情况下标准图像库中512个结果的平均查准率和查全率[19]作为检索效果评价标准. 设在图像库R中,Qi表示第i类图像的集合, ‖Qi‖表示R中与Qi在视觉上相似的图像数目, 一次查询中返回的结果记为(Y1,Y2,…,Yn),N表示查完某个图像库所需的次数,X表示实验图像库(X∈R). 则平均查全率定义为

(15)

平均查准率定义为

(16)

其中

(17)

随机选择8个小型图像库, 再分别从每个小型库中随机选出8幅图像作为实验图像库, 在检索过程中, 再选择与每个图像视觉上最接近的前25幅图像作为关联图像, 则对每个算子, 总共检测64次. 分别计算每个亚小型图像库的平均查准率与平均查全率.

图7为不同特征的平均查全率与查准率对比曲线. 由图7可见, 在相同的测试图像集下, 多纹理CS-LBP特征的查全率和查准率均比原始的LBP特征和改进的CS-LBP特征高, 因此多纹理CS-LBP特征检测性能更好.

图7 不同特征的平均查全率与查准率对比曲线Fig.7 Contrast curves of average recall and precision of different features

3.2 不同检测网路的性能对比

将本文采用的级联结构与CNN进行比较, 主要对比两种常见的CNN模型LeNet[20-21]和AlexNet[22-23]. LeNet和AlexNet的输出层被调整为二值分类, 即人脸和非人脸. CNN的两个模型与本文级联结构采用相同的训练集, 包含9 204个多视角人脸的样本和10 000个非人脸样本. 在FDDB和CMU PIE数据集上的测试结果分别列于表1和表2. 由表1和表2可见, 随着检测误报数的增加, 3种检测网络的准确率越来越高, 级联结构人脸检测器的性能比LeNet好很多, 性能也优于8层的AlexNet.

表1 FDDB数据集测试准确率

表2 CMU PIE数据集测试准确率

综上所述, 本文提出了一种多纹理CS-LBP特征, 结合了Haar特征积分图和LBP的优点, 根据人脸图像的模型特征, 从水平纹理、 垂直纹理、 +45°纹理和-45°纹理4个方向进行特征提取, 保证了在不同方向、 光照、 旋转情况下人脸检测的鲁棒性. 此外, 本文算法采用一种级联结构的多视角人脸检测框架, 用由粗到细的设计理念, 逐层筛选候选人脸窗口, 有效提高了人脸检测的准确性, 且缩短了并行计算时间. 最后, 在人脸检测数据集FDDB和CMU PIE上进行评估, 验证了本文方法对复杂环境下的多视角人脸检测十分有效, 与传统的CNN方法相比, 具有更高的精度.

猜你喜欢

查准率级联人脸
铀浓缩厂级联系统核安全分析
有特点的人脸
一起学画人脸
富集中间组分同位素的级联
—— “T”级联
三国漫——人脸解锁
基于数据挖掘技术的网络信息过滤系统设计
大数据环境下的文本信息挖掘方法
基于深度特征分析的双线性图像相似度匹配算法
长得象人脸的十种动物
整体级联式增压空气冷却器的进气模块