APP下载

视频监控下的行人性别检测

2018-11-17苏宁陈临强

现代计算机 2018年29期
关键词:像素点特征提取人脸

苏宁,陈临强

(杭州电子科技大学计算机学院,杭州 310018)

0 引言

随着计算机软、硬件技术的快速发展,计算机处理图像、视频的能力也不断提升,从而使得计算机视觉得到了飞速的发展,成为近些年来最火热的研究方向之一。行人属性分析作为计算机视觉的一部分也得到了空前的发展。行人的属性信息例如性别、年龄、衣着、身高等,是行人最明显的生物特征。行人性别识别基于行人识别,在视频监控和安全防护领域有着广泛的应用。先进的行人搜索系统可以首先确定性别,缩小搜索范围,并根据其他属性信息进一步执行更准确的搜索,大大提高了检测的准确率以及效率。

性别的检测主要是通过计算机算法提取人物的一些基本特征,再根据特征的差异来判断性别。Shan[1]根据局部二值模式直方图进行性别识别,在LFW人脸数据库中实现了94.81%的正确率。Xia等[2]提出了一种局部盖博二值映射模式人脸表示方法,利用SVM(Support Vector Machine)进行性别识别,在GAS-PEAL人脸数据库中达到94.96%的准确率。Yang等[3]利用局部三元模式和极限学习机进行性别识别,在FERET数据库中实现了95.625%的准确率。Gil等[4]设计了一种基于卷积神经网络的方法进行性别识别。Ail等[5]采用局部盖博二值模式和三维人脸重建进行性别识别,在LFW数据库中获得99.8%的准确率。Hamid等[6]运用主成分分析和模糊聚类的方法,在FG-NET数据库中测试准确率达到92.65%。闫敬文等[7]融合方向梯度直方图和多尺度 LBP(Local Binary Patterns)特征,提取脸部梯度特征和局部纹理特征实现性别识别。汪济民等[8]通过卷积神经网络提取人脸特征进行性别识别。马千里等[9]对人脸图像分块、融合五官特征加权的LBP特征提取的方法进行性别检测。

根据现有的方法来看,基于人脸特征来进行性别检测的准确率是最高的,但是在普通的监控摄像头中,摄像头的分辨率不高,距离远一些的人脸会变得很模糊,人脸信息都会丢失掉,通过提取人脸特征来进行性别识别是相当困难的,此时需要根据行人其他部位信息来进行性别的检测。基于这种情况,以及受到卷积神经网络在计算机视觉领域上广泛应用的启发。本文提出一种根据卷积神经网络和特征提取相结合的算法对人物身体部位提取信息进行性别检测。该算法的优点是通过人物的发型、穿着等局部信息,避开了对人脸的检测,能够在摄像头分辨率不高的情况下也能实现对人物性别检测,使得算法的应用场景更加广泛。

1 基于高斯混合模型的前景目标提取

帧差法、光流法和背景差分法是前景目标提取中比较典型的几种方法。帧差法实现起来比较容易,但如果前景目标速度过快,会产生虚影与空洞。光流法虽然适应运动背景中的前景目标检测,但计算复杂,且对于硬件的要求较高[10]。背景差分法在场景不变的情况下对图像进行背景建模,能够很好地提取出前景目标。

由于目标区域会存在一些非检测目标的晃动,例如波动的水面和摇晃的树叶,这些对于目标检测来说会有一定的干扰作用。为了尽量小地消除这些影响,可采用多个单高斯模型线性叠加的高斯混合模型对目标区域进行背景建模。

1.1 建立背景模型

在t时间段内,取0到t时刻的当前帧图像[F0,F1,F2,…,Ft]。为了提升背景建模的精度,首先要对这t张图像进行高斯滤波从而减少拍摄时产生的噪声,然后再将t张彩色图像从R,G,B空间转化为灰度空间,即:

1.2 定义模型与初始化参数

若[X0,X1,X2,…,Xt]表示样本点的离散灰度值,则可用K的高斯分布来表示像素点Xt的概率:

其中σi,t,k表示像素点X的均值,表示像素点X的方差,η(Xt|ui,t,k,σi,t,k)表示高斯分布,ωi,t,k表示单个高斯分布的权值。K表示混合高斯分布中峰值的个数,由于像素点分布情况的不同,K的取值也不同,一般情况下取3-5个。

1.3 运动目标检测

将当前图像中像素点的值与模型根据公式(3)进行比较:

符合的即为背景目标,否则为前景目标[11]。

1.4 背景模型的更新

若像素点属于背景,则用此像素点更新背景得到新的背景模型。更新背景模型的公式如下:

ρ=aη(Xt|ui,t,k,σi,t,k)

其中a表示学习率,ρ表示模型适应的学习因子。

图1 原图

图2 运动目标提取

2 基于Hog的图像特征提取

由于一幅图像的外形特征可以根据像素的边缘分布来描述,Dalal和Triggs在2005年提出了使用Hog特征的描述算子[12](梯度方向直方图)来表示图像的外形特征。其特征提取过程如下:

2.1 标准化Gamma空间和颜色空间

对图像进行Gamma标准化,是为了削弱图像对于特征提取产生的影响。由于后续步骤中block归一化与Gamma标准化的作用相同,所以此过程对于结果来说影响并不是很大,故在后续提取hog特征的时候则不需要再进行Gamma标准化。

2.2 计算像素梯度

模板算子选取的好坏,影响着hog特征提取的结果。根据多次试验的结果表明,使用一维离散微分模板(-1,0,+1)在图像水平方向以及竖直方向上对像素进行梯度计算的效果都比较好。由公式(5)和公式(6)计算像素点得到梯度模值与方向角。

其中,G(x,y),H(x,y),α(x,y)分别表示像素点的梯度幅值、像素点的灰度值以及梯度方向。彩色图像由于具有多个通道,可以计算出所有颜色通道的梯度,选取幅值最大的作为此像素点的梯度。

2.3 统计单元内梯度直方图

将训练图像平分成多个正方形的细胞(cell),每一个细胞有8×8个像素,再将[-π/2,π/2]的梯度方向平分成9个区段(bin),然后统计在这9个区段上每一个cell内所有像素的梯度直方图,则每一个cell将会得到一个9维的特征向量。

2.4 block归一化直方图

一个block包含有2×2个cell,则一个block将得到36的特征向量,再使用L2-范数对block进行归一化,结果即为最后的特征向量。

2.5 图像的Hog特征

训练时采用的图像大小为 64×64,cell为 8×8,block为16×16,则一幅图就会包含49个block,每一个block是36的向量,故一副64×64大小的图像的Hog特征向量为49×36=1764维。

3 基于卷积神经网络的图像分类

3.1 介绍

近年来发展起来的卷积神经网络在图像分类和语音识别方面显示出很大的优势,由卷积层、激励层、池化层、全连接层等组成的是最典型的卷积神经网络结构。其与实际的生物神经网络相似,能够有效地降低网络复杂度,这也是它在图像处理方面的一大优势。

3.2 LeNet卷积神经网络

最早由Yann LeCun与Yoshua Bengio提出的LeNet是第一个真正多层结构学习的算法,在手写数字识别中具有很高的正确率[13,14],如图3所示。

图3 手写体数字识别

对于图像分类,需要设计多层的网络结构。当网络结构为全连接时,过多参数输入会使得效率降低。例如对1000×1000的图像进行卷积,大约需要1000×1000×1000×1000个参数。为了降低参数,可以使用局部卷积降低参数为 1000×1000×10×10≈100M。若再采用权值共享的策略,可以将卷积参数降到10×10。为了较好地保证图片信息,设计多个卷积特征图,将参数降至10K。如图4所示。

图4 采用权重共享策略降低参数量

3.3 本文结构设计

输入层是32×32大小图像,网络结构如图5所示。

第一层:卷积层(C1)。选用6个大小为5×5的卷积核进行卷积操作,得到6个28×28的特征图。

第二层:下采样层(S2)。使用2×2的窗口对C1进行池化得到S2,此时每一个特征图大小变为14×14。

第三层:卷积层(C3)。使用16个大小为5×5的卷积核对S2中得到的6个14×14的特征图进行卷积,再经过加权组合得到16个10×10的特征图。

第四层:下采样层(S4)。用2×2的窗口对C3中得到的特征图进行池化采样得到S4,即16个5×5的特征图。

第五层:卷积层(C5)。使用大小为5×5的卷积核对S4所得特征图进行卷积,得到120个1×1的特征图。

第六层:全连接层(F6)。该层有84个节点,与C5层得到的120维向量进行全连接。

第七层:输出层。由于性别识别是一个二分类的问题,所以径向基函数(RBF)单元组成的神经元只有两个。公式(7)为RBF的计算公式。

图5 网络结构示意图

4 本文算法流程与实验

图6 总体流程图

由于在低分辨率的摄像头下,人脸特征提取会变得比较困难,所以根据人脸进行性别检测的方法就会行不通。但在这种情况下,行人的外观特征相对容易提取。本文就是根据行人的头部信息以及服装的外形信息来进行行人性别的检测。对行人进行分析就必须先从监控视频中检测到行人,先使用卷积神经网络训练行人分类器来检测行人。选取了900张MIT行人数据库中的行人图片为正样本,由于图片除了行人之外还有一些多余的场景,训练之前要先进行裁剪。负样本为无人、人群、汽车等图片,选取了2000张图片。训练样本如图7所示。

图7 行人训练图片

将单个行人从前景目标中检测出来后,对行人相应部位进行检测即可得出性别结果。在检测之前,需要对行人相应部位进行训练。

图8(a)是在监控摄像机下拍到的行人,(b)图是将(a)图中的行人进行了截取,从图中我们可以看出根据头部信息是最能够,也是最明显的区分行人性别的一个特征。因为目前还没有行人性别相关的数据库,所以本文使用的训练图片是由拍摄的监控视频中抠取得到。其中男女训练样本均为700张,包括面对摄像头与背对摄像头的照片,图9是部分训练图片。

图8 行人局部区域示意图

图9 行人样本集合

从人体的身体结构来看,不同人的相同部位的相对位置基本上是一样的。所以根据此种情况,我们可以通过身体部位占人体的比例来进行身体区域的分割,然后进行区域特征提取。本文主要是对行人上半身进行相应的检测,所以说需要确定行人头部、肩部以及腰部的比例系数,从而得到局部重合的身体部位。比例系数是由选取的50个行人图片计算得来,如下所示:

a=0.15 b=0.20 c=0.50

其中a代表头部占全身的比例,b代表头肩位置占全身的比例,c为上半身占全身的比例。

取男、女各300张图片作为训练样本,因为现有的行人数据库不适合做性别研究,所以将剩下男、女各400张图片用作测试图片。为了检测本文算法的有效性,还增加了一组使用Hog特征提取行人头部特征与衣着特征的对比实验,结果如下:

表1 传统方法与本文方法对比结果

最后,将训练好的分类器运用到检测出来的行人上,得到行人性别结果。部分结果如图10所示:

图10 部分结果图

5 结语

鉴于在视频监控下,受到距离限制以及摄像头分辨率不高的因素,根据人脸进行性别检测已经不能达到要求,本文提出了一种提取行人多个部位特征的方法进行性别检测。此方法避开了对行人脸部特征的提取,可以在摄像机分辨率不高的情况下对中等距离下的行人进行性别检测。尽管本文的方法在限定的条件下取得了一定的效果,但仍然存在一些不足,例如在远距离情况下、光线太坏或者太好的情况下都会削减正确率,所以还需要进行进一步的研究。

猜你喜欢

像素点特征提取人脸
图像二值化处理硬件加速引擎的设计
有特点的人脸
一起学画人脸
基于局部相似性的特征匹配筛选算法
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
基于像素点筛选的舰船湍流尾迹检测算法
基于Daubechies(dbN)的飞行器音频特征提取
三国漫——人脸解锁