一种2DDCT与压缩感知结合的人脸识别

2011-06-05刘晓东刘万泉

电子设计工程 2011年21期

路翀，刘晓东，刘万泉

（1.大连理工大学电信学部，辽宁大连 116024；2.澳大利亚科庭大学西澳佩斯市 6102；3.伊犁师范学院新疆伊宁 835000）

人脸识别技术在国内外许多领域得到了广泛应用[1]，研究者们为提高识别率提出了许多人脸识别方法。文献[2-3]综述了近几年人脸识别的主要方法和进展。人脸识别中的一个关键问题是特征选择，其基本任务是从许多特征中找出最有效的特征。人脸图像数据量一般十分庞大，直接用于识别效率不高，因此必须对原始图像进行有效降维。2DDCT是常用的图像压缩方法，其本质是通过2DDCT对图像进行变换，用较少的数据表示较多的信息，实现图像压缩，以达到减少数据存储量提高传输速率的目的。2DDCT既能有效地降低特征维数，又可以保留对光照、表情以及姿态不敏感的类别信息，许多研究人员尝试着将2DDCT应用到图像特征降维。文献[4]详细阐述了基于DCT的人脸表征，文献[5]提出了一种M2DPCA和NFA相结合的人脸识别方法。

在模式识别中，压缩感知（Compressive Sensing，or Compressed Sampling，简称 CS）[6]，是近几年流行起来的一个介于数学和信息科学的新方向，由Candes、Terres Tao等人提出，挑战传统的采样编码技术，即Nyquist采样定理，CS理论是基于信号“信息”的一种采样技术，是对信号更为本质的描述。目前，该理论是一个快速发展的领域，在许多基础的信号和图像处理中取得了很好的效果[7]，在信号处理、图像识别等领域也有广泛的研究[8-9]。由于在图像识别过程中，运用CS理论需要预先将人脸图像矩阵展开成一维的向量，转换后的一维向量的维数一般较高，因此，对很多分辨率较高人脸图像都要预先做裁剪。而2DDCT能够有效地滤掉图像中不敏感的中频和高频部分，保留信息的本质内容。

鉴于此，提出将二维离散余弦变换与压缩感知相结合用于人脸识别。首先对原始人脸图像实施2DDCT变换，接着进行压缩，滤掉图像中不敏感的中频和高频部分后，在频域中用压缩感知算法提取人脸特征，将提取的人脸识别特征用最近邻分类器完成识别，在ORL、Yale、YaleB及Feret人脸数据库上得到了较好的识别效果，且能减少整体识别时间。

1 人脸识别模型

人脸图像数据包含较大的冗余信息，需要进行降维处理；首先将人脸图像实施2DDCT，经过2DDCT后能量主要集中在低频系数上，适当地提取2DDCT系数也就达到了降维的目的。然后在频域中应用CS进行特征提取，将提取的人脸识别特征利用最近邻分类器完成识别。

1.1 离散余弦变换

人脸图像数据是高度相关的，存在很大的冗余性。图像经过2DDCT变换后，其低频分量集中在左上角，高频分量分布在右下角。低频分量包含了图像的主要信息，与之相比高频分量就显得不那么重要了，所以可以忽略高频分量，从而达到压缩的目的。图像经过2DDCT变换后，只需用少量的数据点即可表示图像。2DDCT系数很容易被量化，因此能获得较好的块压缩，同时具有快速算法，因此在人脸识别中容易实现。

离散余弦变换是一种常用的图像数据压缩方法，它的压缩质量接近于信息压缩的最优变换（变K-L换）。对于一幅M×N 的数字图像 f（x，y），离散余弦变换的特点是：频域变化因子 u，v较大时，DCT 系数 C（u，v）的值很小；而数值较大的C（u，v）主要分布在u，v较小的左上角区域，这也是有用信息的集中区域。基于2DDCT系数重建图像时，保留少数离散余弦变换的低频分量，而舍去大部分高频分量，利用反变换仍可获得与原始图像相近的恢复图像。

1.2 压缩感知（CS）

压缩感知的数学描述是：

对给定的 T，稀疏信号 x∈Rn在数据字典 Ψ=[Ψ1，Ψ2，…Ψk]∈Rn×k，（n＜k）上可以表示为 x=Ψα，α∈Rk且‖α‖0＜T<

设 Ω=ΦΨ∈Rp×k，（p<

由于p<

求得α^后，重构信号可以用x^=Ψα^表示。

在稀疏分解算法的设计方面，已经有许多好的算法[8]，如基于贪婪迭代思想的MP（Matching Pursuit），正交最小二乘OLS（Orthogonal Least Squares）等算法以及与之相关的改进算法，本文采用的是正交最小二乘算法OLS。

1.3 基于压缩感知的人脸识别（CSFR）

在压缩感知人脸识别中，用所有的训练样本构造字典矩阵 Ψ=[A1，A2，…AC]∈Rn×N，这里训练样本是一个 n 维向量，N是训练样本总数；A1是包含第i类所有训练样本的矩阵。将一个人脸 x表示为 x=Ψα，（‖α‖0＜T）投映矩阵 Φ 有满足高斯独立分布的随机矩阵产生并按列标准化，测量矩阵Y在训练阶段产生，Y=ΦΨ∈Rp×N。给定一个测试样本x，计算投映样本y=Φx，然后，用 OLS 算法寻找稀疏向量α^，使其满足 Yα=y；最后，用基于α^计算在每个类上的重构误差来确定测试样本x属于哪个类。

1.4 基于2DDCT的压缩感知算法

文章提出的算法是基于2DDCT特征提取和降维特性，由于在频域中经过2DDCT变换的图像能够比原本在时域中更有效降低光照和侧转等因素影响，所以，先用2DDCT将人脸矩阵投映到频域后，取右上角w×w块作为频域中的“人脸”，然后运用CS做人脸识别，亦即是为了去除噪音先用2DDCT进行过滤，然后在频域中取左上角较小块做“人脸”，运用CS做人脸识别，这样能够有效降低计算复杂度，提高识别效率。

算法步骤如下：

1）输入c类N个训练样本，用2DDCT将其投映到频域空间，在频域中取右上角w×w作为频域中的训练样本，构成字典矩阵 Ψ=[A1，A2，…AC]∈Rn×N。

2）产生按列标准化的随机投映矩阵Φ∈Rp×n。

3）给定一个测试图像，将其用2DDCT投映到频域空间，得到频域中的测试图像x。

4）在频域空间计算 Yi=ΦAi，（i=1，…C）并计算测量矩阵Y=[Y1，Y2，…YC]=ΦΨ∈Rp×N

2 试验结果与分析

将文章提出的方法先在ORL人脸库上进行测试。该人脸库包含40个人，每个人有10幅图像。图像为单一深色背景的正面图像，包含了一定的光照、表情、面部细节变化以及一定范围内的深度旋转。图像大小均为112×92像素。实验中对每个人，随机选取 4、5、6幅图像作为训练样本，其余的 6、5、4幅图像分别用来做测试。首先运用CS方法，取特征向量维数feature=150进行识别，记作CS方法；然后将所有人脸图像用2DDCT变换投映到频域，在频域中取能量集中的低频部分64×64，分别运用 2DDCT 和 CS 方法识别（取 feature=82），分别记作2DDCT和2DDCT_CS方法，实验结果为5次平均值，识别率比较见表1；每类用5个作为训练样本，5次识别运行平均时间（CPU:2 duo cpu 2.13 GHz， RAM:2.0 GB）比较见表 2。

从表1中可以看出，文章提出的2DDCT_CS方法比CS方法的识别率略高，比 2DDCT方法有明显提高，在训练样本n＝6时，2DDCT方法和2DDCT_CS方法识别率几乎相同，训练样本到一定数量识别率不在有大的区别。

表1 3种方法在ORL上的识别率（%）比较Tab.1 Recognition accuracy（%）in ORL database

表2 3种方法在ORL上识别的运行时间（秒）比较Tab.2 Computation Cost in ORL database （s）

从表 2中可以看出，DCT耗费时间最多，CS次之，2DDCT_CS方法最小，CS与2DDCT_CS方法相近，由于CS，2DDCT_CS方法在识别前都进行了较大的降维处理，而2DDCT_CS方法进行了两次降维，所以，用时最少，当训练样本较少时含有较多的信息量，识别率较高。

另外两组在Yale和Feret人脸库上做实验，Yale数据库包含了15个人的不同条件下的图像，数据库中每个人各有11种不同光照、表情、姿态，是否戴眼镜等条件下的成像图像，图像总量为165张。这些图像大小均为231×195像素，为做CS实验方便，将原图像按中心对称裁剪为100×80像素。在Feret人脸库中包含不同表情，不同距离，不同时间，面部变化、旋转等人脸图像，将个体不少于10幅图像共49人选出（超过10幅取前10幅），按给定的人眼和鼻子位置将原来640×480的图像裁剪到112×92实验。与在ORL数据库类似，比较各自最高识别率及其所取的特征向量维数，见表3和表4。

表3 3种方法在Yale上的识别率（%）比较Tab.3 Comparison the recognition rates（%）of tree approaches under the Yale database

表4 3种方法在Feret上的识别率（%）比较Tab.4 Comparison the recognition rates（%）of tree approaches under the Feret database

从表3和表4中可以看出，文章提出的2DDCT_CS方法比CS、2DDCT的识别率都有一定的提高。

对于以上实验，在像素较大的图像运用CS方法时都必须先进行裁剪，得到像素较小的图像后才能方便使用CS方法，而笔者提出的2DDCT_CS方法可以不进行裁剪处理。因此，最后一个实验直接应用2DDCT_CS方法在典型人脸数据库YaleB作为实验，YaleB数据库包含了10个人的不同条件下、不同表情、不同背景和不同姿态下的图像。数据库中每个人各有64种不同光照、姿态等条件下的成像图像，图像总量为640张。这些图像大小均为640×480像素。实验中对每个人，5次随机选取5、10、15幅图像作为训练样本，其余每人的59、54、49幅图像分别用来做测试识别方法的性能。首先将所有人脸图像用2DDCT变换投映到频域，在频域中分别取能量集中的低频部分 80×80，然后分别运用 2DDCT和2DDCT_CS方法识别，实验结果为5次平均值（小括号中为2DDCT_CS在频域中所取的特征值）。实验结果见表5：

表5 两种方法在YaleB上的识别率（%）Tab.5 Comparison the recognition rates（%）of two approaches on ORL database

从表5中可以看出，文章提出的2DDCT_CS方法比2DDCT方法的识别率有显著提高，当训练样本n达到15时，识别率可达100%，且不需要对图像进行裁剪，这说明该算法的有效性和鲁棒性。

3 结束语

2DDCT既能有效地降低特征维数，又可以保留对光照、表情以及姿态不敏感的类别信息。文章结合2DDCT和CS的优点提出了一种2DDCT_CS人脸识别方法，无论是对高维问题还是大样本集问题都可进行有效地特征抽取，提高正确识别率，特别是在YaleB人脸数据库运用该方法得到了很好的实验结果。此外，在对CS方法以及在2DDCT变换频域块的取值和经过2DDCT变换后，对不同的人脸数据库中的特征值应如何设置才能更好地提高识别效率，仍需进一步研究。

[1]Kwak K C，Pedrycz W.Face recognition using an enhanced independent component analysis approach [J].IEEE Trans.Neural Networks （S1045-9227）， 2007， 18（2）:530-541.

[2]Fmatos F，Batista L V，Poel J D.Face recognition using DCT coefficients election [C]//Proceedings of the 2008 ACM Symposium on Applied Computing.Fortaleza:Brazl，2008:1753-1757.

[3]Bengherabi M，Mezai L，Harizi F.2DPCA based techniques in DCT domain for face recognition[J].Int.J.Intelligent Systems Technologies and Applications，2009，7（3）:243-264.

[4]梁淑芬，甘俊英.基于局部小波变换与DCT的人脸识别算法[J].微计算机信息，2006，22（2）：206.LIANG Shu-fen，GAN Jun-ying.Face recognition based on local wavelet transform and discrete cosine transform[J].Microcomputer Information，2006，22（2）:206.

[5]陈胜.一种M2DPCA和NFA相结合的人脸识别方法[J].电子设计工程，2011，19（13）：163-165.CHEN Sheng.A facerecognition algorithm based on combination of modular 2DPCA and NFA[J].Electronic Design Engineering，2011，19（13）:163-165.

[6]Candes E J，Tao T. “Near-optimal signal recovery from random projections: Universal encoding strategies?”[J]. IEEE Transactions on Information Theory，2006，52 （12）:5406-5425.

[7]Michael Elad.Optimized projections for compressed sensing[J].IEEE Transactions on Signal Processing，2007，55 （12）:5695-5702.

[8]张宗念，黄仁泰，闫敬文.压缩感知信号盲稀疏度重构算法[J].电子学报，2011，39（1）：18-22.ZHANG Zong-nian，HUANG Ren-tai，YAN Jing-wen.A blind sparsity reconstruction algorithm for compressed sensing signal[J].Acta Electronica Sinica，2011，39（1）:18-22.

[9]Nhat Vo，Duc Vo，Subhash Challa，et al.Compressed Sensing for Face Recognition [C]//Computational Intelligence for Image Processing，2009:104-109.