APP下载

标架丛上的局部特征联络学习算法*

2016-05-25张启明李凡长

计算机与生活 2016年4期

张启明,李凡长

苏州大学计算机科学与技术学院,江苏苏州215006

ISSN 1673-9418 CODEN JKYTA8

Journal of Frontiers of Computer Science and Technology

1673-9418/2016/10(04)-0533-10



标架丛上的局部特征联络学习算法*

张启明,李凡长+

苏州大学计算机科学与技术学院,江苏苏州215006

ISSN 1673-9418 CODEN JKYTA8

Journal of Frontiers of Computer Science and Technology

1673-9418/2016/10(04)-0533-10

E-mail: fcst@vip.163.com

http://www.ceaj.org

Tel: +86-10-89056056

* The National Natural Science Foundation of China under Grant Nos. 61033013, 60775045 (国家自然科学基金); the Soochow Scholar Program Foundation of China under Grant No. 14317360 (东吴学者计划).

Received 2015-05,Accepted 2015-10.

CNKI网络优先出版: 2015-10-16, http://www.cnki.net/kcms/detail/11.5602.TP.20151016.1103.004.html

摘要:人脸识别问题中,经常会面临样本少的情况,在身份证识别、电子护照识别等系统中,甚至只有一个训book=534,ebook=88练样本,很多传统人脸识别方法在处理单样本时将失效。从流形学习角度出发提出了一种有效解决单样本人脸识别的方法。以自组织映射神经网络为基础,将人脸局部特征(眼、鼻、嘴等)视为一个流形,训练出多流形结构。利用联络关联不同的流形,同时学习出局部特征流形间与流形内的方向变化信息,再进行有监督的训练。整个方法结合了神经网络学习和流形学习,将单样本人脸识别问题转换成多流形匹配问题。在著名人脸库ORL、UMIST、FERET、AR上的实验显示该算法在处理单样本问题时优于已有算法,在处理姿态、表情等变化问题时也表现出很好的效果。

关键词:联络学习;标架丛;多流形;横空间;纵空间;单样本训练

1 引言

人脸识别自从20世纪90年代被提出以来,已成为模式识别、计算机视觉和信息技术等领域研究的热点课题。研究者们基于几何特征[1]、子空间[2-3]、神经网络[4]等方法提出了各种有效的识别算法。在一些特殊场合,如身份证验证、护照验证等,每类只有一张训练样本,这就产生了单样本人脸识别问题。解决单样本问题在拓宽人脸识别应用,降低数据库构建成本等方面具有重要意义。

然而,由于训练样本的减少,传统的人脸识别方法不能有效地处理单样本人脸识别问题。例如,基于主成分分析(principal component analysis,PCA)[2]技术的人脸识别方法无法准确地计算类内散度矩阵,导致丢失很多有用的判别信息。Tan等人[5]就此问题在ORL人脸数据集上进行了实验,发现算法的识别率随着训练样本的减少急速下降,当只有一张训练人脸时,平均识别率已经低到65%以下,下降幅度约30%。由此可见,在单训练样本条件下,传统人脸识别效果并不理想。研究人员根据不同思路提出了不同的解决方法,包括扩展传统的统计方法[6-10]、合成虚拟样本方法[11-13]、局部外观方法[14-15]。文献[6]改进了线性判别分析(linear discriminant analysis,LDA)[3]算法,将每类的单个样本进行聚类,形成多个类别,用每个聚类的类间散度矩阵代替每类为零的类间散度矩阵。文献[7-8]计算图像的水平和垂直积分投影,将积分投影得到的投影图与原图像结合形成增强的图像。合成虚拟样本通过扩大训练样本集将单样本人脸识别方法转换成一般的人脸识别问题。文献[11]提出了ROCA(representational oriented component analysis)方法,应用线性和非线性的过滤方法生成图像的150种表示方法,OCA分类器作用于每种表示。文献[12]利用扰动方法生成新样本,再利用标准特征脸技术进行特征提取和识别。局部外观方法一般有如下步骤:局部区域分块,特征提取与选择,分类。文献[15]提出用自组织映射表征人脸子空间的方法,利用分块训练出一个自组织映射神经网络(self-organization mapping,SOM),用最近邻算法将同一张人脸的每个分块投影到与之相关的最佳匹配单元,去除原始图像的噪声。

上述方法在一定程度上解决了单样本人脸识别问题,但仍存在很多不足。文献[9]在表征同样大小图像信息时消耗的数据会更多。合成虚拟样本法合成出的图像与原图像是高度相关的,并非真正的独立图像。局部外观法忽略了图像的整体结构,计算时间复杂度一般较高。本文从流形学习的角度出发,利用标架丛这一特殊流形上的联络算子处理多流形数据结构的能力,学习出流形内及流形间主要方向变化信息,获得各局部特征流形的权重值,将单样本人脸识别问题转化成多流形间匹配问题。

2 相关基础知识

2.1流形学习

流形学习可以看作非线性降维技术的一个分支,2000年Science发表的两篇文章等距映射(isometric feature mapping,Isomap)[16]和局部线性嵌入(locally linear embedding,LLE)[17]奠定了流形学习的基础。Isomap的作者Silva等人[18]描述流形学习如下。

定义1设Y⊂ℝd是一个低维流形,f:Y→ℝD是一个光滑嵌入,其中d≪D。数据集{yi}是随机生成的,且经过f映射为观察空间的数据{xi=f(yi)}。流形学习就是在给定观察样本集{xi}的条件下重构f 和{yi}。

流形学习中有个重要假设是样本足够稠密以覆盖整个流形。在单样本问题中,这个假设被破坏,无法准确估计低维流形。本文采用多流形学习机制,假设原始数据集分布在多个不连续的低维子流形上,不同流形间通过标架丛上的整体标架场相联系。

2.2切丛

微分流形上[19]的切丛T(M)[20-21]是一个由M上各点切空间组成的向量从,其总空间是各切空间的不交并集:

基于切丛的流形学习方法已相对成熟,Rifai等人[22]提出了原始数据的主要变化方向存在于每点切空间张成的线性空间中,认为流形上每点可由其切空间坐标近似逼近。Yu等人[23-24]也提出了相似的观点,为每个样本点建立局部坐标卡以得到泛化性的表示。但Bengio等人[25-26]指出局部坐标卡方法的训练样本数目会随着流形维数和曲率呈指数上升,这在单样本情况下是不能接受的,解决此问题就需要有整体的覆盖流形的坐标系统。

2.3标架丛

标架丛[27]是和切丛密切相关的,流形中点x的一个标架是其切空间TxM的一组有序基{e1,e2,…,en},点x上的所有标架的集合记为Lx(M),标架丛就是流形M上的全体标架的集合,记为L(M)。

π:L(M)→M为标架丛到流形M的自然映射,它是一个具有结构群GL(n;ℝ)的主纤维丛(非矢量丛)。令(U,ϕ)为M的一个坐标卡,其坐标系定义为(x1,x2,…,xn)。如果u={e1,e2,…,en}是x∈U的一个标架,可将它写成:

则此一维流形上的标架丛如图1所示。

Fig.1 Frame bundle on one-dimensional manifold图1 一维流形上的标架丛

2.4标架丛上的联络

设M上有一个联络D,其能自然地导出一个L(M)上的联络H,反之也成立。如果固定x∈M和(x,e)∈L(M),考虑所有满足γ(0)=x的曲线以及对应的提升͂(x,e),使得͂(x,e)(0)=(x,e)。当γ(0)跑遍所有x点的所有向量时,͂(x,e)(0)在L(M)(x,e)中就填满一个子集合H(x,e),这里L(M)(x,e)是L(M)在(x,e)处的切空间。而H(x,e)是L(M)(x,e)中的一个n维子空间。此子空间具有性质:

(2)H(x,e)⊕V(x,e)=L(M)(x,e),∀(x,e)∈L(M),其中V(x,e)是丛L(M)→M的纤维在(x,e)点处的切空间。

(3)dRa(H(x,e))=H(x,e)a,∀a∈GL(n,ℝ),(x,e)∈L(M)。

TL(M)中满足3个性质的子丛H就是L(M)上的联络。依然用M=ℝ的例子来表示标架丛上的联络,有L(M)≃ℝ×ℝ*的一个坐标(x,a),计算A∈gl(1;ℝ)的无穷小生成元,exp(A)=eA∈ℝ*≃GL(1;ℝ),因此

这里R非零(因为向量场必须与纵子丛互补),而水平分布不变性这一条件限制了R和S,也就是说,如果有h(x,ab)=T(x,a)Rb(h(x,a)),那么h将生成一个联络,计算式(3):

则有

R(x,ab)=R(x,a),S(x,ab)=bS(x,a)

为简化问题,假设a=1,R=1,那么向量场生成的ℝ上线性联络的横子丛如下:

横子空间的倾斜度会随着群作用方向的变化而变化,对于底空间M=ℝ中的每点,联络由其纤维上某点的倾斜度决定,见图2。

Fig.2 Frame bundle connection of one-dimensional manifold图2 一维流形标架丛上的联络

综上所述,从标架丛这一特殊流形的角度看,流形上每点的切空间能直和地分解成横空间和纵空间,纵空间是各纤维的切空间,而横空间与流形M的切空间是同构的。当处理多流形结构时,可以很自然地使用这两个子空间关联不同的流形。因此,既能将原始数据结构通过水平提升到横空间中来进行全局分析,又能将单一流形结构映射到纵空间中进行局部分析。

3 标架丛上的局部特征联络学习算法

单样本识别也存在人脸图像的几何变化(平移、旋转、伸缩等),表情变化,姿态变化等问题,本文的目的是使神经网络的输出对这些变化不敏感。首先,根据人脸的局部特征,构造出多流形结构,学习人脸不同局部流形的权重值。在此多流形结构上,使用标架丛上的联络算子学习出输入空间变化的方向信息,并结合反向传播(backpropagation,BP)算法实现分类器的设计。

3.1多流形构造

根据上面的思路,人们希望图像的不变性能带来更好的识别效果,但往往从图像的全局结构上无法体现这样的性质。因此利用分块的方法,获得人脸的不同局部特征,如眼睛、鼻子、嘴巴等,通过样本的局部特征构造多流形结构,即将人的眼睛特征视为一个流形,鼻子特征视为一个流形,嘴巴特征也视为一个流形等。

本文使用自组织映射神经网络(SOM)实现对多流形结构的逼近。在SOM中,输出层(竞争层)是由神经元排列的点阵集合,获胜的神经元与其邻近的神经元的权值都将被调整。如二维平面阵,见图3。获胜神经元为红点,若定义获胜邻域是大小为1的矩阵,则图中蓝色神经元权值也将被调整。

Fig.3 SOM neural network图3 SOM神经网络模型

SOM不但识别输入区域临近的区域,还研究输入向量的分布特性和拓扑结构。即某个输出结点只响应某类特征流形,相似的局部特征流形在拓扑空间中也保持相近。将局部特征分块作为SOM网络的原始输入xi=(x1,x2,…,xn)T,xi为一分块,x1,x2…,xn代表分块中像素拉成列向量后的形式。对输入向量及权值向量分别归一化后,用下式寻找获胜神经元:

wj是权值向量,n是竞争层神经元个数。然后,根据拓扑邻域N(S)进行权值更新。

Fig.4 Multi-manifold structure constructed by local feature图4 局部特征多流形

3.2多流形上的标架

在获得的多流形结构数据集上,人们希望设计出对原始输入空间变化具有很好鲁棒性的分类器来完成识别工作。Rifai在文献[22]中指出,若要重构误差与输入空间变换不敏感达到平衡,则每个训练样本点周围,实质上只对某些特定输入方向敏感,不同的训练样本点对应不同的敏感方向。

Fig.5 Frame system on multi-manifold图5 多流形上的标架系统

3.3基于标架的多流形变化方向

这里,Uk(x)是U(x)的第k列;ε是一个可调参数,规定凡大于ε的特征值对应的特征向量就是引起联络系数变化较大的方向。因此,Bx中的元素就是流形上点x在训练过程中需要被约束的方向。

Fig.6 Variation of same-class local feature manifold is less than the different-class图6 同类局部特征流形的变化小于异类局部特征流形的变化

3.4应用方向信息分类

要约束变化的方向,就要使得网络输出沿这些方向的方向导数变小。这些额外信息可被加入到最终的监督学习中来提升分类性能。利用改进的反向传播算法训练神经网络,在原有的目标方程上加入惩罚项:

此外,各局部特征流形对最终的分类结果应产生不同程度的影响,即不同的人脸特征流形应拥有不同的权重值。如果某类局部特征流形激活了较多的神经元,则表示该局部特征表达的是人脸的公共信息部分,此局部特征对分类的贡献度较小。如果某类局部特征流形激活了较少的神经元,则表示该局部特征传达了人脸重要判别信息。此类局部特征对分类的贡献度较大。根据以上观点,得出各局部特征流形对最终分类性能的贡献程度为:

其中,N表示竞争层的神经元总个数;ni表示局部特征流形Mi激活的神经元总个数。

下面给出整个标架丛上的局部特征联络学习算法(local feature connection learning algorithm based on frame bundle,LFCA-FB):

算法1标架丛上的局部特征联络学习算法

输入:多个训练流形[M1,M2,…,MN],对应标签[T1,T2,…,TN],测试流形MT,参数τ、σ、ε,学习速率η0,收敛误差η。

输出:每点的约束方向Bx,局部特征流形的权重w,分类标签c。

步骤1利用自组织映射神经网络(SOM)训练出多流形结构的同时(无监督学习),用式(8)学习出人脸各局部特征流形的权重值。

步骤2基于标架上的横空间和纵空间的联络矩阵,使用式(6)寻找出每点x的约束方向Bx。

步骤3在目标函数中加入惩罚项,即式(7),在有监督的情况下使用改进BP算法调节整个神经网络,结合步骤1中学习到的权重值来构建分类器。

时间复杂度分析:算法的时间复杂度分成两个部分,一部分是计算奇异值和奇异向量,其时间复杂度为O(dL×d×dh);另一个部分是训练神经网络,开始是非监督的多流形构造学习,之后是有监督的分类训练,采用的是改进的随机梯度下降算法。因此,在训练阶段整个算法的时间复杂度较高。

4 实验结果与分析

本文使用4个通用人脸数据库ORL、UMIST、FERET、AR进行实验评估。ORL人脸数据集共有40类人脸,每类人脸有10幅图像,一幅图像的大小为112×92像素,主要包括表情变化,微小姿态变化,尺度变化。图7为部分ORL数据集图像。

UMIST数据集有20类人脸,每类图像数为19至36幅,大小为220×220像素,包括人脸从左往右的姿态变化。图8为UMIST部分图像。

FERET-1共有200人的400张人脸图像,每人都有两张图像Fa与Fb,大小为256×384像素,该数据集体现了不同的年龄、表情、光照等特征。使用每类的Fa图像进行训练,Fb图像进行测试。图9展示了部分FERET-1数据集。

Fig.7 ORL database图7 ORL人脸数据集

Fig.8 UMIST database图8 UMIST人脸数据集

Fig.9 FERET database图9 FERET人脸数据集

AR根据拍摄时间(间隔两周)分成两个部分,图10为部分AR数据集,本文使用AR中100人的1 400张人脸子集进行实验,包括两个时间段的表情变化、光照、遮挡等情况。表1显示了选用的标准,表里每个子集都可用于训练样本,其余子集作为测试样本。

Fig.10 AR database图10 AR人脸数据集

使用ORL和UMIST数据集将本文提出的LFCAFB算法与其他单样本人脸识别算法进行比较。参与比较的算法包括主成分分析(PCA)[2]、二维PCA (2DPCA)[9]、分块LDA(FLDA)[14]、局部保持投影(LPP)[28]、局部切空间排列(LTSA)[29]和SOM[15],在这些算法中,采用欧式空间的最近邻分类器进行分类。首先,利用PCA将UMIST数据集降维到112× 92,与ORL数据集图像大小保持一致。取两个数据集各自的正脸图像作为训练样本,其余图像作测试样本,ORL每类人脸有9张测试图像,UMIST也从每类中取9种不同姿态下的图像作为测试样本。取分块大小为4×4,表2列出了各算法在两个数据集上的最低和最高识别率。

Table 1 Subset collection of AR database表1 AR数据集的子数据集选择

Table 2 Highest and lowest recognition rates of different methods on ORL and UMIST表2 各算法在ORL及UMIST数据集上的最低和最高识别率

从表2中可以看出,UMIST数据集上的识别结果基本低于ORL上的识别结果,这是因为ORL数据集只包含了每张人脸图像微小的姿态变化,而人工选取的UMIST测试样本包含了较大幅度的姿态变化。可见,在单样本识别问题中,姿态变化很大程度上影响着最后的识别结果。不过,本文算法表现出了很好的鲁棒性,与其他最优算法相比,识别率也要高出2至3个百分点。这是因为LFCA-FB算法学习出了姿态变化所引起的输入空间变化的方向,从而使整个神经网络的输出不受这些方向变化的影响。

同样,将LFCA-FB算法运用在AR的遮挡子数据集上并与SOM算法进行比较,图11为实验结果。从图中可以看出,在F1、F2、G1、G2数据集上的识别率要比SOM分别高出2、2、3、4个百分点。G1、G2(围巾遮挡)上的识别率也分别高于F1、F2(太阳镜遮挡)上的识别率,也就是说嘴巴、下颚部分被遮挡对算法的影响要小于眼睛、鼻子被遮挡时的影响,这从人们的直观感觉来看是容易理解的。对于权值较小的局部特征流形,即使它的输入变化显著,也不会轻易影响到神经网络的输出。

Fig.11 Comparative performance of LFCA-FB and SOM on F1, F2, G1, G2 subsets of AR图11 在AR子集F1、F2、G1、G2上LFCA-FB与SOM的比较

D1和D2是尖叫表情的子数据集,它与训练图像已产生很大的表情变化,见图10。将LFCA-FB运行在此数据集上,并与SOM算法比较,结果见图12。从图中可以看出,LFCA-FB算法对于复杂表情变化有很好的鲁棒性,其在D1、D2子集的最高识别率分别达到了93.0%和92.5%,相比SOM算法提高了3个百分点。显然,LFCA-FB很好地捕捉到了表情变化所引起的局部特征变化的方向,将表情变化对最终输出结果的影响降到最低。

Fig.12 Comparative performance of LFCA-FB and SOM on D1, D2 subsets of AR图12 在AR子集D1、D2上LFCA-FB与SOM的比较

LFCA-FB算法的时间复杂度较高,这是因为首先需要经过SOM的预训练,然后再用改进的反向传播算法进行微调。因此,训练阶段的耗时即是算法时间复杂度。表3给出了在FERET-1数据集上,不同样本数、神经元数情况下,训练阶段的耗时。同时,在AR的B、C子集上验证算法的收敛性,图13(a)和(b)分别显示了算法在B、C子集上识别率随迭代次数的变化情况。从图中可以看出,LFCA-FB算法最终能收敛到一个局部最优值。

Table 3 Running time of LFCA-FB on FERET-1表3 LFCA-FB在FERET-1上的运行时间

5 结束语

本文使用人脸的局部特征构造多流形结构。通过横空间、纵空间联络矩阵的变化学习出原始输入数据在流形间及流形内影响最终输出的主要变化方向,将此额外信息应用到最终的神经网络训练中,解决单样本人脸识别的同时增强算法对人脸流形随姿态、表情等变化的鲁棒性。

Fig.13 Convergence on B, C subsets of AR图13 在AR子集B、C上算法的收敛情况

实验部分发现算法的时间复杂度较高,如何选择合适的分块大小、神经元数目以减少训练时间值得进一步研究。

References:

[1] Brunelli R, Poggio T. Face recognition: features versus templates[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1993, 15(10): 1042-1052.

[2] Turk M, Pentland A. Eigenfaces for recognition[J]. Journal of Cognitive Neuroscience, 1991, 3(1): 71-86.

[3] Martinez A M, Kak A C. PCA versus LDA[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(2): 228-233.

[4] Er M J, Wu Shiqian, Lu Juwei, et al. Face recognition with radial basis function (RBF) neural networks[J]. IEEE Transactions on Neural Networks, 2002, 13(3): 697-710.

[5] Tan Xiaoyang, Chen Songcan, Zhou Zhihua, et al. Face recognition from a single image per person: a survey[J]. Pattern recognition, 2006, 39(9): 1725-1745.

[6] Pang Yanwei, Pan Jing, Liu Zhengkai. Cluster-based LDA for single sample problem in face recognition[C]//Proceedings of the 2005 International Conference on Machine Learning and Cybernetics, Guangzhou, China, Aug 18-21, 2005. Piscataway, USA: IEEE, 2005: 4583-4587.

[7] Wu Jianxin, Zhou Zhihua. Face recognition with one training image per person[J]. Pattern Recognition Letters, 2002, 23 (14): 1711-1719.

[8] Chen Songcan, Zhang Daoqiang, Zhou Zhihua. Enhanced (PC)2A for face recognition with one training image per person[J]. Pattern Recognition Letters, 2004, 25(10): 1173-1181.

[9] Yang Jian, Zhang D, Frangi A F, et al. Two-dimensional PCA: a new approach to appearance-based face representation and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(1): 131-137.

[10] Zhang Daoqiang, Zhou Zhihua. (2D)2PCA: two-directional two-dimensional PCA for efficient face representation and recognition[J]. Neurocomputing, 2005, 69(1): 224-231.

[11] De la Torre F, Gross R, Baker S, et al. Representational oriented component analysis (ROCA) for face recognition with one sample image per training class[C]//Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Deigo, USA, Jun 20-26, 2005. Piscataway, USA: IEEE, 2005: 266-273.

[12] Martinez A M. Recognizing imprecisely localized, partially occluded, and expression variant faces from a single sample per class[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(6): 748-763.

[13] Beymer D, Poggio T. Face recognition from one example view[C]//Proceedings of the 5th International Conference on Computer Vision, Cambridge, USA, Jun 20-23, 1995. Piscataway, USA: IEEE, 1995: 500-507.

[14] Chen Songcan, Liu Jun, Zhou Zhihua. Making FLDA applicable to face recognition with one sample per person[J]. Pattern Recognition, 2004, 37(7): 1553-1555.

[15] Tan Xiaoyang, Chen Songcan, Zhou Zhihua, et al. Recognizing partially occluded, expression variant faces from single training image per person with SOM and soft k-NN ensemble[J]. IEEE Transactions on Neural Networks, 2005, 16 (4): 875-886.

[16] Tenenbaum J B, De Silva V D, Langford J C. A global geometric framework for nonlinear dimensionality reduction[J]. Science, 2000, 290(5500): 2319-2323.

[17] Roweis S T, Saul L K. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290(5500): 2323-2326.

[18] Silva V D, Tenenbaum J B. Global versus local methods in nonlinear dimensionality reduction[C]//Advances in Neural Information Processing Systems 15: Proceedings of the 16th Annual Conference on Neural Information Processing Systems, Vancouver, Canada, Dec 9-14, 2002. Cambridge, USA: MIT Press, 2002: 705-712.

[19] Chen Xingshen, Chen Weihuan. Lectures on differential geometry[M]. Beijing, China: Peking University Press, 2001.

[20] Rifai S, Dauphin Y N, Vincent P, et al. The manifold tangent classifier[C]//Advances in Neural Information Processing Systems 24: Proceedings of the 25th Annual Conference on Neural Information Processing Systems, Granada, Spain, Dec 12-14, 2011. Cambridge, USA: MIT Press, 2011: 2294-2302.

[21] Alavi A, Wiliem A, Zhao K, et al. Random projections on manifolds of symmetric positive definite matrices for image classification[C]//Proceedings of the 2014 IEEE Winter Conference on Applications of Computer Vision, Steamboat Springs, USA, Mar 24- 26, 2014. Piscataway, USA: IEEE, 2014: 301-308.

[22] Rifai S, Vincent P, Muller X, et al. Contractive auto-encoders: explicit invariance during feature extraction[C]//Proceedings of the 28th International Conference on Machine Learning, Bellevue, USA, Jun 28- Jul 2, 2011. Madison, USA: Omni Press, 2011: 833-840.

[23] Yu Kai, Zhang Tong, Gong Yihong. Nonlinear learning using local coordinate coding[C]//Advances in Neural Information Processing Systems 22: Proceedings of the 23rd Annual Conference on Neural Information Processing Systems, Vancouver, Canada, Dec 7-10, 2009. Red Hook, USA: Curran Associates, 2009: 2223-2231.

[24] Yu Kai, Zhang Tong. Improved local coordinate coding using local tangents[C]//Proceedings of the 27th International Conference on Machine Learning, Haifa, Israel, Jun 21-24, 2010. Madison, USA: Omni Press, 2010: 1215-1222.

[25] Bengio Y, Monperrus M. Non-local manifold tangent learning [C]//Advances in Neural Information Processing Systems 17: Proceedings of the 18th Annual Conference on Neural Information Processing Systems, Vancouver, Canada, Dec 13-18, 2004: 129-136.

[26] Bengio Y, Larochelle H, Vincent P. Non-local manifold parzen windows[C]//Advances in Neural Information Processing Systems 18: Proceedings of the 19th Annual Conference on Neural Information Processing Systems, Vancouver, Canada, Dec 5-8, 2005. Cambridge, USA: MIT Press, 2005: 115-122.

[27] Li Fanzhang, Zhang Li, Yang Jiwen, et al. Lie group machine learning[M]. Hefei, China: China Science and Technology University Press, 2013.

[28] He Xiaofei, Niyogi P. Locality preserving projections[C]// Advances in Neural Information Processing Systems 16: Proceedings of the 17th Annual Conference on Neural Information Processing Systems, Vancouver, Canada, Dec 8-13, 2003. Cambridge, USA: MIT Press, 2003: 153-160.

[29] Zhang Zhenyue, Zha Hongyuan. Principal manifolds and nonlinear dimensionality reduction via tangent space alignment[J]. Journal of Shanghai University: English Edition, 2004, 8(4): 406-424.

附中文参考文献:

[19]陈省身,陈维桓.微分几何讲义[M].北京:北京大学出版社, 2001.

[27]李凡长,张莉,杨季文,等.李群机器学习[M].合肥:中国科学技术大学出版社, 2013.

ZHANG Qiming was born 1989. He is an M.S. candidate at School of Computer Science and Technology, Soochow University. His research interest is machine learning.

张启明(1989—),男,江苏扬州人,苏州大学计算机科学与技术学院硕士研究生,主要研究领域为机器学习。

LI Fanzhang was born in 1964. He received the M.S. degree in computer science and technology from University of Science and Technology of China in 1995. Now he is a professor and Ph.D. supervisor at Soochow University, and the senior member of CCF. His research interests include artificial intelligence and machine learning, etc.

李凡长(1964—),男,云南宣威人,1995年于中国科技大学获得硕士学位,现为苏州大学教授、博士生导师,CCF高级会员,主要研究领域为人工智能,机器学习等。

Local Feature Connection Learning Algorithm Based on Frame Bundleƽ

ZHANG Qiming, LI Fanzhang+
School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006, China

+ Corresponding author: E-mail: lfzh@suda.edu.cn

ZHANG Qiming, LI Fanzhang. Local feature connection learning algorithm based on frame bundle. Journal of Frontiers of Computer Science and Technology, 2016, 10(4): 533-542.

Abstract:Small sample size is one challenging problem for face recognition. In many practical applications such as ID card identification, e-passport, even there is only single sample per person. Many traditional methods fail to work in this scenario because there are not enough samples for learning. This paper proposes a novel method which is based on manifold learning to solve this problem. Firstly, this proposed method views local feature (eyes, nose, mouth) of a face as a manifold and uses self-organization mapping neural network to train a multi-manifold structure. Then it associates each manifold by connection operator on frame bundle and learns the directions of intermanifold and intra-manifold which are not sensitive to the variations of the input. Finally, it adds this additional information to supervised training. The proposed method combines neural network and manifold learning, changing single sample problem to multi-manifold matching problem. Experiments on well-known face databases ORL, UMIST, FERET and AR show that the proposed method outperforms some renowned methods and gets a better performance when facing the problem of variation of expression and pose, etc.

Key words:connection learning; frame bundle; multi-manifold; horizontal space; vertical space; one training sample

文献标志码:A

中图分类号:TP181

doi:10.3778/j.issn.1673-9418.1505062