基于特征表示与学习的图像集合分类算法

2016-12-20卢滢宇

实验室研究与探索 2016年2期

关键词：内核对象分类

卢滢宇，金錱

(1. 宁波职业技术学院，浙江宁波 315800； 2. 浙江大学宁波理工学院，浙江宁波 315100)

基于特征表示与学习的图像集合分类算法

卢滢宇1，金錱2

(1. 宁波职业技术学院，浙江宁波 315800； 2. 浙江大学宁波理工学院，浙江宁波 315100)

当前大多数图像集合分类方法对图像集合进行表示时往往做出部分先验假设，然而在许多实际应用中，这些假设可能无法成立，尤其是当集合内部存在大量复杂的数据变化时更是如此。此外，基于这些假设进行模型学习时可能会丢失部分区分性分类信息。针对这一问题，本文提出一种基于特征表示与学习的图像集合分类方法。对每个图像集合，首先将计算它的多阶统计量作为特征表示。对每阶统计量，计算一个内核矩阵来衡量两个图像集合的相似性。然后，通过利用局部多内核指标学习(LMKML)方法来学习一种距离指标，进而将不同阶统计量综合起来。最后，利用最近邻分类器进行分类。基于4种常用图像集合数据库的实验结果验证了本文算法的有效性。

图像集合分类；多阶统计量；特征表示；内核矩阵；近邻分类器

0 引言

图像集合分类可广泛应用于可视化监视和多视角图像分析问题，是计算机视觉和模式识别领域的重要研究课题[1-4]。图像集合分类的典型应用便是基于视频的人脸识别问题，每个走廊(gallery)和探测(probe)人脸视频可看成是一个图像集合，利用图像集合的特征进行人体识别。传统的图像分类问题中，每个训练和测试样本是单幅图像，但在本文图像集合分类问题中，每个训练和测试样本包括一组图像实例。与单幅图像相比，图像集合可提供更多的目标对象描述信息。然而，由于同一图像集合内往往存在较大规模的类内变化，造成对图像数据集的区分性信息加以利用的难度增大。

人们已经对图像集合分类问题进行了大量研究[5-14]。其中文献[7]提出了一种低秩描述下的图像集合分类方法。文献[8]通过基于最优标号和次优标号的主动学习来挖掘对当前分类器模型最具价值的样本进行人工标注，并借助带约束条件的自学进一步利用样本集中大量的未标注样本，使得在花费较小标注代价情况下，能够获得良好的分类性能。文献[9]提出一种基于稀疏编码的多核学习图像分类方法。该方法在利用非线性SVM方法进行图像分类时，空间金字塔的各层分别形成一个核矩阵，使用多核学习方法求解各个核矩阵的权重，通过核矩阵的线性组合来获取能够对整个分类集区分能力最强的核矩阵。文献[10-14]等方法对图像集合进行表示时往往做出部分先验假设，比如服从单高斯、高斯混合模型、子空间或流形(manifold)模型。然而在许多实际应用中，这些假设可能无法成立，尤其是当集合内部存在大量复杂的数据变化时更是如此。此外，基于这些假设进行模型学习时可能会丢失部分区分性分类信息。

本文提出一种新的图像集合分类算法。已知图像集合，计算其整体多阶统计量作为特征进行集合表示。与当前大多数图像集合分类方法相比[11,13]，本文多阶统计量特征不需进行参数估计，可更为稳健地从总体上描述集合内图像实例的分布。此外，提取出来的统计量特征中带噪样本可被有效滤除，这些多阶统计量特征对噪声的敏感度较低。为了更好地利用从不同阶统计量中提取出来的信息，本文提出一种局部多内核指标学习算法，以便学习一种距离指标，将不同阶统计量有效融合起来，且有更多区分性信息用于分类。基于4种常用图像集合数据库的实验结果证明了本文算法的有效性。本文算法的基本思路见图1。

图1 图像集合分类算法的基本思路

1 算法

对每个图像集合，本文首先在集合建模时提取出多个不同阶统计变量。对每阶统计量，计算一个内核矩阵以衡量2个图像集合间的相似性。然后，提出LMKML算法学习一种区分性局部距离指标，综合不同阶上的统计信息。最后，利用最近邻分类器进行分类。

1.1 基于多阶统计量的集合建模

(1) 一阶统计量。计算图像集合的均值向量m，表示图像集合在高维空间中的平均位置：

(1)

(2) 二阶统计量。计算图像集合的协方差矩阵C，表示图像集合中每对图像样本2个特征间的相关性：

(2)

(3) 三阶统计量。计算图像集合协方差矩阵C和均值m的外积，形成一个三阶张量以衡量协方差矩阵和均值向量2个元素间的相关性：

T=C⊗m

(3)

其中：m表示1个d维向量；C表示1个d×d矩阵；T表示1个d×d×d张量。其中，“⊗”表示2个矩阵的直积。请注意，对每个图像集合可计算更多更高阶的统计量。本文方法之所以只考虑这3种，是因为计算更高阶统计量特征的成本太高。与先前图像集合表示方法相比，利用多阶统计量信息对图像集合建模具有如下优势：① 无需对数据分布做出假设，无论图像集合包括多少样本，均可计算出统计量特征。② 不同阶的统计量信息可从不同角度描述图像集合。例如，均值向量可粗略反映对象在高维空间的位置，协方差矩阵可表示对角线元素各个特征的方差并衡量非对角线元素不同特征间的相关性。因此，这些统计量特征为图像集合的表示提供了补充性信息。

图2给出一个简单示例来阐明不同阶的统计量可为图像集合的分类贡献不同的区分性信息。在该图中，圆形和三角形表示2个不同的图像集合。(a)中一阶统计量相同但二阶统计量不同，而(b)中一阶统计量不同但二阶统计量相同。因此，可以看出，使用不同阶的统计量将为图像集合的分类贡献不同的区分性和补充性信息。

图2 不同阶统计量对图像集合分类的重要性示意图

1.2 局部多内核指标学习

提取出多阶统计量特征后，利用最近邻分类器进行分类，此时需要计算2个图像集合间的相似性。本文对内核空间中的2个统计特征进行比较，这等价于将原始的统计特征映射到新的空间上，并计算新空间上的点积。具体而言，将第p个统计变量特征的新特征表示为φp，且映射函数为Rdp→F，其中Rdp表示原始的特征空间，Fp表示映射后的高维空间。然后，将证明利用内核方法后，根据内核数值可对基于φp的各种操作进行表示。

与文献[15]类似，假设不同阶统计变量可映射到共同的高维特征空间上。本文试图学习一种距离指标，以便在该学习指标空间上，要求同一类别的对象比较靠近而不同类别的对象相距较远。与文献[15]不同之外在于，文献[15]假设不同类型特征(此处为不同阶统计特征)的权重对所有对象均相同，但本文认为权重应该具有数据自适应性。例如，如果一个图像集合的均值向量为区分性向量，则与其他阶特征相比，应该为其分配较高权重。基于这一思想将本文学习问题建模为局部多内核指标学习(LMKML)问题。

(4)

为了学习距离指标M，实现类间变化最大，类内变化最小。目标函数定义为：

(5)

M=WWT

(6)

将式(5)和式(6)结合起来，J简化为如下形式：

(7)

其中：

(8)

(9)

(10)

(11)

(12)

其中：

(13)

(14)

紧接着选择如下函数作为门限函数[15]：

(15)

(16)

然后，门限函数可写为：

(17)

其中:ap∈RN×1和bp∈R1为参数。因为本文的目标是学习U同时还需推断出ap和bp，所以式(12)中的优化问题没有闭合形式的解。受到文献[17]类似于EM的多内核学习算法的启发，本文采取迭代策略求解这一问题：首先固定ap和bp，更新U；然后反过来固定U，更新ap和bp。

首先利用较小的随机数对ap和bp初始化，且1≤p≤P，通过求解式(12)中的最小化问题确定U。引入约束UTU=I以便对U的尺度施加限制，于是式(12)中关于W的优化问题得到适定(well-posed)。然后，求解如下特征值问题即可获得U。

(18)

(19)

(20)

算法1：LMKML。

输入：训练集：根据N个图像集合计算而得的P个。N×N内核，迭代次数T，特征维度d，收敛误差ε。

输出：转换矩阵U，参数ap和bp。

步骤2(局部优化)。

fort=1,2,…,T重复：

步骤3 (输出变换矩阵和参数)：

输出矩阵U及参数ap和bp。

1.3 分类

(21)

(22)

2 仿真实验及结果分析

结合2个图像集合分类问题评估本文算法的性能：基于图像集合的人脸识别和对象分类。下面介绍具体的实验内容和结果。

2.1 数据集

使用Honda/UCSD[18]、 CMU MoBo[19]和YouTube Celebrities[20]3种公开的人脸数据集进行基于图像集的人脸识别。这3种数据集中的每个视频序列包括1个数据集合。Honda/UCSD数据集包括20个不同对象的59个视频序列，每个视频包括覆盖了平面外人头运动和脸部表情剧烈变化的约400个图像帧。CMU MoBo数据集包括24个对象96个视频序列。对每个对象，采集4个视频序列，每个序列对应不同的走动模式。每个序列大约有300帧。YouTube Celebrities数据集包括YouTube采集的47位名人(演员和政客)1910个视频序列。大多数视频的分辨率较低，拍摄时的压缩率较高，导致视频帧带噪且图像质量较差。视频片段包含不同数量的视频帧(8-400)。利用文献[21]中的人脸识别方法实现每帧中人脸图像的自动识别，然后尺寸自动调整为20×20亮度图像。采用直方图均衡方法作为预处理方法来减轻光照的影响。

对于对象分类，使用文献[22]中的ETH-80数据集。该数据集含有苹果、汽车、奶牛、杯子、狗、桃子和西红柿在内8种不同类别的视觉对象图像。每种类别有10个对象实例，每个对象实例有不同视角的41幅图像，进而形成一个图像集合。我们的任务是将对象实例的每个图像集识别为已知类别。与先前文献[21]类似，从简单的背景中分割出对象图像，并调整为20 × 20尺寸，然后进行分类。

2.2 实验配置

为了与先前方法做公平比较，采用与文献[11-14]相同的协议。随机选择走廊(gallery)/探测(probe)组合进行10次实验，然后计算并比较不同方法的平均识别率。具体来说，对Honda和MoBo数据集，随机选择每个人体的一个图像集作为gallery集，其余图像集作为probe。对于YouTube数据集，将整个数据集分为5份(重叠最小)。每份包含每个对象的9个视频序列。在每份中，每个对象随机选择3个数据集作为gallery，其余6个作为probe。对于ETH-80数据集，每个类别有5个对象作为gallery，其余5个对象作为probe。

2.3 结果和分析

与当前图像集合分类方法的比较：将本文算法与其他文献提出的图像集分类算法做比较，包括：判别规范相关性分析算法(DCC)[10]，多对多距离算法(MMD)[11]，多重判别分析(MDA)算法[12]，基于仿射包的图像集距离算法(AHISD)和基于凸包的图像集距离算法(CHISD)[13]，稀疏近似最近邻点(SANP) 算法[23]，协方差判别学习算法(CDL)[14]。

表1给出了4种数据集条件下不同图像集分类算法的识别结果。可以看出，本文算法的性能优于其他7种算法，尤其是对难度最大的Youtube人脸数据集，性能提升更为明显。这是因为其他大多数算法均需要对图像集合的表示做出一定假设，而这些假设对于难度较大的Youtube数据集可能并不成立。然而，本文算法不需任何假设，因此性能更优。

表1 4种数据集下不同图像集分类算法的识别率/%

(1) 与不同阶统计特征的比较。比较了不同阶统计特征的图像集分类性能。对于每种阶数的统计变量特征，利用了NN分类器进行图像集分类。表2给出了不同阶统计特征的分类率。可以发现，三阶统计变量特征的性能要优于其他两阶统计变量特征的性能，因为三阶统计特征对一阶和二阶统计信息进行了编码。同时，一阶和二阶统计变量对三阶统计变量具有补充作用。

表2 4种数据集下不同阶统计变量特征的识别率/%

表3 不同数据集下不同多内核指标学习算法的识别率/%

(3) 稳健性分析。还评估了数据集含有带噪数据时本文算法的稳健性。对于带噪数据问题，根据文献[13-14]进行了3组实验，通过使集合包含另一类别的一幅图像来使gallery/probe集合人为遭受干扰。与文献[14]类似，原始干净数据及3个带噪数据集分别称为“干净”数据，“NG”数据(只有gallery集合含有带噪数据)，“NP”数据(只有probe集合含有带噪数据)。图3给出了不同图像集分类算法在数据带噪情况下的识别率。从该图中可以看出，本文算法的稳健性均较高，算法性能只有少量下降。这是因为我们使用不同阶统计变量特征来进行集合表示，而且这些特征相对于集合轮廓和集合中的样本数量具有稳健性。因此，带噪样本带来的影响得到缓解。

(4) 参数分析。因为本文算法是迭代算法，所以我们评估了不同迭代次数下的算法性能。图4给出了对于Youtube数据集，迭代次数不同时本文算法的识别精度。可以看出，本文算法在不同迭代次数条件下性能稳定。

图3 数据带噪情况下不同算法的识别率

图4 本文算法对于Yoube数据集采用不同的迭代次数时的识别率

表4给出了不同数据集采用不同类型的内核时本文算法的识别精度。可以看出，本文算法的性能与内核类型的选择无关。

(5) 计算时间。最后，比较了不同的图像集分类算法对Youtube数据集的计算复杂度。为了进行测试，我们给出了将1个probe图像集与所有gallery图像集进行匹配时的分类时间。实验的硬件配置为2.8-GHz CPU，10GB RAM。表5给出了Matlab平台下这些算法的训练和测试时间。可以看出，对于包括DCC、MDA和本文算法在内的区分性学习算法，只需要训练时间。可以看出，本文算法的计算复杂度总体来说要略高于其他算法。这是因为本文算法在进行图像集合的表示时计算了多阶统计变量特征，因此需要更多的代数运算，导致计算复杂度上升。

表4 不同数据集下不同多内核指标学习算法的识别率对于多项式内核，参数设置为2 /%

表5 不同算法对于Youtube数据集的训练和测试计算时间(只对一个图像集分类) /s

3 结语

提出一种新的基于特征表示与学习的图像集合分类算法。利用人脸识别和对象分类两种分类场景对本文算法的性能进行了评估。基于4种常用数据集的实验结果表明，本文算法在准确性和稳健性方面的性能要优于其他最新算法。在下步工作中，将设计更为高效的内核计算方法以便提升本文算法的运行速度，同时利用更高阶的统计特征并与本文中的这些特征相结合，以便进一步提升识别性能。

[1] Camps-Valls G, Tuia D, Bruzzone L,etal. Advances in hyperspectral image classification: Earth monitoring with statistical learning methods [J]. Signal Processing Magazine, IEEE, 2014, 31(1): 45-54.

[2] Cui Z, Shan S, Zhang H,etal. Image sets alignment for video-based face recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012: 2626-2633.

[3] Hu Y, Mian A S, Owens R. Face recognition using sparse approximated nearest points between image sets [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(10): 1992-2004.

[4] Akata Z, Perronnin F, Harchaoui Z,etal. Good practice in large-scale learning for image classification [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(3): 507-520.

[5] Ji R, Gao Y, Hong R,etal. Spectral-spatial constraint hyperspectral image classification [J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(3): 1811-1824.

[6] Pasolli E, Melgani F, Tuia D,etal. SVM active learning approach for image classification using spatial information[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(4): 2217-2233.

[7] 吕煊, 王志成, 赵卫东, 等. 一种基于低秩描述的图像集分类方法[J]. 同济大学学报(自然科学版), 2013, 41(2): 271-276.

[8] 陈荣, 曹永锋, 孙洪. 基于主动学习和半监督学习的多类图像分类[J]. 自动化学报, 2011, 37(8): 954-962.

[9] 亓晓振, 王庆. 一种基于稀疏编码的多核学习图像分类方法[J]. 电子学报, 2012, 40(4): 773-779.

[10] Kim T K, Kittler J, Cipolla R. Discriminative learning and recognition of image set classes using canonical correlations [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 29(6): 1005-1018.

[11] Wang R, Shan S, Chen X,etal. Manifold-manifold distance with application to face recognition based on image set[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Columbus, USA:IEEE, 2014: 1-8.

[12] Wang R, Chen X. Manifold discriminant analysis[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE, 2013: 429-436.

[13] Cevikalp H, Triggs B. Face recognition based on image sets[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco,USA:IEEE, 2010: 2567-2573.

[14] Wang R, Guo H, Davis L S,etal. Covariance discriminative learning: A natural and efficient approach to image set classification[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012: 2496-2503.

[15] Gönen M, Alpaydin E. Localized multiple kernel learning[C]//Proceedings of the 25th International Conference on Machine Learning. New York, USA: ACM, 2008: 352-359.

[16] Baudat G, Anouar F. Generalized discriminant analysis using a kernel approach [J]. Neural Computation, 2010, 12(10): 2385-2404.

[17] Lin Y Y, Liu T L, Fuh C S. Multiple kernel learning for dimensionality reduction [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2011, 33(6): 1147-1160.

[18] Lee K C, Ho J, Yang M H,etal. Video-based face recognition using probabilistic appearance manifolds[C]// Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Madison, USA:IEEE, 2003:313-320.

[19] Wang R, Shan S, Chen X,etal. Manifold-manifold distance with application to face recognition based on image set[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Anchorage, USA:IEEE, 2008: 1-8.

[20] Kim M, Kumar S, Pavlovic V,etal. Face tracking and recognition with visual constraints in real-world videos[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Anchorage, USA:IEEE, 2008: 1-8.

[21] Viola P, Jones M J. Robust real-time face detection [J]. International Journal of Computer Vision, 2004, 57(2): 137-154.

[22] Leibe B, Schiele B. Analyzing appearance and contour based methods for object categorization[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Madison, USA: IEEE, 2003:215-222.

[23] Hu Y, Mian A S, Owens R. Sparse approximated nearest points for image set classification[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Colorado Springs, USA:IEEE, 2011: 121-128.

[24] Lu J, Zhou X, Tan Y P,etal. Neighborhood repulsed metric learning for kinship verification [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2014, 36(2): 331-345.

On Image Set Classification Algorithm Based on Feature Representation and Learning

LUYing-yu1,JINZhen2

(1. Ningbo Polytechnic, Ningbo 315800, China; 2. Ningbo Institute of Technology,Zhejiang University, Ningbo 315100, China)

Most existing image set classification methods usually need to make some prior assumptions. However, in many practical applications, these assumptions may not be held, especially when there are large and complex data variations within a set. Moreover, the models learned based on these assumptions may also lose some discriminative information for classification. To solve this problem, this paper proposes an image set classification method based on feature representation and learning. For each image set, we first compute its multiple order statistics as feature representation. For each order statistic, we compute a kernel matrix to measure the pairwise similarity of two image sets. Then, we learn a distance metric by using the localized multi-kernel metric learning method to combine the different order statistics. Lastly, the nearest neighbor classifier is used for classification. Experimental results on four widely used image set datasets are presented to show the efficacy of our proposed approach.

image set classification; multiple order statistics; feature representation; kernel matrix; nearest neighbor classifier

2015-07-10

卢滢宇(1988-)，女，浙江丽水人，硕士，助教，主要研究最优化与控制理论。

Tel.: 15888005151; E-mail lyy_nbpt@sina.com

TP 391

1006-7167(2016)02-0128-07