APP下载

面向多模态图像的广义辅助相关投影方法

2019-10-31苏树智高鹏连邓瀛灏

关键词:高维训练样本识别率

苏树智,朱 刚,高鹏连,邓瀛灏,郑 苹

(安徽理工大学计算机科学与工程学院,安徽 淮南 232001)

随着图像采集技术的发展,往往能够采集同一目标的多种图像,比如使用不同的图像采集设备能够同时为一个人拍摄可见光图像、热红外图像、内红外图像等,这些图像从不同的角度描述了同一人的多种统计信息,并且具有互补性,这些图像通常称之为这个人的多模态图像[1]。此外,对一类图像进行各种变换后得到的图像总体,也可以称为多模态图像,比如一幅人脸图像、以及该图像经过图像目标轮廓增强、小波变换等获得的图像,同样也可以视为共同描述人脸的多模态图像。多模态图像通常将每一个像素数据表示视为一个维度,有的维数达到几万、几百万甚至几千万,因此多模态图像一般具有维数过高这一特性[2]。尽管这类高维数据能够包含更多的信息,但是直接对其进行识别或分类任务,不仅在计算时间和存储空间方面需要付出巨大的代价,而且原始高维数据中包含的冗余信息和噪声信息会严重影响识别或分类的精度。

为了解决该问题,子空间投影是一类行之有效的方法,大量国内外学者也为子空间投影理论的研究倾注了毕生的精力。子空间投影的本质是寻找一组线性或非线性的变化,在尽量保持原始数据蕴含的有效信息下,将处于高维空间中的原始数据压缩到一个子空间中,以达到有效减少数据维数的目的,并且更利于数据的进一步处理。目前对多模态数据进行子空间投影常用的方法[3]是:首先将描述同一目标的多类图像数据首尾相连,组成该目标的串联数据,然后再使用主成分分析[4]等单模态子空间投影方法来学习对应的子空间。这种方法经常能有效增强识别或分类的性能,然而同样也拥有明显的缺点,比如数据的维数会急剧增加,使计算时间和存储空间大幅提高,甚至会造成采集的数据量远小于数据的维数,进而严重影响分类器的泛化能力[5]。为此,很多学者从模态间的互补性、相关性等出发,同时学习每个模态的投影方向,进而获得更具鉴别力的子空间。借助模态间的广义均值,多视图鉴别分析方法[6]在多模态数据的一致子空间中最大化了类内散布,同时最小化了类间散布,并在多模态图像数集上验证了方法的有效性。局部排列的多视图流行学习方法[3]能够从多模态图像中学习一种鉴别子空间,该子空间尽量保留了原始高维数据的局部几何结构,使子空间投影后的低维特征更具鉴别力。为了掌握多模态数据的内在结构,文献[7]构建了一种最大粒度结构描述因子,进而能够抽取多模态数据的局部显著特征,并在此基础上形成了基于表示一致性的广义多视图鉴别分析方法。文献[8]将广义鉴别的思想和相关分析理论[9]进行融合,提出了多视图局部鉴别的典型相关分析方法,并通过大量实验在多模态图像的识别中验证了方法的有效性。针对视觉识别和跨模态检索,广义多视图嵌入方法[10]推导出了Rayleigh熵的广义解析解,并将其向多模态、监督学习和非线性嵌入进行了拓展,进而形成了子空间投影的广义模型,通过调整本质图和惩罚图,能够将典型相关分析、偏最小二乘回归[11]和线性鉴别回归等视为该模型的一种特例。

图1 基于子空间投影的多模态图像识别过程

目前已有的多模态子空间投影方法主要是在基于不同的优化准则,从多模态数据中学习子空间,使多模态数据投影到子空间后,尽量保留原始高维数据的有效鉴别信息。借助子空间学习来实现多模态图像识别的一般过程为:首先使用子空间投影方法学习每个高维训练数据集的投影方向,并使用学习的投影方向将其投影到子空间,进而获高维训练数据集的低维特征集,然后借助简单的融合策略,对不同模态的低维特征进行融合,从而获得融合低维特征集;当获得高维测试数据时,同样也利用上述投影方向和融合策略,将高维测试数据投影到子空间,并通过融合获得对应的融合低维测试特征;最后利用分类器对融合的低维测试特征和融合的低维训练特征进行分类,进而获得最终的识别结果。图1直观地展示了该过程。从上述过程可以看出,利用子空间投影进行多模态图像识别时,测试样本仅仅使用了从训练样本学习的投影方向,忽略了训练样本和测试样本间的近邻关系,然而这种关系恰恰是分类器进行分类的关键,能够很好地增强图像识别的准确度。为此,本文利用相关分析理论和图的光滑性,提出了一种多模态广义辅助相关投影方法,即多模态广义辅助相关分析方法(Multi-modal Generalized Auxiliary Correlation Analysis, MGACA),该方法优点如下。

(1)MGACA能够借助高维训练样本为每个模态学习一组相关投影方向,并将高维训练样本投影到相关一致子空间,进而获得具有强鉴别力的训练相关特征。

(2)受相关投影方向迁移能力的限制,仅仅利用相关投影方向将高维测试样本投影到学习的相关一致子空间,获得的相关特征难以很好地继承投影方向蕴含的鉴别力。为此,MGACA进一步构建了光滑性辅助的优化模型,并通过理论推导获得了高维测试样本投影的解析解,即测试相关特征。

(3)MGACA学习的测试相关特征不仅尽量保留了相关投影方向的鉴别力,而且有效地嵌入了测试和训练样本之间的局部结构信息,具有更强的鉴别力。据我们所知,MGACA是多模态子空间中第一个显示嵌入测试与训练样本之间近邻关系的方法。

1 多模态典型相关分析

在所有针对多模态数据的子空间学习方法中,多模态典型相关分(Multi-modal Canonical Correlation Analysis)[12]扮演着重要的角色,其核心思想是同时学习每个模态的一组相关投影方向,使原始高维模态数据投影到低维空间后,拥有最大的模态间相关性。目前MCCA已经广泛应用于脑数据分析[13]、时序排列[14]、核磁共振数据处理[15]和跨语言检索[16]等实际应用。在本质上,MCCA属于无监督的线性子空间学习方法,难以有效利用监督信息和掌握数据非线性结构信息。为此,学者们提出了很多MCCA的改进方法,鉴别多典型相关分析[17]构建了一种线性的监督相关投影方向优化模型,在从理论上证明低维相关特征的维数上限。实际应用中获得的原始高维数据很多都是复杂的非线性数据,为了更好地掌握数据的非线性结构信息,图正则化MCCA[18]借助图正则化技术,将每个模态中图的鉴别结构有效嵌入相关分析理论框架,并在图像识别中验证了方法的有效性。为了丰富相关分析理论框架中的核方法,核传播策略[19]利用图理论实现了针对隐式核方法的外样本扩展,并形成了核传播典型相关分析方法。拉普拉斯MCCA[20]推导出了MCCA的一种等价模型,然后在等价模型的基础上嵌入类内近邻图的近邻权重,进而形成了非线性图嵌入的相关一致子空间投影方法。文献[21]构建了多视图鉴别分析与MCCA的统一框架,形成了一种新的多视图局部鉴别的典型相关分析方法, 该方法不仅考虑了视图内的局部近邻关系同时也整合了视图间的局部鉴别信息。 文献[22]在最大化模态间相关性的同时,利用Hessian技术进一步探索原始高维数据中隐藏的本质几何结构,从而形成了非线性的鉴别相关一致子空间投影模型,并在手写体数字识别和人脸识别中验证了方法的有效性。

2 多模态广义辅助相关分析

(1)

(2)

式中:λ为拉格朗日乘子。通过对L(η(p))求η(p)的偏导,并将其导数设为零,可得

(3)

公式(3)能够等价地表示为

(4)

公式(4)两边同时左乘以η(p)T后,可以转化为

(5)

进而可得

(6)

Hη=λHwη

(7)

(8)

目前,将高维测试样本投影到相一致子空间仅仅借助学习的投影方向,而忽略了测试与训练样本之间的近邻关系,但是这种关系恰恰是分类器进行分类的关键。为此,MGACA构建了光滑性辅助的广义优化模型,从而使测试样本投影到相关一致子空间时不仅能够保留投影方向蕴含的鉴别力,而且显示地嵌入了测试与训练样本之间的局部结构信息。下面以第p(p=1,2,…,M)个模态的样本集为例,详细描述了如何学习测试相关特征。

(9)

(10)

(11)

(12)

(p=1,2,…,M) (13)

(14)

MGACA方法 输入:多模态训练图像样本{Z(p)=[z(p)1,z(p)2,…,z(p)N]}Mp=1多模态测试图像样本{Y(p)=[y(p)1,y(p)2,…,y(p)F]}Mp=1输出:多模态图像的识别结果1: 利用公式(7)学习每个模态对应的相关投影矩阵;2: 利用公式(8)获得多模态训练图像样本对应的低维特征;3: 利用公式(13)获得多模态测试图像样本对应的低维特征;4: 利用公式(14)将对应同一目标的低维特征进行融合;5: 利用最近邻分类器对融合低维特征进行分类,即可获得最终识别结果

3 实验结果与分析

为了分析提出方法的有效性,在Umist图像数据集、ORL图像数据集和Coil20图像数据集设计了针对性实验,从本质上而言,这些数据集数据属于单模态数据集,为此借助模态策略获得每幅图像的三种模态图像数据,即利用Coiflets,Daubechies和Symlets小波转换技术,获得每幅图像的三个模态图像数据,然后使用主成分分析将模态数据的维数约减到300维。方法MGACA和鉴别MCCA(DMCCA)、多视图鉴别分析(MvDA)和MCCA进行对比分析。此外,MGACA包含两个参数,即高斯参数σ和局部近邻参数k,借助论文[24]中高斯参数的参数设定,σ为0.2r,其中r为每个模态数据与它前十个近邻数据的平均欧式距离,近邻参数k设定为10。在最终的识别任务中,上述方法都使用基于欧式距离的最近邻分类器,并且识别率是在子空间所有可能的维度下的最优识别率。

3.1 在Umist图像数据集上的实验结果

Umist图像数据集是经典的人脸图像数据集,包含20个人的564幅多角度人脸图像,每个人采集了从右脸到正脸的一系列图像。从每个人中分别随机选择2幅图像、3幅图像、4幅图像以及5幅图像,作为训练样本,然后剩余的图像作为测试样本。独立运行十次样本随机实验,表1展示了在Umist图像数据集上的平均识别率。DMCCA在考虑模态间相关性的同时进一步嵌入了模态内的鉴别信息,并学习了鉴别子空间。MvDA从广义均值的角度,探索了线性鉴别分析的多模态化拓展,借助优化一致子空间中低维特征的鉴别散布,获得了多模态数据的子空间。这两种方法在子空间的学习中都考虑了鉴别信息和模态间的互补性,在表1中拥有相似的识别率。然而MCCA仅仅考虑了模态间的相关性,忽略了鉴别信息在子空间学习中的有效嵌入,在这个数据集上MCCA同样也表现出了更差的识别性能。上述方法将测试样本投影到学习的子空间时,仅仅利用了投影方向,忽略了测试样本和训练样本之间的内在关系,然而该关系能够有效增强低维特征的类分离性,然而MGACA方法利用光滑性辅助的广义优化模型获得显示地嵌入了测试与训练样本之间的局部结构信息,这是MGACA方法在表1中获得最优识别性能的重要原因。另外,随着样本数量的增加,MGACA方法和对比方法的识别率都呈现了增加的趋势。

表1 在Umist数据集上的平均识别率 %

3.2 在ORL图像数据集上的实验结果

ORL图像数据集是一个典型的人脸图像数据集,一共40个人,每个人拥有10幅图像,这些图像包含不同的光照、不同的表情等,并且图像大小为112×92像素。随机选择每个人的2幅图像、3幅图像、4幅图像以及5幅图像作为训练样本,然后剩余的图像视为测试样本。独立运行十次样本随机实验,在表2中展示了在ORL数据集上的平均识别率。类似Umist数集上的实验结果,DMCCA和MvDA仍然拥有相似的识别性能,并且MCCA的识别率仍然最低。在ORL图像数集上,我们方法同样也显示出优越的识别性能。

表2 在ORL图像数据集上的平均识别率 %

3.3 在COIL20图像数据集上的实验结果

COIL20图像数据集从不同的角度采集了20个目标的1 440幅灰度图像,每个目标每隔5°采集一幅图像,一共采集了72幅图像,每幅图像的大小为128×128像素。在该实验中随机选择每个目标的2幅图像、3幅图像、4幅图像以及5幅图像,作为训练样本,将剩余的图像用于测试。独立运行十次样本随机实验,在表3中给出了每种训练样本数量下的平均识别率。在COIL20图像数据集上,尽管MvDA与DMCCA显示出了相识的识别性能,但是当每个目标的3幅随机图像用于训练时,DMCCA的识别率高于了MvDA,其他情况下,MvDA在识别率上略高于DMCCA。MGACA方法在表3中仍然拥有最高的识别率,然而与表1和表2中的实验结果略有不同的是在COIL20图像数据集上MGACA方法的识别率优势更加明显。在上述三个图像数集上,MGACA方法以及对比方法的相对识别性能基本一致,随着训练样本的增加,所有方法的识别率也都呈现了增加的趋势。总之,在这三个图像数据集上的实验结果可以给出一个合理的观察:MGACA方法是一种有效的多模态图像识别方法。

表3 在COIL20图像数据集上的平均识别率 %

3.4 近邻参数对识别性能的影响

MGACA方法,近邻参数主要影响的是测试数据的子空间投影过程。图2直观地展示了本方法在不同近邻参数(k)和每类不同的训练样本数(b)下的识别率。从图2能够看出,在大多数情况下我们方法的识别率对于近邻参数是鲁棒的,即在不同的近邻参数下,识别性能相对稳定,这是在上述实验中可以将近邻参数直接设定为一个常数的重要原因。在图2中也观察到,当近邻参数较小时,MGACA方法的识别性能在一些情况下也出现了相对较低的现象,这种现象的主要原因是测试样本的投影依赖于它的近邻样本并且这些近邻样本不仅可能包含训练样本同样也可能包含测试样本,然而当近邻参数较小时,测试样本的近邻样本可能仅仅包含测试样本,这将导致测试相关特征缺乏测试与训练样本之间近邻关系的嵌入,弱化了测试相关特征的鉴别力。随着近邻参数的增加,识别率表现了良好的稳定性,建议在实验中选择相对较大的常数。从上述实验结果和分析可以看出,MGACA方法的识别性能对近邻参数是相对稳定的。

(a)Umist图像数据集

(b)ORL图像数据集

(c)COIL20图像数据集图2 在不同近邻参数k下的识别率

4 总结

多模态子空间学习方法能够从高维训练样本中学习相关投影方向,并且通常仅仅利用投影方向将测试样本投影到子空间,而忽略了测试和训练样本之间的近邻关系,然而这种关系能够有效增强低维特征之间的鉴别力。针对该问题,本文借助相关分析理论和图的光滑性准则,提出了一种面向多模态图像的广义辅助相关投影方法,即MGACA方法。MGACA能够针对高维训练样本学习每个模态的一组相关投影方向,并获得具有强鉴别力的训练相关特征,然而受相关投影方向迁移能力的限制,仅仅利用相关投影方向来获得高维测试样本的测试相关特征,往往难以很好的继承相关投影方向的鉴别力,为此,MGACA进一步构建了光滑性辅助的优化模型,并通过理论推导获得了高维测试样本投影的解析解,即测试相关特征。学习的测试相关特征不仅尽量保留了相关投影方向的鉴别力,而且有效地嵌入了测试和训练样本之间的局部结构信息,具有更强的鉴别力。在三个常用的图像数据集上设计大量的针对性实验,并且良好的实验结果已经显示了我们方法在图像识别上的优越性。

猜你喜欢

高维训练样本识别率
基于类图像处理与向量化的大数据脚本攻击智能检测
人工智能
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
一种改进的GP-CLIQUE自适应高维子空间聚类算法
提升高速公路MTC二次抓拍车牌识别率方案研究
基于加权自学习散列的高维数据最近邻查询算法
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法
高速公路机电日常维护中车牌识别率分析系统的应用