APP下载

一种深度偏最小二乘相关分析的多模态融合方法

2021-05-19苏树智张若楠郜一玮高鹏连

苏树智,张若楠,郜一玮,高鹏连,朱 刚

(1.安徽理工大学计算机科学与工程学院,安徽 淮南 232001;2.合肥综合性国家科学中心能源研究院,安徽 合肥 230031)

典型相关分析(Canonical Correlation Analysis, CCA)是处理多模态数据的统计学方法,旨在最大化不同模态特征之间的相关性,目前已经被成功应用于很多领域。文献[2]将CCA用于多模态特征学习和数据融合,并在图像识别中获得了良好的实验结果。从不同的角度,文献[3]通过使用随机化方法降低典型相关分析的时间复杂度,提出了统计CCA方法,实现投影方向的快速学习。文献[4]结合核方法,将低维数据映射到高维度,以解决在低维度无法解决的非线性困境,提出核化典型相关分析(Kernerl Canonical Correlation Analysis,Kernel CCA)方法,实现对低维非线性数据的有效融合,文献[5]提出一种基于点阵量化的非线性相关分析问题的信息理论压缩表示框架,使得CCA面对非线性问题时仍能具有较好的性能。文献[6]将典型相关分析从两模态扩展到两个或两个以上的模态,提出了多视图CCA方法,并在大脑数据分析中获得良好的实验结果。文献[7]结合深度神经网络,提出深度CCA(Deep CCA)方法,以解决典型相关分析难以掌握原始高维数据的内在非线性结构信息。但在现实数据环境中往往会遇到样本维度较高且样本与样本之间又具有较高的相关性的问题,此时基于典型相关分析的数据融合将受到较多的限制,为了解决该问题,偏最小二乘(Partial Least Square Method, PLS)方法结合主成分分析、典型相关分析以及线性回归分析,从理论上解决数据融合时的高维线性不可分问题,PLS由于其在上述问题的出色性能,目前已经成功应用于医学成像分析、生物成分分析、光谱图像处理、植物特征分析等生物医学领域。PLS方法可分为偏最小二乘回归(Partial Least Squares Regression,PLSR)以及偏最小二乘相关(Partial Least Squares Correlation, PLSC),PLSR旨在用一个模态的数据来推测另一个模态的数据,而PLSC主要用于分析不同模态之间的相关性问题,本文主要是探索基于PLSC的数据融合问题。

CCA与PLSC是线性的优化方法,对非线性样本的适用性较差。深度学习是近年来不断发展的新兴学科,随着深度学习的不断发展,越来越多的学科通过与深度神经网络结合而达到了相较于过去更好的适用性,截止目前,行为预测、自然语言处理、情感分析、语音识别等领域的深度学习应用已经被广泛采用。本文通过结合深度学习与PLSC,提出一种新颖的多模态图像识别方法,即深度偏最小二乘相关分析方法(Deep Partial Least Square Correlation, DPLSC)。该方法将偏最小二乘相关分析和深度学习进行有效融合,深度神经网络的层与层之间的非线性激活对非线性样本进行处理,偏最小二乘相关分析作为多模态网络的融合层,进行相关约束和融合,从而有效增强了多模态非线性特征的鉴别力,实现了多模态图像的有效识别。大量实验显示DPLSC方法是一种有效的多模态图像识别方法。

1 相关工作

1.1 典型相关分析(CCA)

CCA是一种经典的多元统计分析方法,目前被广泛的应用于模式识别,信息融合以及语义分析等方面,它能够学习两个模态之间的相关一致子空间,有效地发掘不同模态之间潜在的线性相关关系。

X

=[

x

,

x

,

x

,…,

x

]∈

R

×

Y

=[

y

,

y

,

y

,…,

y

]∈

R

×是对应同一目标的两个模态数据。其中对应于第

k

对样本的数据为(

x

,

y

),

N

代表采集样本的数量,

d

d

分别为两个模态数据的样本维数。CCA旨在通过构建不同模态的相关准则函数,学习模态数据集

X

Y

的相关投影方向

α

R

×1

β

R

×1。为了使求得的低维相关投影具有最大的相关性,借助皮尔森相关系数来构建相关投影准则,具体优化函数如式(1)所示。

(1)

s

.

t

.

α

S

α

=1,

β

S

β

=1

(2)

1.2 偏最小二乘相关(PLSC)

PLSC与典型相关分析相同,都是对于同一观测物体的不同模态数据进行关联处理的方法。PLSC通过推导模态数据的潜在变量空间来得到其最佳的线性组合。

通过上述的方式得到原始样本的显著特征后,需要对样本的相关性进行分析,通过将原样本向

U

,

V

的方向进行投影即

L

=

XV

L

=

YV

,PLSC的优化目标如式(3)所示。

s

.

t

.=1,=1

(3)

其中

u

,

v

分别为

U

,

V

的前

n

个向量。将上述优化目标以典型相关分析的形式进行具体的表示,即将偏最小二乘分析问题转化为下述优化问题

s

.

t

.=1,=1

(4)

类似于CCA,利用拉格朗日乘子法同样能够获得上述优化问题的解析解。

1.3 深度神经网络(DNN)

深度神经网络(Deep Neural Networks,DNN)是一种模拟大脑神经网络推理模式的机器学习方法。深度神经网络的最小单元是感知机,感知机是一种有多个输入以及单个输出的模型,在图1中给出了感知机模型的直观描述。

图1 感知机模型

感知机的输入与输出之间存在一种线性关系即

(5)

其中

w

为每个输入的权值,即每个输入对输出的影响程度,

b

则为偏差值。从

z

到最终的输出之间往往会添加一层激活函数,当激活函数为

(6)

感知机能够应用于二元分类问题,显然,单独的感知机无法解决复杂的非线性问题,深度神经网络则通过将感知机进行堆叠构建网络,如图2所示。

图2 深度神经网络结构

如图2所示,深度神经网络通过堆叠感知机组成了复杂的网络结构,这样的结构可以处理多输入与多输出的高维度非线性问题。

2 深度偏最小二乘相关(DPLSC)

本文提出的DPLSC方法,通过将两模态数据分别通过两个多层堆叠的神经网络,来对复杂的非线性数据进行预处理后,在通过深度偏最小二乘相关方法来计算双视图数据的相关性,具体的框架如图3所示。

图3 深度偏最小二乘分析框架示意图

(7)

类似于PLSC的求解方法,利用奇异值分解法能够求解跨模态相关矩阵

R

对应的模态显著特征,从参考文献[17]可知,跨模态样本间的相关性能够通过

R

的前

n

个奇异值之和来表示,当

n

=ϑ时,跨模态样本间的相关性

corr

(

H

,

H

)为其的迹范数,即

(8)

(9)

表1 深度偏最小二乘相关分析算法

在第四部分中,将通过在MNIST手写数字数据集上的针对性实验验证DPLSC相较于其他融合方法能够得到更好的融合特征。

3 实验部分

在本节中,通过在MNIST手写数字数据集上进行手写数字识别,并通过与CCA,PLSC,Kernel CCA,图多视角典型相关分析(Graph Multiview CCA, GMCCA),Deep CCA以及本文提出的DPLSC方法的性能进行对比分析。

3.1 MNIST手写数字图像数据集

MNIST手写数字图像数据集共计由70 000张28×28像素的手写数字图像组成,其中60 000张作为训练图像,10 000张作为测试图像,从本质上而言,该数据集为单模态图像数据集,本文利用多模态图像策略获得每幅图像的两种模态数据。具体而言,首先将像素值缩放到[0,1],并对从数据集中均匀采样得到的图像进行[-π/4,π/4]角度的旋转为第一种模态数据;然后从与第一种模态数据相同标签的图像中随机选择一副图像,将从[0,1]开始均匀采样的独立随机噪声加到该图像的每个像素上,再将像素的最终值截断到[0,1],从而获得第二种模态数据。在图4中展示了经过模态图像策略处理后的代表性图像,其中左图为第一个模态的图像,右图为第二个模态的图像。

图4 代表性的两模态图像

3.2 实验结果分析

在实验中分别使用CCA,PLSC,Kernel CCA,GMCCA, Deep CCA以及本文提出的DPLSC对两模态图像数据进行低维融合,并将融合数据约束在10维、20维、30维、40维以及50维后,利用支持向量机对融合数据进行分类,以获得最终的识别结果。从图5中可以看出,随着约束的维度增加,DPLSC的识别率不断升高,并获得比其他方法更好的识别性能。当数据维数达到20以上时,本文中提出的DPLSC方法均获得了最优的识别性能,并且识别率随维度变化同样更加稳定。GMCCA借助图理论能够学习非线性特征,并且随着维数的增加,识别率在50维时获得了比CCA更优的识别率。另外,将Deep CCA与DPLSC的最大循环次数同样设定为100次,从图6能够看出本文提出的DPLSC方法相较于Deep CCA方法能够更加充分的学习两模态数据之间的非线性特征,并取得更大的收敛相关性。上述实验结果可以给出一个合理的观察,DPLSC能够获得更具鉴别力的融合数据,是一种面向识别任务的有效多模态融合方法。

图5 不同维数下的识别率

图6 跨模态相关性随循环次数的变化图对比图

4 总结

本文提出一种新颖的多模态融合方法,即DPLSC,该方法能够在最大化不同模态之间相关性的前提下获得具有强鉴别力的跨模态融合数据,该方法利用深度神经网络克服了CCA,PLSC在数据融合非线性困境,并有效提升了融合高维数据时的融合性能,通过实验表明,DPLSC获得的融合数据相较于其他融合方法的融合结果更具鉴别力,并与Deep CCA相比具有更好的相关收敛性与对于维度变动的稳定性,是一种有效的多模态融合方法。