典型相关分析综述
2017-04-21李有梅
李有梅,梁 珣
(中国计量大学 理学院,浙江 杭州 310018)
典型相关分析综述
李有梅,梁 珣
(中国计量大学 理学院,浙江 杭州 310018)
数据之间的相关性分析是大数据处理的重要组成部分,典型相关分析及其扩展方法在多个领域得到了广泛应用.主要有用于解决多数据集特征融合的多集合典型相关分析,用于处理特征之间非线性关系的核典型相关分析,用于处理有类别特征数据时的判别典型相关分析,用于处理有噪声数据时的稀疏典型相关分析等扩展方法.本文全面综述了典型相关分析原理及其各种扩展方法,最后对这一方法的研究前景给出讨论和展望.
典型相关分析;多变量特征融合;广义特征值问题
1 简 介
当前的科学技术使得研究人员能够比较容易获得所关注对象的大量数据.如何从海量的数据中挖掘出具有可解释性的结论信息是当前研究热点,特征融合和数据降维是其中一个重要环节.典型相关分析(CCA,Canonical Correlation Analysis)就是这样一种被广泛研究和应用的数学方法.其最早由Hotelling[1]在1936年提出,是研究两组变量之间相关关系的一种多元统计方法.
求解第一对典型变量的问题转化为在典型变量方差为1条件下的下列优化问题[2]:
(1)
对应的特征向量,且corr(U(1),U(2))=λ.
可以看到,传统的CCA只能用于发现两组变量间的线性相关关系.在不同的应用领域,我们往往需要面对更加复杂多样的数据,且变量间的关系也可能是非线性关系.
解决实际问题的需求刺激了CCA方法的蓬勃发展.例如,为了分析变量之间的非线性相关关系,AKAHO[3]首先将核方法与传统CCA结合,提出了核典型相关分析(KCCA);Y.Yamanishi[4]等人在生物医学研究中,面对多数据特征集情形,将KCCA推广到multiple KCCA;在基因组数据分析中,由于基因数据的特征数目一般都远远超过可观测的数目,PARHJOMENKO等[5]提出了稀疏典型相关分析(SCCA),并用于讨论基因的位点与该基因表达类型之间的相关关系;在人脸识别和手写数据识别研究中,SUN[6]等人提出了判别典型相关分析(DCCA),利用离散类别特征数据,实现更有效的特征抽取;当数据存在噪音时,传统CCA便不能很好的对数据进行分析,对此,WANG[7]在FRANCIS[8]基础上提出了贝叶斯典型相关分析(BCCA),随后SEPPO[9]对其进一步改进,并将方法应用于神经数据,分析了大脑激素的变化和自然音乐刺激之间的关系.
许多的应用研究表明,典型相关分析的思想方法是一种灵活有效的、可扩展能力强的数据分析方法.下文将对主要的几种扩展方法给出描述总结.
2 CCA的几种主要推广
2.1 多集合典型相关分析(MCCA)
MCCA(Multiset Canonical Correlation Analysis)有两种形式,第一种是直接应用CCA的思想,将问题表述为在典型变量方差为1条件下的任意两组典型变量之间的相关关系之和达到最大的优化问题,即:
利用Lagrange乘数法,可知此优化问题等同于下面方程组:
显然,当m=2时,上式即为传统CCA.然而上式中因为λi的不同取值,并非一广义特征值问题,求解时需要进行数据变换.
MCCA的第二种扩展方式,是只附加一个总约束条件下的优化问题:
该问题等价于求解下面实对称的广义特征值问题:
这一问题可利用Horst-Jacobi算法[10],迭代求解a(i).求解的简便性使得第二种方法得到更多的应用.Kettenring[11]系统地总结介绍了几种不同约束下的MCCA的模型.
2.2 核典型相关分析(KCCA)
当变量间呈现非线性关系时,传统CCA对数据融合效果不好.解决问题的思路是将原空间的非线性问题转换为高维空间中的线性问题,同时保持所有计算在原问题空间实现.实现这一目的的途径就是核方法.S.Akaho[12]首先将核方法与CCA相结合得到了KCCA(Kernel Canonical Correlation Analysis),KCCA也成为目前常用的分析变量间非线性相关关系的一种方法.首先我们给出核函数的定义:
设Z是Rs中的一个子集,称定义在Z×Z上的函数k(z1,z2)是核函数,如果存在一个从Z到Hilbert空间H的映射φ,使得对任意的z1,z2∈Z,都有
k(z1,z2)=<φ(z1),φ(z2)>成立.其中<,>表示Hilbert空间H的内积运算.
那么典型变量U(1)、U(2)就表示为X(1)、X(2)的如下非线性组合:
则优化问题可写为如下形式:
s.t.β(1)′K1′K1β(1)=β(2)′K2′K2β(2)=1.
或等价表示为下列广义特征值问题:
核矩阵的维数与样本个数相同.在实际应用中,若维数太高或者数据是非独立样本,将导致不能计算出合适的结果.如何选择样本,使KCCA可行,也是需要研究的一个问题.
类似的,KCCA可被推广到多集合KCCA. Yamanishi[4]等人首先将多集合核典型相关分析应用于分析大肠杆菌控制分子结构和异构基因组数据之间的相互关系分析,Nicholas[13]等人应用KCCA得到了卵巢癌风险和控制基因之间的关系,因而确定了对卵巢癌有风险的重要基因对.该方法已被广泛应用于生物医学领域.同KCCA,典型变量U(i)被表示为X(i)如下非线性组合:
则优化问题转化为寻找系数β(i),使得两两相关系数之和达到最大.利用核矩阵,多集合KCCA表示为下面优化问题:
或等价的广义特征值求解问题:
2.3 判别典型相关分析(DCCA)
传统典型相关分析不考虑样本数据类别.当变量组有额外的类别信息时,若舍弃类别信息按照传统CCA方法求解典型变量,无疑是一种信息损失.Sun[6]等人在研究人脸识别和手写数据识别问题时,改进了传统CCA提出了DCCA(Discriminant Canonical Correlation Analysis),充分考虑了同类样本之间的相关性与不同类样本之间的相关性及其对模式分类的影响,并实验证明该方法有效提高了分类识别率.之后Sun[14]等人又对DCCA进行了改进,使得数据有缺失时也能得到很好的效果.Peng[15]等人考虑将数据的局部性质和类别性质相结合,提出了局部判别典型相关分析,并将该方法应用于人脸识别研究.
设两组变量X(1),X(2)的样本集共分c类,则样本集合表示为:
令类内相关矩阵∑w和类间相关矩阵∑b分别定义如下:
其中:I1=diag(1n1×n1,…,1nc×nc)∈Rn×n为分块对角矩阵.
DCCA的目标是寻找典型变量表示系数a(1)和a(2),使得典型变量类内相关系数a(1)′∑wa(2)最大,同时类间相关系数a(1)′∑ba(2)最小.可以证明∑w和∑b互为相反数,则简化后DCCA可以表示为下面的优化问题:
或等价的如下广义特征值问题:
当分类数据集多于两组时,DCCA可推广至下述模型[16].
其中,
k=1,2,…ni,l=1,2,…nj.或等价地:
2.4 稀疏典型相关分析(SCCA)
在基因数据分析中,样本的特征数p远远大于可观测样本数目n,此时协方差矩阵奇异导致应用传统CCA的效果不理想.Sriperumbudur[17]等人将正则稀疏化的思想融入到传统CCA中,提出了SCCA(Sparse Canonical Correlation Analysis).该方法提高了模型的稳定性,已经广泛应用于基因表达等数据分析中,例如Parkhomenko等[5]将SCCA用于讨论基因的位点与该基因表达类型之间的关系;Waaijenborg等[18]将SCCA用于讨论DNA水平上基因网络变化与一些复杂疾病的关系.
SCCA的主要思想,是通过附加系数收敛的约束条件使得典型变量系数中某些分量收敛为0,从而去掉一些对分析结果意义不大的数据变量.SCCA优化形式为:
maxa(1)′∑12a(2)
s.t.a(1)′∑11a(1)=a(2)′∑22a(2)=1,
‖a(1)‖0≤ρ1,‖a(2)‖0≤ρ2.
其中:ρ1和ρ2为常数.
当数据集多于两组时,可表示为如下优化问题:
这类优化问题为NP-hard问题,要通过转化求得一个好的近似解.
Witten等人[19]基于LASSO方法用‖a(i)‖1来代替上式中的‖a(i)‖0,将优化问题转化为:
maxa(1)′∑12a(2)
s.t.a(1)′∑11a(1)=a(2)′∑22a(2)=1,
‖a(1)‖1≤ρ1,‖a(2)‖1≤ρ1.
上式为惩罚性矩阵分解问题(PMD),即可迭代求解,算法见[19].
s.t.a(1)′∑11a(1)≤1,a(2)′∑22a(2)≤1.
上式为一个D.C.约束优化问题,算法见[21].
对SCCA模型的有效求解算法,也是一个需要研究的问题.Kitajima等[22]利用贪婪算法求解稀疏典型相关分析;Colin等[23]应用贝叶斯方法求解稀疏典型相关分析,表明用不同的先验概率模型均可得到稀疏解.
3 结论与展望
从上节的几种CCA扩展方法我们可以看到,典型相关分析的基本思想具备很强的可移植性.在不同的应用场景,表达为不同约束条件下的优化问题,新的CCA应用拓展也不断涌现.比如,在多媒体检索、图像注释和医疗数据分析领域,有标号样本和无标号样本同时存在,研究人员便发展出了半监督CCA(Semi-supervised CCA)[24]方法;针对具备时间序列特征的样本数据,研究人员提出了灰度CCA(Gray CCA)[25],强调新信息优先,以期准确及时反映时间样本的变化趋势;在视频人物动作的分类研究中,人们发展了张量CCA(Tensor CCA)[26],,将传统CCA扩展到多维数据张量上.
在典型相关分析的实际应用中,还会面临协方差矩阵奇异的问题,因此人们提出鲁棒CCA(Robust CCA)[27]和互信息CCA(Informational CCA)[28].这里不再一一列举.
从应用效果看,文献中的实验结论也证明了各种CCA方法的有效性,这也正是近几年来CCA应用拓展层出不穷的原因.随着大数据云计算的蓬勃发展,CCA作为一种重要的数据融合的方法,在多种类数据、海量样本、数据存在噪音、奇异值和缺失值等情形下,CCA应用背景变得更加复杂,人们对CCA求解算法的时效性有着更高的要求.我们期望很快出现更高效、适应面更广的数据融合CCA方法.
[1] HOTELLING H. Relations between two sets of variates[J].Biometrika,1936,28:321-377.
[2] RICHARD A J, DEAN W W.实用多元统计分析[M].陆璇,叶俊,译.6版.北京:清华大学出版社,2008:420-440.
[3] AKAHO S. A kernel method for canonical correlation analysis[J].In Proceedings of the International Meeting of the Psychometric Society,2006,40(2):263-269.
[4] YAMANISHI Y, VERT J P, NAKAYA A, et al. Extraction of correlated gene clusters from multiple genomic data by generalized kernel canonical correlation analysis[J].Bioinformatics,2003,19(Suppl1):323-330.
[5] PARHJOMENKO E,TRITCHLER D, BEYENE J. Genome-wide sparse canonical correlation of gene expression with genotypes[J].BMC Proceedings,2007,1(Suppl1):S119.[6] SUN T K, CHEN S G, YANG J Y, et al. A novel method of combined feature extraction for recognition[C]// 2008 Eighth IEEE International Conference on Data Mining. Portugal:[s.n.],2008:1043-1048.
[7] WANG C. Variational Bayesian approach to canonical correlation analysis[J].IEEE Transactions on Neural Networks,2007,18(3):905-910.
[8] FRANCIS R B, MICHAEL I J. A probabilistic interpretation of canonical correlation analysis[R].Berkeley: Department of Statistics, University of California,2005.
[9] VIRTANEN S, KLAMI A, KASKI S. Bayesian CCA via group sparsity[C]// International Conference on Machine Learning. Washington:DBLP,2011:457-464.
[10] ZHANG L H, LIAO L Z, SUN L M. Towards the global solution of the maximal correlation problem[J].J Glob Optim,2011,49(1):91-107.
[11] KETTENRING J R. Canonical analysis of several sets of variables[J].Biometrika,1969(3):433-451.
[12] AKAHO S. A kernel method for canonical correlation analysis[J].In Proceedings of the International Meeting of the Psychometric Society,2006,40(2):263-269.
[13] NICHOLAS B L, GREGORY D J, MELISSA C L, et al. Kernel canonical correlation analysis for assessing gene-gene interactions and application to ovarian cancer[J].European Journal of Human Genetics,2014,22,126-131.
[14] SUN T K, CHEN S G, YANG J Y, et al. Discriminative canonical correlation analysis with missing samples[C]// Wri World Congress on Computer Science and Information Engineering. Portugal:[s.n.],2009:95-99.
[15] PENG Y, ZHANG D Q, ZHANG J C. A new canonical correlation snalysis slgorithm with local discrimination[J].Neural Processing Letters,2010,31(1):1-15.[16] 王磊,史亚,姬红兵.基于多集典型相关分析的雷达辐射源指纹识别[J].西安电子科技大学学报(自然科学版),2013,40(2):164-171. WANG L, SHI Y, JI H B. Specific radar emitter identification using multiset canonical correlation analysis[J].Journal of Xidian University(Natural Science Edition),2013,40(2):164-171.
[17] SRIPERUMBUDUR B K, TORRES D A, LANCKRIET G R G. Sparse eigen methods by D.C. programming[C]// International Conference on Machine Learning. Portugal:[s.n.],2007:831-838.
[18] WAAIJENBORG S, PC V D W H, ZWINCLERMAN A H. Quantifying the association between gene expressions and DNA-markers by penalized canonical correlation analysis[J].Statistical Applications in Genetics & Molecular Biology,2008,7(1):1-29.
[19] WITTEN D M, ROBERT T, TREVOR H. A penalized matrix decomposition, with applications to sparse principal components and canonical correlation analysis[J].Biostatistics,2009,10(10):515-34.
[20] TORRES D A, TURNBULL D, SRIPERUMBUDUR B K, et al. Finding musically meaningful words by dparse CCA[C]// Neural Information Processing Systems. Portugal:[s.n.],2007:1-8.
[21] YAN J J, ZHENG W M, ZHOU X Y, et al. Sparse 2-D canonical correlation analysis via low rank matrix approximation for feature extraction[J].IEEE Signal Processing Letters,2012,19(1):51-54.
[22] KITAJIMA M, KITAGAWA Y, OHMORI T, et al. A greedy approach to sparse canonical correlation analysis[J].Fems Microbio-logy Letters,1991,66(2):203-208.
[23] COLIN F, GAYEL L. Two Methods for sparsifying probabilistic canonical correlation analysis[C]//Neural Information Processing, International Conference. Portugal:[s.n.],2006:361-367.
[24] ZHOU Z H, ZHAN D C, YANG Q. Semisupervised learning with very few labeled training examples[C]//AAAI Conference on Artificial Intelligence. Vancouver, Canada: DBLP,2007:675-680.
[25] 李雪,林和平,李迎斌.灰典型相关分析研究与应用[J].计算机工程与科学,2009,31(6):121-125. LI X, LIN H P, LI Y B. Research and application of grey canonical correlation analysis[J].Computer Engineering and Science,2009,31(6):121-125.
[26] KIM T K, WONG K Y K, CIPOLLA R. Tensor canonical correlation analysis for action classification[C]// IEEE Conference on Computer Vision & Pattern Recognition. Portugal:[s.n.],2007:1-8.
[27] AN L, YANG S F, BHANU B. Person re-identification by robust canonical correlation analysis[J].Signal Processing Letters IEEE,2015,22(8):1103-1107.
[28] YIN X R. Canonical correlation analysis based on information theory[J].Journal of Multivariate Analysis,2004,91(2):161-176.
Survey on canonical correlation analysis
LI Youmei, LIANG Xun
(College of Sciences, China Jiliang University, Hangzhou 310018, China)
Correlation analysis between data has become an important part of large data processing. The canonical correlation analysis method and its extensions have been widely used in various fields. The multiple canonical correlation analysis is used to solve the feature fusion for multi-data sets. The kernel canonical correlation analysis is used to find out the non-linear relationship between the data. The discriminant canonical correlation analysis is used to analyze the data which carry category information. The sparse canonical correlation analysis is used to solve the data with too many characteristics. In this paper, the principles of the canonical correlation analysis method and its various extensions are introduced. At the end of this paper, the prospects and outlook of the canonical correlation analysis are discussed.
canonical correlation analysis; multivariate feature fusion; Lagrange multiplier method
2096-2835(2017)01-0113-06
10.3969/j.issn.2096-2835.2017.01.020
2016-12-19 《中国计量大学学报》网址:zgjl.cbpt.cnki.net
国家自然科学基金资助项目(No.11301494).
李有梅(1965- ),女,山西省大同人,教授,主要研究方向为数据统计分析.E-mail:li_youmei@cjlu.edu.cn
TP181;O212.4
A