从一阶到高阶的PCA在Hilbert空间的正交展开
2022-09-26延安大学数学与计算机科学学院石美丽
延安大学数学与计算机科学学院 石美丽
在信息化炙热的时代, 对大量及大规模数据进行压缩往往是研究事物的第一步, 而主成分分析作为信息压缩的重要手段之一,在模式识别、推荐系统、图像及视频处理等方面发挥着重要作用。本文在以方差代表信息量的基础上,分别构造了向量、矩阵、张量情形下的主成分,并分析了其特征向量在对应Hilbert空间的正交展开过程。且进一步讨论了三种情形下样本PCA的过程,探究重构过程中矩阵SVD和张量Tucker分解与矩阵PCA和张量PCA的关系。
当今社会是信息爆炸的时代, 我们所感兴趣的东西背后常蕴含着大量及大规模的数据, 而数据压缩往往是进行分析的第一步,因此信息压缩一直是研究热点。主成分分析法作为一种发展成熟、运用广泛的数据压缩办法,分析其内在本质是非常必要的,尤其是在大规模数据(高阶张量)方面的运用。
主成分分析法(PCA)作为一种建立在统计最优原则基础上的分析方法,具有较长的发展历史。它最早是由Pearson[1]在1901年提出的,1933年Hotelling[2]在此基础上加以发展。Hotelling运用拉格朗日乘数法对主成分进行标准的代数推导,他是以相关系数矩阵为基础,而不是协方差矩阵,且没有用矩阵符号表示。Pearson更注重的是计算结果,且此方法要比计算机的广泛运用还早50多年,尽管对于4个及4个以上的变量计算冗长,但依旧可行。虽然计算机发展迅速,但对大量数据的计算还是耗时耗力的。因此奇异值分解(SVD)[3]大大减小了计算量。当然,随着信息时代的不断发展,需要处理的数据规模也不断扩大。Kirby[4]直接将人脸图像拉伸为向量数据,然后运用传统的PCA办法进行特征提取,这不仅破坏了矩阵结构故有的特征信息,还容易发生“小样本问题”。2DPCA[5-6]通过对矩阵进行按行或按列投影,从而实现直接从矩阵提取特征。当然可以同时进行按行和按列投影,即双向PCA[7]的方法,弥补了2DPCA的相对不足之处。随着科技不断进步,张量主成分分析的研究越来深入[8,9],且不同条件下其应用相当广泛,如推荐系统[10]、聚类分析[11]等。
本文一共包括三个部分。第一部分对一些重要运算符号及概念进行说明;第二部分解释向量空间、矩阵空间、张量空间构成Hilbert空间,并描述各种数据在其Hilbert空间中的主成分,以及从总体到样本的介绍与求解过程;第三部分是对本文的总结。
1 基本概念及符号说明
1.1 基本运算符号说明
1.2 矩阵的奇异值分解与张量的Tucker分解
2 PCA过程在Hilbert空间的严格描述
2.1 向量PCA过程在Hilbert空间的严格描述
2.1.1 总体版向量PCA
在统计学中方差表示变异性, 方差的解释程度衡量了对信息的提取大小。PCA过程是一个线性变换的过程,这个变换将原始变量转换到一个新的坐标体系中,使得数据投影的第一大方差在第一主成分上,第二大方差在第二主成分上,以此类推,也就是新的坐标基底按信息量大小来排序,因此我们按变异率最大的方向来找正交基,即
2.1.2 样本版向量PCA
2.2 矩阵PCA
2.2.1 总体版矩阵PCA
2.2.2 样本版矩阵PCA
2.3 张量PCA
2.3.1 总体版张量PCA
自从Tucker在1963年提出张量Tucker分解后,有关于张量的研究越来深入,而其中在数据压缩方面渊源已久。由于张量Tucker分解是SVD的推广,所以将2DPCA与GPCA可以运用到高阶张量中,即多线性主成分分析(MPCA)。
3 总结
本文讲述从本质上理解PCA过程,讨论特征向量在Hilbert空间的正交展开。将最大化主成分这一本质依次推广到2DPCA、GPCA与MPCA中,分别探讨了在总体以及样本情形下特征提取与信息压缩问题, 以及讨论了重构过程中矩阵SVD和张量Tucker分解与矩阵主成分分析和张量主成分分析的关系。此文对PCA统计意义以及几何意义展开讨论,接下来要深入此方面的研究,尤其张量方面,这有助于对实际意义的理解。
引用
[1] PEARSON K.On Lines and Planes of Closest Fit to System of Points in Space[J].Philosophical Magazine,1901,2(11):559-572.
[2] HOTELLING H.Analysis of a Complex of Statistical Variables into Principal Components[J].Educational Psychology,1933,24(6): 417-441+498-520.
[3] HAO F Z,MA L B,ZHANG J M,et al.Distribution Systems Data Compression Based on SVD Method[C]//International Conference on Green Energy and Sustainable Development,2019.
[4] KIRBY M,SIROVICH L.Application of the Karhunen-Loeve Procedure for the Characterization of Human Faces[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,12(1):103-108.
[5] 张彬,帅小应,钱进,等.改进的2DPCA方法在掌纹识别中应用[J].电脑知识与技术,2021,17(29):99-101.
[6] WANG M L,JIANG X W,GAO J B,et al.Minimum Unbiased Risk Estimate Based 2DPCA for Color Image Denoising[J].Neurocomputing, 2021,440(14):127-144.
[7] 何春,郭科.基于双向2DPCA算法的高分五号卫星图像降维研究[J].乐山师范学院学报,2020,35(12):1-7.
[8] 夏志明,徐宗本.基于PCA的信息压缩:从一阶到高阶[J].中国科学(信息科学),2018,48(12):1622-1633.
[9] 夏志明,赵文芝,徐宗本.张量主成分分析与高维信息压缩方法[J].工程数学学报,2017,34(6):571-590.
[10] 廖亮,叶海昌,王新强.张量主成份分析算法在脑医学图像上的应用[J].影像研究与医学应用,2018,2(19):63-66.
[11] 许荣海,王昌栋,基于异构信息网络元路径作张量分解的深度学习推荐系统[J].信息安全学报,2021,6(5):77-87.