APP下载

基于机器学习的成分数据补全研究

2019-04-29高雪云

数学学习与研究 2019年7期
关键词:坐标轴式子方差

高雪云

一、引 言

给缺失数据填补一个合理的估计值,可以减小由数据缺失而导致的估计量偏差,结合一定的方法,为数据的缺失值寻找一个或多个尽可能相似的值进行填补,得到完整的数据,由于填补值毕竟是“假信息”,因此,利用不同的信息进行填补,所要追求的只是确定填补方法的有效性和合理性,使估计的填补值尽可能地接近原始的缺失数据值.

二、基于核空间非线性距离敏感重构的主动学习

在大数据时代,机器学习问题中可能涉及的数据量规模是非常庞大的,完全标注所有数据是不现实,也是不必要的.在这一部分,我们将提出一种有效的主动学习算法.该算法可以选择出那些最重要的、最有信息含量的数据点进行标注,使得数据标注更加有效.然后,我们进一步推广了胡尧等人的工作,提出了一种基于核空间非线性距离敏感重构的主动学习算法,能够自动学习数据分布的非线性关系,通过非线性重构进一步扩大标注点的表达能力,从而减少所需要标注的数据点的规模[1].

(一)主成分分析(PCA)原理及其应用

在实际问题研究中,多变量问题是经常会遇到的.变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的.

为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生.为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失.主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法.

(二)奇异值分解(SVD)与主成分分析(PCA)的关系

PCA的全部工作简单点说,就是对原始的空间中顺序地找一组相互正交的坐标轴,第一个轴是使得方差最大的,第二个轴是在与第一个轴正交的平面中使得方差最大的,第三个轴是在与第1、2个轴正交的平面中方差最大的,这样假设在N维空间中,我们可以找到N个这样的坐标轴,我们取前r个去近似这个空间,这样就从一个N维的空间压缩到r维的空间了,但是我们选择的r个坐标轴能够使得空间的压缩使得数据的损失最小.

还是假设我们矩阵每一行表示一个样本,每一列表示一个feature,用矩阵的语言来表示,将一个m×n的矩阵A的进行坐标轴的变化,P就是一个变换的矩阵从一个N维的空间变换到另一个N维的空间,在空间中就会进行一些类似于旋转、拉伸的变化.

Am×nPn×n=A~m×n.

而将一个m×n的矩阵A变换成一个m×r的矩阵[2],这样就会使得本来有n个feature的,变成了有r个feature了(r

Am×nPn×r=A~m×r.

但是这个怎么和SVD扯上关系呢?SVD得出的奇异向量是从奇异值由大到小排列的,按PCA的观点来看,就是方差最大的坐标轴就是第一个奇异向量,方差次大的坐标轴就是第二个奇异向量,由下面的SVD式子:

Am×n≈Um×r∑r×rVTr×n.

在矩阵的两边同时乘上一个矩阵V,由于V是一个正交的矩阵,所以V转置乘V得到单位阵I,所以可以化成后面的式子

Am×nVr×n≈Um×r∑r×rVTr×nVr×n,

Am×nVr×n≈Um×r∑r×r.

将后面的式子与A×P那个m×n的矩阵变换为m×r的矩阵的式子对照看看,在这里,其实V就是P,也就是一个变化的向量.这里是将一个m×n的矩阵压缩到一个m×r的矩阵,也就是对列进行压缩,如果我们想对行进行压缩,同样我们写出一个通用的行压缩例子:

Pr×mAm×n=A~r×n.

这样就从一个m行的矩阵压缩到一个r行的矩阵了,对SVD来说也是一样的,我们对SVD分解的式子两边乘U的转置

UTr×mAm×n≈∑r×rVTr×n.

这样我们就得到了对行进行压缩的式子.可以看出,其实PCA几乎可以说是对SVD的一个包装,如果我们实现了SVD,那也就实现了PCA了,而且更好的地方是,有了SVD,我们就可以得到两个方向的PCA,如果我们对A′A进行特征值的分解,只能得到一个方向的PCA.

(三)利用奇异值分解(SVD)进行图像处理

先对图像进行灰度处理,转化为二维图像,然后利用SVD算法,对图片进行压缩处理,结果分析如下:

秩k越大,图像重构越完善,图像越清晰,但压缩后图片比较大;

秩k越小,图像重构越粗糙,图像越模糊,但压缩后图像比较小.

(四)结语与展望

1.结论

众所周知,國内外学者已提出了很多方法来处理成分数据的缺失值.本文考虑到成分数据的特殊几何结构和成分数据间存在多重共线性和异常值的情况,在K.Hrmn等人提出的k近邻填补法和基于k近邻的迭代回归填补法的基础上,对成分数据的缺失值填补提出了几种新方法.

(1)针对成分数据存在多重共线性的问题,提出了主成分填补法(PCA).通过实例分析和实验模拟可看出无论数据间是否含有多重共线性,PCA填补法的填补效果都比其他几种填补法好.

(2)针对成分数据中含有异常值的问题,提出了基于MCD的稳健主成分填补法(MPCA),用来解决含有异常值的问题,并验证了该方法的稳健性和准确性.

2.展望

当然,仍有一些问题没有得到有效解决,需要进行进一步的研究:

一般地,对含缺失值的多元成分数据来说,多变量填补法比单变量填补法结果更为准确.然而,这样的方法是建立在对多元数据结构的一个合理假设上的,它们有的是基于模型的,有的是基于协方差结构的或是基于距离的.而在实际的应用中,这种假设一般是不合理的.

猜你喜欢

坐标轴式子方差
方差怎么算
用坐标轴平移妙解斜率和(或积)为定值问题
概率与统计(2)——离散型随机变量的期望与方差
活用根表示系数巧求多参数式子的取值范围
计算方差用哪个公式
方差生活秀
三九变九三
巧用仿射变换妙解高考解析几何题