基于统计的特异数据挖掘方法
2015-06-10尚珍艳
尚珍艳
摘要:特异数据挖掘的方法很多,但每种方法都有它的局限性,线性回归模型又是现实中应用较广泛的一种,因此本文提出了基于统计的数值和属性特异数据挖掘方法,不仅大大的提高了传统的挖掘方法的效率,还可以通过属性分析特异数据出现的原因。
关键词:特异数据挖掘;线性回归模型;聚类分析
【中图分类号】TP311
1 引言
特异数据是指在数据库中出现次数较少或跟其他数据之间的距离较远的一类数据[1]。它们中往往蕴含着重要的信息,因此如何更好的挖掘出这些数据并分析出现的原因,对人们从全局出发制定相关管理决策有至关重要的作用。而基于统计的挖掘方法是最早的[1],但传统的方法需先假定数据集服从一个随机分布模型,但当数据的分布未知或者不符合标准的分布时,这些方法就失效了。
在统计中,线性模型是最基本的模型,虽在现实中许多变量之间的关系是非线性的,但经过适当的变换后仍可以达到近似的线性关系,鉴于此,主要研究基于线性回归模型下的特异数据挖掘算法。
2 特异数据挖掘方法
2.1 多元线性回归模型[2]
随机变量 与其影响因素 之间的多元线性回归模型用矩阵表示为 ,其中
, , ,
回归模型拟合程度的好坏取决于参数向量 的估计值,而寻找参数向量 的估计值,常用最小二乘估计法,得到回归参数的估计为 。
2.2 基于聚类的数值特异数据挖掘方法
当回归模型拟合度较高时,可用因素的取值作为随机变量的属性值,且在没有异常数据干扰时,它们的效果是一致的,故如果两组数值的分析结果不一致,则必存在特异现象。
聚类分析的主要目标是发现簇,而簇又可看作是特异数据(离群点)的补,故它可同时发现簇和特异数据。但不同的方法会得到不同的簇,因此传统的基于聚类的特异数据挖掘算法依赖于所有簇的个数和数据中特异数据的存在性。鉴于此,提出一种新的基于聚类的特异数据挖掘算法。
算法的實现过程如图1:
2.3 属性特异数据挖掘方法
基于聚类的数值特异数据挖掘方法对于特异数据出现的原因未能解释,需要进一步的通过属性特异挖掘去解释。
对于属性异常挖掘,主要通过高杠杆点集、拟合异常点和强影响点集三个角度挖掘,如图2中的A、B、C点分别为高杠杆点、拟合异常点和强影响点[3]。
2.3.1 高杠杆点集的挖掘方法
2.3.2 拟合异常点集的挖掘方法
不与其余数据相适应的点称为拟合异常点。经验证,学生化残差 服从自由度为 的 分布,故当 时的点为拟合异常点。
2.3.3 强影响点集的挖掘方法
对回归模型的参数估计值有较大影响的点称为强影响点,经验证,设第i个数据点的库克距离 ,故当 时的点为强影响点。其中
总之,属性特异数据挖掘方法的实现过程如图3:
3小结
线性回归模型在分析数据,寻找变量关系的应用中很广泛,具有广阔的应用前景,本文提出的基于统计的特异数据挖掘方法大大的提高了传统的挖掘方法的效率,但它是在无偏估计的基础上进行研究的,因此今后可在有偏估计的基础上进一步研究。
参考文献
[1] Pang-Ning Tan Michael Steinbach Vipin Kumar著.范明 范宏建等译.数据挖掘导论[M].人民邮电出版社,2007
[2] S.韦斯伯格著(Weisberg,S.),王静龙等译.应用线性回归[M].北京:中国统计出版社,1998.3
[3] 孙广山.线性回归模型影响分析及异常点的统计诊断[D].东北林业大学,2011
[4] 赵进文.复杂数据下经济建模与诊断研究[M].科学出版社,2004