试分析数据挖掘中的统计方法及其应用研究
2015-05-30吴春瑾
作者简介:吴春瑾(1989.10-),女,汉,山东菏泽人,中国人民大学在职研究生,本科,研究方向:统计-数据分析。
摘要:随着我国的经济的不断发展,很多技术也有了很大的进步,对于数据的挖掘技术也是如此,统计方法是数据挖掘技术中最基础的也是最重要的一种统计方法,并且基于此也产生了很多数据挖掘的新的方法,所以研究数据挖掘中统计方法的应用非常的有必要,不仅能够给数据挖掘的工作者提供意见,也可以进一步发现数据挖掘中存在的特征,为今后的研究者提供理论依据。本文就针对数据挖掘中的统计方法以及应用研究进行探讨。
关键词:数据挖掘;统计方法;应用
前言
随着社会的发展,对数据的需求量越来越大,对于原始数据的选择尤其重要。如何选用合适以及高效的数据处理技术,是当前人们需要解决的问题,所以在此之后,人们应用了数据挖掘技术,它的出现给数据的选择带来了新的篇章。
数据挖掘主要是对数据进行采集、数据进行处理分析、数据的知识的表达以及应用服务等几个模块组成。在这几个模块中,基础版块是对数据进行采集,关键是对数据进行处理以及分析,表达形式是数据的规则以及知识,最终目的是知识应用以及服务。现行世界中的很多原始数据都是以及被污染了的,所以在进行数据挖掘的时候肯定会遇到很多不合理的数据,所以要求我们对收集来的数据严格审查,选择什么样的数据,怎么样进行数据处理,如何才能保证在统计分析的应用前提下实现数据挖掘,这都是我们需要考虑的问题。
一、数据挖掘技术
1. 理论
数据挖掘技术,通俗意义上说就是从海量的数据中获取自己需要的有价值的数据。我们现实社会中接触到的大量数据一般都会具有不完整性、随机性、以及模糊性的特征,这些都是没有经过处理的数据。对于我们来说,这些数据的价值并不高,所以必须要通过数据挖掘和分析将这些新型变化为有用的、潜在的、新颖的数据。这个过程就是数据挖掘。
2. 特点
数据挖掘是一种信息的转变过程,包含了很多学科,包括了数据库的统计、神经网络、数据库等内容,在统计方面应用比较广泛。主要步骤是:准备数据——挖掘数据——分析结果和总结。
数据挖掘的主要功能可以有分类数据,对数据进行预测、数据进行总结等。而且其也具有自己的特点:
处理的数据源比较庞大;能够自动获取信息功能;能够描述过去以及对未来进行预测;数据信息反馈及时可靠。
二、数据挖掘方法的研究现状
当前数据挖掘的研究国内外都比较多,在据此的十多年内,很多专家和学者都在进行这方面的工作研究:
(1)基于统计方法的对复杂数据进行挖掘
尚文娟在2005年提出了新的数据统计方法多元可加回归树方法,并且被应用到了复杂的数据挖掘中,形成了复杂数据挖掘的一个框架。在2008年,在原有的复杂数据挖掘上,应瑞飞,提出了聚类分析,改变了经典的Q型因子模型,这是一种新的海量数据的聚类方法,称为Q型因子聚类法。此后学者们还提出了网页分块来抽取数据的数据挖掘方法。
(2)支持向量机基础下的一种挖掘方法
杨铁建做了这方面的研究,写出了其专研成果,胡运红也在2012年综述了国内外这方面的研究。
(3)神经网络基础下的数据挖掘
这主要是针对反馈输入的BP神经网络进行了研究,解决了水文预报中的一些误差问题,为水文预报作出了很大的贡献。
(4)遗传算法下的数据挖掘方法
肖冬荣等人对这方面进行了研究,主要是应用与分析交通运输事故的原因,提高了数据的效率。
三、数据挖掘的内容
当前信息化工程发展迅速,很多城市都在进行数据库的建设,一些城市以已经开始进行建设,一些城市还在筹备之中。小型的数据库,我们熟知的Access、FoxPro都是属于数据库软件,大型数据库一般都是以oracle系统为主。当前很多大型企业都有自己的数据库,还有就是在Web下的数据统计库。这些数据库都可以手机来自不同数据源的数据信息,然后对数据进行清理、变换、集成、然后进行刷新,这就构成了一个大型的数据储存库,为数据的下一步挖掘提供了很好的基础条件。数据挖掘的主要内容有以下:
(1)对时间序列类数据的挖掘
时间序列数据,顾名思义,就是存放随着时间的变化的序列值数据的数据库,一般包括月度、季度以及年度变化的数据库,因为这些数据都是经历了时间的洗礼的,所以更显的弥足珍贵。对于一些国家的经济和社会的发展有着非常重要的意义,给国家的发展提供了很好的参照。还有一些数据是针对企业的财务状况进行反映的。
通过时间序列的数据的挖掘,我们可以了解到研究对象的一个发展趋势以及变化的特征,以及相互之间存在的关系,利用这些数据可以进一步进行分析和研究。
(2)截面数据的挖掘
这个数据主要是说在同一时间上有着不同的数据指标的数据库,主要包括省市,城市、县镇地区的宏观经济指标的数据,具体的说来有一些数据还包括了不同家庭以及居民的行为指数,可以反映出个体的差异性。
对截面数据进行挖掘,可以有效的发现不同的个体之间存在着的差异性,以及他们之间存在的量化关系。
(3)对统计信息数据库进行挖掘
国家的发展离不开统计信息数据库,它包括对国家、经济、科技这些方面的统计,通常作为国家发展的重要信息以及。当前统计工作信息是各个政府部门的工作重点,小型的数据分析一般采用FoxPro来进行数据统计,对于大型的数据一般采用oracle大型数据库进行数据储存。另外一些报表的处理、报表的统计排版等应用软件也大量被应用到统计信息的挖掘中。在企业中也十分重视数据的挖掘。通过统计数据的挖掘,政府可以掌握国民经济的动态,企业可以实时把控企业的经营状况。
(4)统计普查的数据库挖掘
普查对于我们来说并不陌生,在我国普查很多,最常见的就是人口普查,这是国家掌握国情的一个重要的方式。除了人口普查以外,还有农业普查、工业普查、工作设备铺场等等。对于普查来说,并不是经常会进行的,因为这种普查耗费的人力和物力太多,所以一般都不经常采用。这种方式挖掘的数据具有真实可靠,以及有价值的特点。
(5)抽样调查数据库挖掘
在社会的发展过程中,如果全部进行数据调查,花费的人力物力是不可预计的,所以这时候就需要抽样调查,选用抽样调查获得数据的真实性比较可靠,并且还能够有效的节约人力和物力,毕竟具有速度快的优点。在抽样调查中,需要设计好事先的抽样框,这样就能够体现出一种随机性的原则,获取的数据就比较有价值。通过抽样调查,可以对社会经济状态进行了解,特别是对于居民的生活水平有很好的掌握,从而做出社会发展的决策。
四、统计数据挖掘的方法及应用
当前世界是一个信息化的世界,换言之就是一个数据交换的世界,大量的数据被储存在中心数据储存库中,近几年来,大量学者对这些数据的挖掘方法进行了研究。主要的挖掘方法有以下:
(一)统计数据挖掘的方法
(1)关联分析法
这种挖掘方法主要是在数据库中发现有价值
属性以及存在着关联的数据。这种方法有效的减少了难懂以及无章可循的数据,将其变成少量,以及能够方便观察的静态资料。这种方式当前主要应用在商业领域,最经典的是购物篮分析。在实际生活中不同的分类标准可以产生不同的分类方法,而且可以采用多种算法,如表4-1。
(2)分类方法。这是在数据挖掘中一种很重要的挖掘方法,同时它是一种很高效氯的分析方法,在进行数据挖掘中主要采用决策树来进行分类。主要是为了对数据进行测试然后将其分类,决策树的学习是数以一种递归的学习,采用一种自上而下的方式。决策树的算法主要有以下几种:
表4.2决策树算法
决策树算法使用分析算法分析
ID3算法、C4.5、C5.0、分类回归树具有描述简单、实用方便,适合进行大规模的数据处理采用分支策略,这其中ID3算法是一种典型。
KNN法 适合分别类别交叉和重叠的分样集合K最相邻的方法,在类别决策中运用最大,算量很大。
Reverse KNN 法适用于一些样本容量类别是自动分类的,并且容量较小,所以容易出现分类分错。可以降低KNN中的计算复杂难度,提高效率。
Bayes方法。样本必须具有独立的性质,而且足够大一种在已知先验概率与类条件概率的情况下的模式分类方法。需要获得类别总体的概率分布。
(3)聚类分析方法。聚类分析方法又叫做群分析,是一种统计分析方法,主要针对样品和指标的分类的研究。在商业领域中一般采用的是不同的聚类的分析方法,在这种聚类分析方法中又可以分为四种分类方法:基于模型的聚类方法、基于密度的聚类方法、基于分层的聚类方法以及基于网格的聚类方法。在现实生活中,根据需要对聚类分析法的算法有很多种,这里就不具体进行阐述了。
(4)预测方法。这是一种能够挖掘连续数值数据的以及对预测知识的重要方法,传统的预测方法主要有这几种:时间序列方法、灰色系统模型分析、马尔科夫分析方法、线性于非线性回归模型分析法。对于当前的预测方法主要是采用两种算法来进行数据的计算,神经网络和支持向量机算法,可以用来对未来数据的走向进行预测,在商业领域主要是应用到销售中。
(二)数据挖掘方法的具体应用
(1)在商品零售中的应用。商品零售中,最早使用的是关联分析法,在1994年就在美国被采用。主要是对零售商店内的货架货物的摆放规则,以及零售业的数据挖掘进行开发。前文提到的“购物篮分析”就是一种典型的应用。
(2)在保险业、金融业、通信业中的应用。近些年来数据挖掘在保险行业、金融业、通信业中的数据挖掘应用比较多,在保险行业主要是保险客户进行评估应用。银行中主要是,对银行信用卡的客户的信用进行评级,以及对银行客户关系进行管理。通信行业主要是对用户行为进行精确分析。
(3)生物制药、基因方面的研究。主要是应用到DNA相似搜索,以及基因序列进行分析,同时在生物方面可以对生物数据的可视化进行挖掘,以及蛋白质等项目的数据进行预测。生物制药中主要是应用到试药分析、趋势分析等等。
五、讨论
经过上述分析,我们能够清楚的发现统计分析是数据分析中的一个重要的工具,当前是信息时代,对于数据的需要非常的大,所以对于数据的挖掘方法研究更应该投入更多的人力和物力。(作者单位:中国人民大学)
参考文献:
[1]崔广风. 数据挖掘中的统计方法及其应用研究[D].西南石油大学,2014.
[2]殷瑞飞. 数据挖掘中的聚类方法及其应用[D].厦门大学,2008.
[3]唐志航. 可拓数据挖掘方法及其应用研究[D].东华大学,2009.
[4]牛力. 数据挖掘中的统计分析技术应用研究[J]. 广西师范大学学报(哲学社会科学版),2002,S1:226-229.
[5]董彩玲. 几种典型数据挖掘方法及其应用研究[D].山东大学,2010.