浅析数据挖掘技术以及其应用
2017-11-22龚舒蕾
龚舒蕾
【摘 要】随着信息时代的到来,伴随着众多大数据库的建立涌现出大量的数据,所以人们迫切需要一个数据分析工具,可以强有力地帮助他们解决问题。因此,数据挖掘成了数据库和商务智能领域的焦点,它所含有的各种分析方法都有其利弊,本文就数据挖掘技术的不同方法及应用作了分析。
【关键词】数据挖掘;分析方法;应用
一、基本概念分析
(一)技术上的定义
数据挖掘指的是把大量且不完全的数据从数据库中提取出潜在的还没有被人发现的,但具有内在价值的信息的过程,通常这些数据是随机的。
(二)商业角度定义
商业数据库中存在着大量的数据,要利用技术提取有用的数据,并通过模型化处理将其转换并分析这是数据挖掘的最主要的特征。
数据挖掘最主要的特点是在对许多存在于商业数据库中的数据进行提取、转换与分析其他模型化处理,在这个过程中人们可以获取对商业决策起辅助性作用的十分关键的数据,它是全新的对商业信息进行处理的技术。
在已有人工智能、模式识别等技术的基础上,人们发展了数据挖掘,可以十分自动化地对存在于企业的数据进行分析,进行整合性的推断,然后发掘出这些数据隐含的价值的模式,有助于企业对市场策略进行调整,降低风险,从而提高决策的正确性。
(三)数据挖掘的过程
数据挖掘需要经过很多次人机交替处理,是一个不断迭代出现的过程。进行数据挖掘需要经过需多个步骤,并且依赖于用户提供的决策。宏观上来看,搜集数据、探求数据间的规律、表示规律组成了数据挖掘过程的三个重要部分。
二、数据挖掘的分析方法
(一)关联分析
关联分析指的是在两个或者多个物体之间存在某种关系的情况下,其中一个事物可以进行预测通过其他的事物。关联分析可以对数据间隐含的关联进行挖掘。关联规则分为两类:一类是“多维关联规则”,另一类是“单维关联规则”。
(二)分类与预测
分类与预测是用在挖掘与描绘十分重要的数据类或者用以对数据未来趋势预测的模型,是数据挖掘形式的组成。首先,要把已经被分好类的训练集从数据中提取出,再在这个训练集中通过分类技术将分类模型建立,把还未被分类的数据进行分类。一般情况下,只有先通过分类,预测才可以发挥作用。这就意味着,经过归划得到的模型适用于对未知的变量的预判。
这种情况下,不是必须要把预言单独归为一个类,预言是用来预测未来的未知变量的,这会花费一定时间,即只有经过一段时间之后,人们才能知道预言的精确性程度。
(三)聚类分析
聚类分析是指通过静态分类把多个相似的对象分成不同的子集或组别,所以同一个子集中的各个对象可以有类似的属性。通常情况下,数据集里的数据不会有预先设置的类别标号。经过聚类分析,要最大程度上保证相同类别的数据间的高类似性,相反,属于不同类别的数据间的相似性要较低。
在聚类分析的过程中,样本之间的相似性通常可以通过分析样本见的距离得出。若两个样本差异性很大,则他们的距离也会很远;若两个样本很相似,则他们两个间的距离会很小,差异性也小。当然也有特例,如果两个样本之间的距离是零,那么这两个样本没有差异,完全一样。
1.聚类分析在数据挖掘中的作用
人们通常用聚类分析对已经得到的数据进行分析获取数据分布的情况。第一步是要获得簇,这就要对已经得到的数据集合进行聚类;之后可以获得数据集合里每一类数据的分布状况通过分析每一个簇里的样本数目。作为其他数据挖掘算法的预处理步骤。实行第一步就是对已有的数据进行粗分类,然后要对每个簇的特征进行提取及细分类,这样的话就可以提高分类的精度。
2.常用的聚类分析方法
把距离作为数据集里不同的数据之间相似性的度量指标是划分法的特点,把数据集划分成多个簇。属于这样的聚类方法有:k-means、k-medoids等。k-means算法的评价准则是误差平方和准则。若要使各个聚类的类内紧凑,各个聚类之间尽最大可能分离,就可以让误差平方和达到最小,即最优状态。
由于最初选取出的聚类中心会引起k-means算法结果发生很大的变化,对噪声有一定的敏感度,所以不适合用来寻找非球状簇。在一个数据集中,通常以它来对聚类结果好坏进行评定,普遍情况下,对于任意一个数据集,k-means算法只可以达到局部最优,无法实现全局最优化。有好的可延伸性是该算法的优点,缺点是簇的个数是需要提前给定的,但很难确定。
层次法指的是一层一层的分解给定的数据集,由此可以形成一个像树状的聚类结果。起初就对每一个样本进行划分,分成单独的组这是一种聚类方法,即从底部向上聚类,然后它们按顺序合并相似的组,若所有的组或是样本都被合并了或达到终止的条件了,则聚类停止。AGNES算法是他的代表算法。还有一种是在开始的时候在一个簇中集合所有的样本,这就是自顶向下的聚类,然后迭代被依次执行,在执行的每个步骤会出现很多个小簇,他们是由每一个簇分裂而来的。当每个样本被分到一个单独的簇里或是满足了终止条件,那聚类就停止,DIANA算法就是其代表算法。层次聚类的特点是只要变量被分了类别,那分类结果就不会再被更改。
三、数据挖掘技术的应用
(一)数据挖掘技术在高校中的应用
纵观教育现状,由于扩大了招生的规模,所以许多学校的学生人数日益增长,有的学校甚至招收了几万名学生,这就导致了大量数据的产生,例如十几万关于考试成绩的数据,以及受到其他除学生成绩外的因素影响,人们迫切需要一种新的分析考试成绩的方法来满足日益增长的数据所引起的需求。所以,数据挖掘技术的引入可以很好地解決此类问题,挖掘出真正影响学生成绩的原因,响应地制定出措施,这样可以很好地提高教学质量。
(二)银行业
对于银行风险管理以及客户的管理存在的问题可以使用数据挖掘技术解决。通过数据挖掘,可以对客户的信用风险进行评估,构建信用的评级模型对贷款申请人进行风险评估。直观的量化的技术还可用于评估银行账户的信用。信用评分就是应用数据挖掘的模型来为各个指标评分,申请人的信用状况可以由加总得出。对于银行业来说数据挖掘技术是不可缺少的,因为在管理客户的每个步骤终都需要运用到,可以方便银行获取潜在客户并保留已有的客户且对客户的服务进行优化。
(三)零售企业
数据挖掘可以让零售业进行商店定位,促进商品的关联组合,还可提高客户的忠诚度与有效的监测市场并营销。因为科技的发展,网络渗透入零售业中使其发生了很多变化。现在,由于很多分店的业绩不一样,用数据挖掘可以发掘出影响业绩的重要因素以及来改善。发现商品之间的关联可以促进销售,因为商户可以根据数据挖掘的结果最优化组合。商业成功的必要因素就是拥有忠诚的客户,经过了解和分析已有客户,可挖掘客户的购买最大潜力,拥有更多的潜在客户。
【参考文献】
[1]邵华.基于决策树的海量时序不均衡数据下预测系统的研究.2004.东北大学.
[2]王浩莲.数据挖掘术探究.2005年3期.新疆石油教育学院学报.
[3]范联伟.浅谈聚类分析在大数据分析中的应用.2014年17期.中国电子商务.
[4]李如平.数据挖掘中决策树分类算法的研究.2010年2期.东华理工大学学报(自然科学版).
[5]何燚.计算机数据挖掘技术对数据库处理能力的探讨.2015年1期.华人时刊(中旬刊).
[6]王娅纷.数据挖掘浅谈.2009年25期.电脑知识与技术.
[7]汤静煜 洪玉峰.数据挖掘技术及工具的发展和应用.2004年12期.浙江统计.endprint