数据挖掘
2018-02-27陈子荣
陈子荣
摘要
本文针对数据挖掘,对其发展历史和基本算法类型做出了简要的介绍,并对其未来发展做出预测。
【关键词】数据挖掘 算法 信息
1 数据挖掘的发展历史
在二十世纪七十年代,电子邮件开始出现,通讯量以每年翻几倍的速度增加,人类社会的信息量增长速度由此开始出现明显的加快,数据挖掘也伴随着网络信息的发展而出现,但是由于受到当时的网络速度的影响,电子邮件的数量和内容仍较少,数据挖掘仍为比较冷门的内容。直到1995年,web技术出现,以其为代表信息发布系统崭露头角并且以极快的速度发展成长,到目前为止这种信息发布系统仍为因特网的主要的应用,电子商务也向更精准更准确的时代迈进,这就要求更为精确的数据搜寻,数据挖掘得到了充分的发展。在第五次APEC会议即亚太经合组织首脑会议上,时任美国总统的克林顿提出了促进电子商务发展的提案,电子商务迎来了历史性的发展,受到了全球的关注。目前,电子商务即EC时代已经到来,Internet也向着商业化信息传递迈进,是商业信息的主要发布和传播者。Internet上所包含的商业信息和其它信息出现了爆炸式的增长,这时候数据挖掘在新时代的电子商务中起到了至关重要的作用。进入二十一世纪之后,saas(Software as a service)一软件即服务这种服务模式开始大规模应用,互联网技术和应用软件技术发展成熟。对电子商务而言这种模式进一步延长了电子商务的商务链,进一步促进了数据挖掘的知识扩增。
2 数据挖掘的算法内容
数据挖掘是通过统计学和算法来进行具体的运作的,通过统计学进行抽样和估计并提出假设,再通过包含多个学科的算法来进行具体的数据处理。进行数据挖掘,其算法步骤一般包括以下内容:
(1)分类或估计。首先数据挖掘分类技术对已有数据进行确定好类别和数目的分类,在处理连续值的时候可以采用估计的方式,通过对已知数据的处理估算出未知量的值。估计可以作为分类的前一步工作。
(2)预测。
(3)相关性分组或关联规则。将具有相关性或同時发生性的数据进行合并分组。
(4)聚类。与分类不同,根据数据里包含的内容将数据聚为几类,不进行预先的类别确定。
(5)数据描述和可视化处理。这一步是对数据挖掘的结果描述。通过具体的工具对数据进行直观的展示。下面介绍具体的算法。
2.1 决策树法
决策树是分类过程的一种,通过树状流程图的形式来进行,罗斯昆(J.Ross Quinlan)所提出的ID3算法便是决策树法的一种,之后在此算法的基础上又出现了目前应用较广的C4.5型算法,该算法继承了ID3算法的优点,除此之外还还有随机森林法。决策树法适合处理非数值型的数据,并且其对于数量规模较大的数据处理及其合适。决策树法比较容易理解,构造决策树的过程也较短,分类的速度快。
2.2 遗传算法
遗传算法基于的理论为进化理论,它利用了遗传学中的遗传交叉变异、自然选择学说等规则,并利用了适者生存原理。遗传算法易与其它类型的模型相结合应用,并且可以同时处理多种数据类型,处理速度较快。但是遗传算法计算量是比较大的,运用遗传算法所需要的参数数据量很大。在其它技术难以对问题进行解决时通常会使用遗传算法。
2.3 关联规则法
关联规则是描述事物与事物之间的相关性和依赖性的,该算法的代表算法为Apriori算法。Apriori算法由R.AGRAWAI等学者提出,是一种影响力最大的挖掘布尔关联规则(非数值型关联)频繁项集(全部支持度大于最小支持度)的算法。该算法较为简单,对数据的要求也不高,但是缺点也比较明显,如在计算支持度时会对数据库中的全部记录进行扫描,会增大计算机系统的开销等。此算法在商业领域、移动通信领域等领域的应用极其广泛。
2.4 神经网络法
神经网络法是通过对生物神经系统的模拟,通过模仿其结构和各个结构的功能来进行非线性的预测。神经网络法可以完成多种数据挖掘任务,例如分类聚类等。该方法通过对权值的修改来进行具体的学习。神经网络法对干扰的抵抗力比较强,并且能够进行非线性的学习,对较为复杂的情况也具有较良好的处理能力。但是这种方法的学习过程是不可控和不能观察的,容易出现错误和漏洞,对输出结构的解释也较为困难,并且整个学习过程也需要耗费较多的时间。这种算法在聚类中比较常见。
2.5 粗糙集法
粗糙集理论是由波兰科学家Z.Pawlak创立的数据分析处理理论,在国际数学和计算机界受到了相当的重视。该理论的核心内容是集合,是处理模糊、不精确或者不完整不完备的信息的有效工具。其算法很简单,但是粗糙集法很难直接处理连续的属性的信息。
3 数据挖掘的应用
目前数据挖掘得到了充分而迅速的发展,现在的数据挖掘热点在于各种大数据的精确挖掘,例如网站上的数据挖掘,如上文提到的电子商务内容对生物的基因信息进行数据发掘;从大批量文本中进行数据挖掘等。未来的发展趋势很大程度上也会沿着这三个方向进行进一步的发展和完善。我国的数据挖掘尚不成熟,处于发展阶段,但各行各业对于数据挖掘的重视程度正逐步提高,对数据挖掘的研究和应用也越来越广泛。
4 总结
数据挖掘是一个常见而好用的数据处理工具,在如今的电子商务时代和大数据时代并行的时代背景下显得尤为重要,目前国内外对数据挖掘的热度正逐渐上升,多个数据量大且对数据处理需求较大行业已经开始应用数据挖掘来进行辅助决策,数据处理在日常的数据分析中也开始逐步应用。但是就目前而言数据挖掘还存在着许多缺憾和不足,例如在数据量非常大时数据发掘的速度和效率亟待提高、动态数据的挖掘方式不足、对多数据类型的挖掘方法不够等。作为数据的分析者,必须理解和掌握数据挖掘的原理和使用方法,熟练和合理的应用数据挖掘,从而能解释和应用最终的到的数据挖掘结果,使得数据挖掘能真正有利于自己的工作,服务于行业。
参考文献
[1]陕粉丽.数据挖掘技术的研究现状及应用[J].现代企业教育,2008(06):101-102.
[2]陶翠霞.浅谈数据挖掘及其发展状况[J].科技信息,2008(04):72.
[3]陈娜.数据挖掘技术的研究现状及发展方向[J].电脑与信息技术,2006,2(01):46-49.