数据挖掘及其软件选择应用
2009-07-02巩军全
[摘 要]本文概述了数据挖掘的定义及其软件的分类,对经典的几种数据挖掘软件进行了详细的介绍,提出了企业选择数据挖掘软件的方法,最后通过分析数据挖掘现存的问题,探讨了数据挖掘软件的发展趋势。
[关键词]数据挖掘 数据库 软件应用
作者简介:巩军全(1978-),男,甘肃甘谷人,天水师范学院经济与社会管理学院教师。
一、数据挖掘的涵义
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程[2]。是从信息海洋中提取有价值的知识,从而帮助企业在业务管理及发展上做出及时、正确的判断,然后采取明智的行动,做到在竞争中占据主动权的新途径、新方法。
二、数据挖掘软件
(一)数据挖掘软件分类
一般来讲,数据挖掘软件根据其适用的范围分为两类[3]:专用数据挖掘软件和通用数据挖掘软件。专用数据挖掘软件是针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑了数据、需求的特殊性;而通用数据挖掘软件不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。
(二)数据挖掘软件介绍
当前推出的通用数据挖掘软件有三十多种[4],下面分别按:软件产品及其特点、应用行业案例等方面详细介绍经典的SAS、SPSS、Oracle、IBM公司的软件产品,以便对挖掘软件有一个比较深刻的认识。
1.SAS的数挖软件Enterprise Miner
平台:Windows NT
功能:EM为所有的模型开发产生全部的记分代码,这些记分代码能够立即应用到新的数据中。优点:图形化的界面,可视化的操作,可导引即使是数理统计经验不太多的使用者也能按照SEMMA的原则成功的进行数据挖掘。缺点:临时文件花费了许多空间,打印决策树比较困难。
应用行业:多用于一些的零售公司。如美国AutoTrader.com是世界上最大的汽车销售站点,每天都会有大量的用户对网站上的信息点击,寻求信息,其运用了SAS软件进行数据挖掘,每天对数据进行分析,找出用户的访问模式,对产品的喜欢程度进行判断,并设特定服务项,取得了巨大的成功。
2.SPSS的数挖软件Clementine
平台:Windows 95, Windows NT.
功能:SPSS是数据清洗、数据挖掘、统计分析工具。优点:界面友好,不需要编程,统计功能强大。缺点:用户很难知道选择存储时存储的是什么信息,即存储输出和存储数据比较容易混淆。应用行业案例:多方位的金融服务商。如美国HSBC银行有多于1.4亿个人银行客户。使用SPSS的数据挖掘工具分析客户,发现模型。三年内增加了15%的销售量,留住了更多的客户,取得很好的效益。
3.Oracle的数挖软件Darwin
平台:Windows NT/95
功能: Darwin支持数据挖掘算法:神经网络,分类和回归树,K-最近邻居、遗传算法、基于记忆的推理(memory-based reasoning)、聚集和贝叶斯算法。优点:第一,高度的可扩展性,由于能够使数据挖掘算法并行实现,所以能够挖掘海量数据;第二,模型能够容易导出,和其他应用集成;第三是Windows风格的客户端易于使用。缺点:缺乏在数据挖掘之前对数据的可视化探索。工作流不能可视化编辑。应用行业:适合专门的数据挖掘和数据仓库市场分析和咨询公司。全球最大的零售商——沃尔玛百货有限公司用Oracle商业智能套件企业加强版在所有经营活动中实现全面的数据智能和分析。
4.IBM的数挖软件Intelligent Miner
平台:Window NT
功能:自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据挖掘操作。优点:Intelligent Miner可以提供一定程度的定制,具有可扩展性,索引的速度很快,具有先进的语言分析能力、聚集和过滤能力、支持并行处理,查询速度很快。缺点:Intelligent Miner图形界面不友好。元数据不开放,结构复杂。文档缺乏错误代码的详细解释。没有对算法的详细说明。应用行业:Bass Export是世界最大的啤酒进出口商之一,每个星期传送23000份定单,这就需要了解每个客户的习惯,如品牌的喜好等,IM很好的解决了上述问题。
总的来说[5],SAS在数理统计分析、数据挖掘方面具有很大的优势,是熟悉统计学并擅长编程的专业人士的首选。与SAS比较,SPSS则是非统计学专业人士的首选。Oracle在全球数据库领域占有很大的份额,在并行计算方面具有优势。IBM在巨量数据的存储方面具有很强的能力,在数据整合速度、并行处理等方面具有优势。
(三)数据挖掘软件的选择 数据挖掘是一个过程,只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合,并在实施的过程中不断的磨合,才能取得成功,因此我们在选择数据挖掘软件的时候,要全面考虑多方面的因素,主要从下面几点进行考虑:
1.数据挖掘的功能和方法。即是否可以完成各种数据挖掘的任务[6],如:关联分析、分类分析、序列分析、回归分析、聚类分析、自动预测等。2.操作的简易性。一个好的数据挖掘软件应该为用户提供友好的可视化操作界面和图形化报表工具,在进行数据挖掘的过程中应该尽可能提高自动化运行程度。3.数据挖掘软件的可伸缩性。也就是说解决复杂问题的能力,一个好的数据挖掘软件应该可以处理尽可能大的数据量,可以处理尽可能多的数据类型,如果在数据量和挖掘维数增加的情况下,挖掘的时间呈线性增长,那么可以认为该挖掘软件的伸缩性较好。4.数据挖掘软件的开放性。即数据挖掘软件与数据库的结合能力。好的数据挖掘软件应该可以连接尽可能多的数据库管理系统和其他的数据资源,应尽可能的与其他软件进行集成;而且开发模型,测试模型,部署模型都要充分利用数据仓库的处理能力,另外,多个数据挖掘项目可以同时进行。5.数据挖掘软件的可视化。 内容包括源数据的可视化、挖掘模型的可视化、挖掘过程的可视化、挖掘结果的可视化,可视化的程度、质量和交互的灵活性都将严重影响到数据挖掘系统的使用和解释能力[7]。
三、数据挖掘软件的发展趋势
(1)Web挖掘;加强对各种非结构化数据的开采,如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采。(2)数据挖掘软件的跨平台系统集成。(3)生物信息或基因的数据挖掘等。(4)可视化数据挖掘;数据挖掘过程中的可视化以使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互。(5)数据仓库系统和Web数据库系统的集成[8];动态数据仓库要具备真正的竞争力,使用者必须预测将要发生的事,而且更要有正确的信息,来驱动想要让它发生的事。(6)数据挖掘中的隐私保护与信息安全的研究。
参考文献
[1]黄勇,曾薇,黄毅。数据挖掘技术在企业管理中的应用研究,福建电脑 2007(4)
[2]李成。数据挖掘技术的应用探析,学术探讨,2008(6)
[3]葛新红。数据挖掘软件应用分析。微计算机应用,2005年第3期:374
[4]田宏政。数据挖掘技术及其应用,IT技术,2007(34)
[5]林宇等。数据仓库原理与实践。人民邮电出版社,2003年1月
[6] Margaret H·Dunham。数据挖掘教程[M]北京:清华大学出版社,2005
[7]刘英。数据挖掘及其应用科技信息 2008(18)
[8]梅薇。数据挖掘初探,中国集体经济 2008(2)