数据挖掘技术分析
2011-08-15琼台师范高等专科学校
琼台师范高等专科学校 周 密
数据挖掘技术分析
琼台师范高等专科学校 周 密
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,数据库中的信息量在不断增加。人们面对“被数据淹没,却饥饿于知识”的挑战,为此,数据挖掘和知识发现(DMKD)技术便应运而生,并得到了蓬勃发展,日益显示出其强大的生命力。
一、数据挖掘的定义
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。而且,还有很多和这一术语相近似的术语,如,从数据库中发现知识(KDD)、数据/模式分析、数据考古和数据捕捞等。数据挖掘又是一门非常广义的交叉学科,它汇聚了不同领域,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的知识。 简而言之,数据挖掘就是一类深层次的数据分析的方法。
二、数据挖掘的任务
数据挖掘的任务就是从数据集中发现模式。按其功能可分为2大类:预测型模式和描述型模式。在实际应用中,往往根据模式的实际作用又可分为以下几个分类。
1. 用于预测事件所属的类别。其中,样本数据中包含标识样本事件所属类别的数据项。类别是已知的,由数据挖掘根据样本数据构建对这些类别模式的描述。再利用所发现的模式,参照新的数据的特征变量,将其映射到已知类别中。其中,样本数据中不包含类别变量。数据挖掘将具有共同趋势和模式的数据元组归类。
2. 聚集为一类。使类内各元组相似程序最高,类间差异最大。
3. 关联分析。关联分析用于发现给定事件或纪录中经常一起发生的项目,由此推断事件间潜在的关联,识别有可能重复发生的模式。
4. 序列模式。序列模式与关联分析类似,只是扩展为一段时间的项目集间的关系常把序列模式看作由时间变量连接起来的关联序列分析,从而能分析长时间的相关纪录,发现经常发生的模式。
三、数据挖掘的过程
1. 确定业务对象。清晰地定义出业务问题,并认清数据挖掘的目的,是数据挖掘的重要一步。挖掘的最终结构是不可预测的,但要探索的问题应是可预见的。为了数据挖掘而数据挖掘带有强烈的盲目性,是不会成功的。
2. 数据准备。
(1)数据清理。即消除噪声或不一致数据。
(2)数据集成。即将多种数据源组合在一起。
(3)数据选择。即搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。
(4)数据变换。即将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
3. 数据挖掘。即对所得到的经过转换的数据进行挖掘。除了完善和选择合适的挖掘算法外,其余一切工作都能自动地完成。
4. 模式评估。数据挖掘出现结果后,需要对结果进行解释和评估,以保证数据挖掘结果在实际应用中的成功率。具体的解释与评估方法一般应根据数据挖掘操作结果所制定的决策成败来决定。其使用的分析方法一般应由数据挖掘的操作而定,通常会用到可视化技术。
5. 知识表示。数据挖掘的结果经过业务决策人员的认可,才能获得实际利用。只有通过对数据挖掘知识的应用,才能对数据挖掘最终的成果做出正确的评价。数据挖掘结果要能在实际中得到应用,需要将分析所得到的知识集成到组织机构中去,使这些知识在实际的管理决策分析中得到应用。
四、数据挖掘过程中的常用技术
1. 聚类分析。聚类分析是根据所选样本之间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的样本则相异。常用的技术有分裂算法、凝聚算法、划分聚类和增量聚类。聚类方法主要有层次方法、基于密度的方法、基于网络的方法、基于模型的聚类方法等。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价。此外,聚类分析还用于对孤立点的检测。有时进行聚类不是为了将对象相聚在一起,而是为了更容易地使某个对象从其他对象中分离出来。聚类分析技术的关键除了算法的选择之外,就是对样本的度量标准的选择。并非所有聚类分析算法得到的类对决策都是有效的,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
2. 决策树。决策树是一种针对人工智能开发的有指导性的归纳学习方法,它通过将大量数据进行有目的地分类,从中找到一些有价值的、潜在的信息。决策树以及决策规则属于以逻辑模型方式输出的分类方法,主要用来解决数据挖掘中的分类和预测问题,其归纳学习的目标是建立一个分类模型(也叫分类器)。它能够为含有数值型和分类型的数据集建立模型,且无需预先对数据性质做出假设,决策树方法简单易懂且精确度高,已经成功应用于解决现实问题。决策树方法的局限性在于它不允许输出多个属性,且只能输出分类型,由于数值型数据的属性分裂时往往是二元分裂,因此用决策树方法处理时会相当的复杂。另外,决策树算法缺乏稳定性,也使其运用受到限制。
3. 关联规则。关联规则是一种简单、实用的分析规则,它描述了一个事物中某些属性同时出现的规律,是数据挖掘中最成熟的技术之一。最经典的关联规则挖掘算法是Apriori算法。该算法是一种布尔关联规则频繁项集的算法,即用一种逐层搜索的迭代方法,k-项集用于探索(k+1)-项集:首先找出频繁1-项集的集合,然后利用前者找出2项集的集合,如此迭代,直到不能找出频繁k项集,最后由频繁项集产生关联规则。关联规则在数据挖掘领域应用很广泛,适用于在大型数据集中发现数据之间有意义的关系,原因是它不受只选择一个因变量的限制。关联规则在数据挖掘领域最典型的应用是购物篮分析。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系, 所挖掘出的关联规则量往往非常巨大。但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值。如何对这些关联规则进行有效评价,筛选出用户真正感兴趣的、有意义的关联规则,则显得尤为重要。事实上,任何一种挖掘工具往往是根据定义的业务问题来选择相应的挖掘方法,很难说哪种方法好,那种方法不好,而是要视具体问题而定。每种方法都有其擅长的方面,数据挖掘工作者应该根据实际情况而选择。
五、数据挖掘的应用
1. Web的数据挖掘。Web上有海量的数据信息,怎样对这些数据进行复杂的应用便成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃无用的数据,是数据挖掘技术的最重要的应用。显然,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。因为它面临如下诸多挑战:
(1)对于有效的数据仓库和数据挖掘而言,Web的存储量实在是太庞大了。
(2)Web页面的复杂性远比任何传统的文本文档复杂得多。
(3)Web是一个动态性极强的信息源。
(4)Web面对的是一个形形色色和广泛的用户群体。
(5)Web上的信息只有很小的一部分是相关的或有用的。
2. 文本的数据挖掘。在现实世界中,可获取的大部分信息是存储在文本数据库中的,由来自各种数据源的大量文档组成。由于电子形式的信息量的飞速增长,文档数据库也随之飞速发展。文档数据库中存储最多的数据是所谓的半结构化数据,它既不是完全无结构的,也不是完全结构化的。在最近的数据库研究领域中已经有大量关于半结构化数据的建模和实现方面的研究。而且,信息检索技术也已被用来处理非结构化文档。传统的信息检索已经不适应日益增长的大量文本数据处理的需要。因此,文档挖掘就成为数据挖掘中一个日益流行且十分重要的课题。
六、数据挖掘技术展望
当前,数据挖掘研究方兴未艾,数据挖掘的研究还会形成更大的高潮,研究焦点会集中到以下几个方面:应用探索、数据挖掘语言的标准化、可视数据的挖掘、生物数据挖掘、Web挖掘、实时数据挖掘、分布式数据挖掘等。
但是,无论如何,只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务。也只有发展到这个阶段,数据才能够真正成为与物质相媲美的资源,信息时代也才会真正到来。