APP下载

基于关系型数据仓库数据挖掘的实现

2009-09-02肖玉朝

中国科技财富 2009年14期
关键词:数据仓库数据挖掘

摘要:面对“人类被数据淹没,人类却饥饿于知识”的挑战,本文从数据挖掘的涵义与作用入手,简单描述了关系数据库数据挖掘系统的结构与基本原理,并且对基于SQL Server2000关系型数据库中数据进行数据挖掘的实现进行了详细而全面的阐述。

关键词:数据仓库;数据挖掘;联机分析处理

1引言

当今世界,随着计算机技术与数据库技术的快速发展,全球范围内的数据仓库中数据储存量急骤上升,“海量数据”背后蕴含了大量潜在的信息与商机,一直以来,缺少一种能对海量数据进行深层次分析的技术,导致了“数据丰富但知识匮乏”的现象。另一方面,关系型数据仓库也已经在各个领域得到了广泛的应用,基于关系型数据仓库的数据挖掘技术具有十分广阔的发展前景。

2数据挖掘及其系统结构

2、1数据挖掘的涵义

数据挖掘是一门刚刚兴起的多学科综合的新生技术,起步较晚,但发展迅猛。目前还没有形成一个完整统一的定义,虽然数据挖掘的定义有多种版本,但是其核心内容大致相同。例如:美国SAS研究所在1997年提出数据挖掘是“在大量栩关数据基础之上进行数据探索和建立相关模型的先进方法”的概念;1999年Bhavani提出新的概念,认为数据挖掘是“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。随后在2000年Handetal也给数据挖掘下了一个定义,他认为“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。

综合上面的捕述,笔者认为数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。这些信息是可能有潜在价值的,支持决策,可以为企业带来利益,或者为科学研究寻找突破口。

数据挖掘综合了多个学科技术,具有分类、聚类、关联规则与序列模式的发现、预测、偏差的检测等五大功能,这几项功能并不是相互孤立的,而是相辅相成,互相联系共同起作用的一个整体。

2、2数据挖掘系统的结构

数据挖掘技术的分析方法可以分为直接数据挖掘和间接数据挖掘两种,其中直接的数据挖掘包括分类、估值、预言三种分析方法,这些分析方法的目标是利用可用的数据建立一个模型,这个模型对剩余的数据或对一个特定的变量进行描述;而间接数据挖掘包含相关性分组或关联规则、聚集、描述与可视化三种分析方法,这些分析方法并不直按用模型来对目标中选出某一具体的变量进行描述;而是在所有的变量中建立起某种关系。

典型的数据挖掘系统其结构相对简单,如图l所示,后台数据仓库中的海量数据(潜在价值的数据)通过数据仓库服务器的整理、集成和选择等数据库操作形成有价值知识,用户借助于数据挖掘工具(如数据挖掘引擎、模式评估等)通过用户表示层来获取到对自己有用的知识或信息;当然这个过程也具有可逆性,外界的信息同样可以相应的数据挖掘工具处理后通过数据仓库服务器进行到后台数据库中。

图1典型数据挖掘系统的结构图

3关系型数据仓库的数据挖掘的实现策略

目前,数据挖掘对海量数据的探索分析的起点是联机分析处理OLAP(0n Line AnalyticaI Processing),也就是说,数据挖掘是建立在联机分析处理的数据环境基础之上。同时,科学合理的数据环境是确保数据挖掘有效和正确实施的基础和关键,它需要服务于数据挖掘总体目标的数据再组织,需要有单独的数据分析和数据处理环境,而数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术产品。

如何把存放大量业务数据的关系数据库经过筛选、抽取、归纳、统计、转换到一个新的数据仓库中,然后再进行数据展现。下面笔者以基于SQL Server2000数据库的数据挖掘为例,对关系型数据仓库中数据挖掘技术的实现作一个简单介绍,目的在于让读者了解如何从丰富的后台数据库中挖掘出有价值的知识。

3、1数据仓库的数据加载

数据仓库信息的数据挖掘可以使数据仓库成为具有较高商业价值,为决策者从中提取指导性的数据模式和信息,并为做出相应的决策提供理论基础。正确的决策知识与数据仓库中的数据密切相关,同时数据仓库中大量的数据来源于传统数据库,相近的事件和相关的数据总是需要周期性地加入到仓库平台中从而丰富和反映当前事件的变化,因此仓库数据的构成与具体加载策略密切相关。

在关系型数据库管理系统SQL Server2000中,提供了数据转换服务(DTS模块),它可以实现数据从源向目标库的转换,比如说,将Access、MySQL、文本数据、XML数据等转换成SQL Server关系型数据,再由目标管理系统进行数据的检索、修改、钻取等管理工作,从而实现数据记录的分析,从中挖掘出隐藏的有价值的信息(知识)。

3、2数据仓库的数据钻取

数据钻取是数据仓库中数据抽取的具体形式,它包含两种模式:上钻与下钻。上钻是实现通过一个维从低层次向较高的层次攀升,从而获取数据立方体的聚合数据的过程,这是一个由具体到抽象的过程;而下钻则是上钻的逆操作,是一个由抽象到具体的过程,它是由不太详细的数据到更详细的数据,比如沿着时间维度,从年到季度,再到月下钻,可以获取更加详细的数据。SQL Server2000中依托企业管理器中的数据钻取通过新建挖掘模型功能来实现数据库数据的钻取操作,通过这种分析方法对关系数据库中的一维或多维数据进行抽取,并将结果呈现给用户。

3、3数据仓库的数据挖掘

2000年,微软首次KSQL Server2000中引入了数据挖掘特性,把数据挖掘引擎集成到rsQL Server 2000的分析服务中,从而极大地降低从关系数据仓库中实现数据挖掘的复杂性。在数据挖掘特性中包含两个可扩展的数据挖掘算法:Microsoft的决策树和Microsoft的集群。

下面笔者就关系型数据库数据挖掘的具体实现作一个描述,以便读者对基于关系数据库的数据挖掘有一个详细全面的理解。

3、3、1挖掘数据源选择

首先,根据用户需要可以使用多维数据或关系数据来创建相应的数据挖掘模型。如果是使用关系数据库中的数据的话,则选择[关系数据(R)]单选钮;否则选择[OLAP数据(0)]按钮。

3、3、2挖掘事例表选择

在[挖掘模型向导]对话框中选择需要进行数据挖掘的源数据表,这张表必须包含对应的事例键,因为该事例键是唯一标识待分析事例的列,根据需要作出相应选择。

3、3、3挖掘技术选择

这一步需要用户对要分析的数据采用何种数据挖掘技术作出选择。前面已经介绍过,SQL Server2000的数据挖掘特性中包含两个可扩展的数据挖掘算法:Microsoft的决策树和Microsoft的集群。这里请根据需要选择相应的数据挖掘算法。

3、3、4挖掘事件例关键字选择

前面已经选择了相应的事例表,在这里,将要求进一步选择相应的事例键,该事例键可以唯一地标识待分析事例的列。

3、3、5挖掘模型参数选择

接下来,需要从事例表中选择输入列和预测列;其中输入列包含关系所要依据的信息,预测列包含挖掘模型依据输入列中的信息而作出的预测。

3、3、5挖掘结果浏览

通过上面的设置,挖掘工具将依据用户输入列的信息进行数据分析、抽取等挖掘方法,对预测列给出一个预测值,这就是挖掘出数据背后隐藏的有价值的信息(知识)的过程。

4结语

数据仓库技术是数据库技术的一个重要发展方向,而利用数据挖掘技术将数据加工转换成有价值的信息供决策者使用已经成为当今IT行业研究的热点问题。同时数据仓库技术和数据挖掘技术是相互融合与互动发展的,笔者认为数据仓库与数据挖掘相结合的技术,其应用研究的前景肯定是十分广阔的。

参考文献

1美George M,Marakas,敖富江译,Modem Data Warehousing Mining,and VkuaIiz撕on Core Concepts,清华大学出版社

[2]陈文伟,数据仓库与数据挖掘教程[M]清华大学出版社,2006

[3]廖开际,数据仓库与数据挖掘[M]:北京大学出版社,2008

作者简介:

肖玉朝(1974-),男,长沙商贸旅游职业技术学院软件技术教研室,在读研究生,主要研究方向是软件工程。

猜你喜欢

数据仓库数据挖掘
基于数据仓库的数据倾斜解决方案研究
数据挖掘技术在内河航道维护管理中的应用研究
七大云计算数据仓库
数据挖掘综述
软件工程领域中的异常数据挖掘算法
数据仓库系统设计与实现
基于R的医学大数据挖掘系统研究
数据复用在存储数据仓库中的运用
虚拟数据仓库在电力行业的应用
数据仓库技术在档案管理领域的应用