APP下载

浅论数据仓库技术

2009-05-10赖小平

网络与信息 2009年8期
关键词:数据仓库数据库

赖小平

摘要:数据仓库技术是网络时代的数据特征,也是数据库系统应用到一定阶段的产物。本文阐述了数据仓库的起源、结构、特性,以及数据仓库技术的发展趋势。数据仓库技术在不断发展,并在实际应用中发挥了巨大作用,给企业带来巨大的变革。

关键词:数据仓库;面向主题;数据库

中图法分类号:TP311.11

文献标识码:A

数据仓库(Data Warehousing,DW)是近年来兴起的一种新的数据库应用。随着各种计算机技术,如数据模型、数据库技术和应用开发技术的不断进步,数据仓库技术也在不断发展,并在实际应用中发挥了巨大的作用。

1数据仓库的起源

如今是网络的时代,数据仓库的出现和发展是网络时代的数据特征,也是数据库系统应用到一定阶段的必然产物。最初的数据管理形式主要是文件系统,数据的存取方式是固定的、死板的。1969年,E.F Codd博士提出了关系数据模型。此后,关系数据库的出现开创了数据管理的一个新时代。

近几十年来,像C/S系统结构、存储过程等新技术、新思路的出现,SQL在数据库中的应用,使得关系数据库成为联机事务处理系统的主宰。然而,应用是不断进步的,当联机事务处理系统应用到一定阶段后。用户发现这不足以获得市场竞争的优势,他们需要对大量的业务数据进行分析,从而作出有利的决策。这种基于业务数据的决策分析,称之为联机分析处理,比以往任何时候都显得重要。人们在实际应用中发现要查询的数据越来越多,所以人们就设想专门为业务的统计分析建立一个数据中心,这个中心就叫数据仓库。

业界公认的数据仓库概念创始人W.H Inmon在《数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的、随时间不断变化的数据集合。从辨证的眼光来看,数据仓库的兴起实际是数据管理的一种回归,是螺旋式的上升。

如今,各大数据库厂商纷纷宣布产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品,比如:Informix公司的数据仓库解决方案Oracle公司的数据仓库解决方案;Sybase公司的交互式数据仓库解决方案等等。这些发展引起了学术界的极大兴趣,出现了专门研究数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)的论文。

数据仓库虽然起源于20世纪90年代,但其发展非常迅速,特别是网络技术的飞速发展,为数据仓库的发展提供了更宽阔的数据跑道。当今数据仓库已经不再是纯粹的理论。而是一个活生生的事实。

2数据仓库的结构

(1)基本体系结构(结构1)

它由以下5个基本组成部分:

数据源(DB),为数据仓库提供最底层数据的运作数据库系统及外部数据;

监视器,负责感知数据源发生的变化,并按数据仓库的需求提取数据;

集成器,将从运作数据库中提取的数据经过转换、计算、综合等操作,并集成到数据仓库中;

数据仓库(DW),存储已经按企业级视图转换的数据,供分析处理用;

客户应用,供用户对数据仓库中的数据进行访问查询,并以直观的方式表示分析结果的工具。

(2)数据组织结构(如图2)

3数据仓库的特性

传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,由于企业的日常事务处理工作,而难于实现对数据分析处理要求,已无法满足数据处理多样化的要求。近年来,随着数据库技术的应用和发展。人们尝试对DB中的数据进行再加工,形成一个综合的、面向分析的环境,以更好支持决策分析,从而形成了数据仓库技术。

数据仓库是面向主题的。这与传统数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准。每一个主题对应一个宏观的分析领域。例如:对一个保险公司来说,应用问题可能是汽车保险、人寿保险与意外伤亡保险,公司的主题域却可能是顾客、保险单、保险费和索赔。不同类型的公司其主题域是不同的,这样管理人员就可根据不同的主题进行分析,作出切实可行的决策。

数据仓库是集成的。在数据仓库的所有特性中,这是最重要的。数据仓库中的数据是从多个不同的数据源传来的。当这些数据进入数据仓库时,必须经过数据加工和集成,进行转换,重新格式化,重新排列以及汇总等操作,这是建立数据仓库的关键步骤。这样得到的结果就是只要是存在于数据仓库中的数据就是具有企业的单一物理映像。

数据仓库是非易失的。即稳定性。操作型环境中的数据一般必然是要更新的,但数据仓库中的数据呈现出一组非常不同的特性。数据仓库中的数据通常是以批量方式载入与访问的,对其数据并不进行一般意义上的数据更新。这样数据仓库就保存了所有的历史数据,而不是日常事务处理产生的数据,数据经过加工和集成进入数据仓库是极少或根本不能修改的。

数据仓库是随时间变化的,它是不同时间的数据集合。时变性是指数据仓库中的每个数据单元都只是在某一时刻是准确的。在任何情况下记录都包含某种形式的时间标志用以说明数据在哪一时间是准确的。不同环境中有不同的时间范围,操作型环境的时间范围一般是60~90年,而数据仓库中的数据的时间范围通常是5~10年。由于这种时间范围上的差异,数据仓库含有比任何其他环境中都多的历史数据。

4数据仓库的技术趋势

数据仓库没有严格的数学理论基础,它更偏向干工程。由于这种工程性,数据仓库技术的发展主要包括以下3个方面:

4.1数据的抽取

数据的抽取是数据进入数据仓库的入口,它通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、转换、增量、调度和监控等几个方面。

在技术发展上,数据抽取所涉及的单个技术环节都已经相对成熟,但整体的集成度还很不够。目前市场上所提供的大多是数据抽取工具,这些工具只能成为辅助的角色。未来的技术发展将集中在系统集成化方面,它将互连、复制、转换、增量、调度和监控等纳入标准化的统一管理,以适应数据仓库本身或数据源的变化,使系统更加便于管理和维护。

4.2数据的存储和管理

数据的存储和管理是数据仓库真正的关键技术。数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采用什么产品和技术来建立数据仓库,主要从以下几个问题着手分析:

(1)对大量数据的存储和管理;

(2)并行处理;

(3)针对决策支持查询的优化;

(4)支持多维分析的查询模式。

在数据仓库的数据存储管理领域。未来的发展将使数据库厂商明确推出数据仓库引擎,并作为服务器产品与数据库服务器并驾

齐驱,面向决策支持扩充的并行关系数据库将是数据仓库的核心。最具发展潜力。

4.3数据的表现

数据的表现是数据仓库的门面。主要集中在多维分析、数理统计和数据挖掘方面。

多维分析是数据仓库的重要表现形式,近几年来,多维分析领域的工具和产品注重提供基于Web的前端联机分析界面,而不仅仅是网上数据的发布。

数理统计原本与数据仓库没有直接的联系,但在实际应用中需要通过对数据的统计来验证假设,以进行决策。数理统计的算法和功能将普遍集成到联机分析产品中,同时与因特网/网络技术紧密结合,推出适用于内联网,终端免维护的数据仓库访问前端。

数据挖掘与数理统计相似,数据挖掘与数据仓库也没有直接的联系。目前许多数据挖掘工具其实不过是数理统计的应用,它们并不能真正寻找出数据的规律。而是验证尽可能多的假设,最后由人来判断其合理性。未来的发展将使数据挖掘不仅仅是验证人们对数据特性的假设,而且更要主动地寻找并发现蕴藏在数据之中的规律。

随着各种计算机技术,如数据模型、数据库技术和应用开发技术的不断进步,数据仓库技术也在不断发展,并在实际应用中发挥了巨大的作用。目前使用数据仓库所产生的巨大效益刺激了对数据仓库技术的需求,数据仓库市场正以迅猛势头向前发展:一方面。数据仓库市场需求量越来越大。每年约以400%的速度扩张:另一方面。数据仓库产品越来越成熟,生产数据仓库工具的厂家越来越多。数据仓库技术及市场将向以下方向发展:

(1)并行化和可扩展性。在硬件层次上。采用多处理器并行结构;在数据库层次上,数据库厂商推出了并行产品,以适应数据仓库市场的需要。

(2)集中化。随着数据仓库项目越来越大,就要求对信息进行集中管理,此外,数据的一致性也要求数据集中管理。

(3)数据仓库与因特网/内联网的集成。即前台是网络服务器,后台是数据仓库系统。数据仓库的信息及统计分析结果以网络的形式表现。

(4)数据挖掘工具和人工智能管理的成熟与广泛使用。这将是今后推动决策支持演变过程的主要力量,相信会有越来越多的专家系统问世。为企业的决策提供支持。

(5)通用数据库。数据仓库将支持多媒体、结构化和非结构化数据。即向通用数据库发展,具有面向对象的能力。

(6)专用数据仓库。即数据仓库的打包。它是指数据仓库将集成一些工具和应用,打包推向用户。

5结束语

数据仓库技术是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。随着数据仓库技术应用的不断深入,近几年数据仓库技术得到长足的发展。也随着数据仓库系统带来的良好效果。各行各业的单位。已经能很好地接受“整合数据。从数据中找知识,运用数据知识、用数据说话”等新的关系到改良生产活动各环节、提高生产效率、发展生产力的理念。

猜你喜欢

数据仓库数据库
基于数据仓库的数据倾斜解决方案研究
七大云计算数据仓库
数据库
数据库
数据仓库系统设计与实现
数据库
数据库
数据库
数据复用在存储数据仓库中的运用
数据库