数据仓库在决策支持系统中的应用
2009-03-30张军玲
张军玲
提要传统的基于数据库的决策支持系统存在数据分散、数据不统一、数据可分析能力低等缺点。为了解决传统决策支持系统中存在的问题,本文提出了利用数据仓库技术建立决策支持系统的解决方案,并分析了基于数据仓库技术的决策支持系统的开发过程。
关键词:数据仓库;决策支持;数据挖掘
中图分类号:F407.67文献标识码:A
决策支持系统(DSS)是由电子数据处理系统(EDPS)、管理信息系统(MlS)逐步发展而来的,用于支持半结构化决策,允许决策者直接干预,并能接受决策者的直观判断的动态交互式计算机系统。决策支持系统作为一门新兴的信息技术,能够为企业提供各种决策信息,为许多商业问题提供解决方案,从而提高了决策的质量和效率。
一、传统决策支持系统的不足
(一)传统决策支持系统缺乏内在的统一性和完整性。传统的决策支持系统是以模型库、数据库、方法库所组成的系统结构。但是在决策支持系统开发过程中,模型库、数据库和方法库往往被独立的设计与实现,从而使传统的决策支持系统在系统结构上很难达到内在的统一性和完整性,因而应用效果并不理想。
(二)传统决策支持系统缺乏有效的分析工具。企业决策是一个提出问题——分析问题——解决问题的循环过程。分析过程实质上是一种对数据信息不断抽取的过程,即要对大量分散的数据进行快速综合分析,然后从中捕获与决策相关的信息。而传统的决策支持系统往往侧重于抽象的理论研究,缺乏有效的分析工具,因而也得不到有效的分析结果。
(三)传统决策支持系统没有充足的数据源。传统的决策支持系统所进行的数据处理是直接利用关系数据库中的数据,只对原始数据进行一般的加工和汇总,致使决策所需信息不足,难以满足决策支持系统的需要。数据库中的数据还存在以下缺点:①缺乏组织性。从各个部门抽取的数据没有统一的格式标准,数据杂乱且不稳定;②数据的利用率低。由于数据缺少统一标准,难以转化为有用的信息,原始数据定义的不一致性导致其可信度降低;③数据存储不完整。决策支持系统只有对较长一段时间的完整数据进行分析才会有较高的预测率;④缺乏综合的数据。数据库中存储的是进行事务处理时积累的大量细节数据,如果对这些细节数据进行分析必然会影响分析效率,同时也需要分析人员花费大量的时间和精力,结果忽略了有用的信息,因此往往要求对这些细节数据进行不同程度的综合。
(四)传统决策支持系统人机接口开发不理想。传统决策支持系统的各部件中,只有数据部件有成熟的商品软件可以直接使用,其他部件及部件的接口和集成问题需要自行设计和开发。计算机语言对传统决策支持系统的接口技术和集成技术的支持能力有限,研制新语言也需很大代价。
二、数据仓库、OLAP及数据挖掘技术
数据仓库是一个用于更好地支持企业决策分析的、面向主题的、集成的、不可更新的、随时间不断变化的数据集合,具有以下特点:
1、面向主题的。数据仓库中的数据是面向主题进行组织的。主题是一个抽象的概念,在逻辑意义上,它是在较高层次上对分析对象的数据的一个完整、一致的描述,能统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。
2、集成的。数据仓库将多个异构数据源集成在一起,使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性,极大地克服了基于关系数据库决策支持系统数据分散且不易集成的缺点。
3、稳定的。数据仓库的数据主要供企业决策分析,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,给决策支持系统提供了大量的数据源,充分满足了决策支持系统的需要。
4、反映历史变化。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
OLAP是针对特定问题的联机数据访问和数据分析而产生的一种技术,它满足决策支持系统从多种角度对数据进行快速、一致、交互地分析,克服传统决策支持系统交互能力差的弊病,使决策者能够对数据进行深入观察。
数据挖掘是指从大量数据中发现潜在的、有价值的及未知的关系、模式和趋势,并以易被理解的方式表示出来。在决策支持系统中通过数据挖掘发现数据之间的复杂联系,以及这种联系对决策产生的影响。数据仓库和数据挖掘都是决策支持技术,但两者的辅助决策方式不同。数据仓库是在数据库的基础上发展起来的,它将传统数据库中大量的、详细的、不同格式的数据按照决策需求进行集成和重新组织,从而可以为不同需求的用户提供统一的数据源。数据挖掘是通过知识的关联,挖掘现有数据中隐含的信息,给用户提供更为深入和丰富的信息,可以让用户在决策分析中使用。将数据仓库和数据挖掘结合起来,实现两者的优势互补,能够为用户提供更为有力的决策支持。
三、基于数据仓库的决策支持系统体系结构
传统的决策支持系统大都建立在数据库基础上,数据库系统主要用于联机事务处理,它主要对大量面向具体应用、事务驱动的细节数据,进行着以事务处理为主的数据处理工作,存在于一种适应企业特定应用服务、以单一数据资源为中心的数据环境。要提高分析和决策的效率和有效性,必须把分析型的细节数据提取出来,重新组织建立一个综合的、便于分析的处理环境,只有对大量异构数据进行综合的、多角度的、多层次的分析处理,才能为企业高层管理者提供决策信息,数据仓库技术的引入为以上问题的解决带来了新的契机。
数据仓库将来自各个异构数据源的信息进行集成,从事物历史和发展的角度来组织和存储数据,并以联机分析工具(OLAP)和数据挖掘工具为手段,形成一整套可操作、可实施的决策支持系统可行方案,供用户进行数据分析、发现知识,并辅助决策支持。数据仓库技术不仅使决策支持系统跨入了一个新阶段,而且在许多领域都发挥着一定的作用,为用户提供面向分析的全局性、综合性、动态性、多层次信息,从而拓宽了决策支持系统的应用领域和应用范围。
数据仓库对内、外部数据源进行抽取、净化和转换,将数据重新组合成面向全局的数据视图,为决策支持系统提供数据存储和组织的基础,解决了以往决策支持系统中数据不一致的问题。OLAP从数据仓库中的集成数据出发,构建面向分析的多维数据模型,再使用多维分析方法从多个不同的角度对多维数据进行分析、比较,为用户提供了一个多维数据分析,便于用户以更接近自然的方式分析数据。数据挖掘以数据仓库和多维数据模型中的大量数据为基础,自动地发现数据中的潜在模式,并以这些模式为基础自动做出预测,数据挖掘中发现的知识可以直接用于指导联机分析(OLAP)的分析处理,而数据挖掘和联机分析处理得出的新知识也可以立即补充到系统的知识库中。数据仓库的优势弥补了以往决策支持系统的不足,较好地协调了数据、模型、方法、知识之间的关系,使现行系统中的数据库资源得到充分利用,从而使整个系统形成一个有机的整体,提高了系统的集成性。
四、基于数据仓库的决策支持系统开发过程
决策支持系统的开发主要是进行系统分析、系统初步设计、系统详细设计、各部件程序编制和系统集成。基于数据仓库的决策支持系统的开发就要以数据仓库的开发为核心,其开发过程实质上是一个数据驱动的过程,可概括为以下几个方面:(1)确定开发数据仓库工程的目标及制定计划;(2)建立技术环境,选择实现数据仓库的软硬件资源;(3)根据决策需求确定主题,进行数据建模,选择数据源,对数据仓库的数据进行逻辑结构设计;(4)设计数据仓库中的数据库,基于用户的需求,着重于某个主题,开发数据仓库中数据的物理存储结构,即设计多维数据结构的事实表和维表;(5)设计从信息源中抽取数据、清理数据、格式化数据、综合数据、装载数据的数据转换程序,从而将数据组织成恰当的格式存储到数据仓库中;(6)定义元数据,即表示、定义数据的意义及系统各组成部件之间的关系;(7)开发用户决策的数据分析工具,建立结构化的决策支持查询,实现和使用数据仓库的数据分析工具,包括优化查询工具、统计分析工具、C/S工具、OLAP工具等,通过分析工具实现决策支持需求;(8)管理数据仓库环境,并定期进行数据更新,使数据仓库正常运行。
数据仓库技术为决策支持系统的研制与开发提供了一种有效、可行的体系化解决方案,一个完整的决策支持系统应集成数据仓库、OLAP和数据挖掘三种信息处理技术。基于数据仓库、OLAP和数据挖掘等技术的决策支持系统在大数据量的情况下,为快捷、自动地进行决策提供了一个新的思路。它既能够提供自动的定量分析,也可以提供定性数据,使得决策者能够获取可靠的决策依据。随着数据仓库、OLAP和数据挖掘技术的不断发展和完善,决策支持系统必然有更广阔的应用前景。
(作者单位:西安欧亚学院信息工程学院)