数据仓库和OLAP在港口物资管理中的应用
2014-07-28韩蕾
韩蕾
摘要:该文对通过数据仓库和OLAP技术进行研究,设计了港口物资管理数据仓库模型,并分析了基于MS SQL Server2005数据仓库实施方案的OLAP分析结果展现过程。
关键词:数据仓库;OLAP;联机分析处理
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)18-4117-04
Data Warehouse and OLAP Applications in Materials Management of Port Enterprises
HAN Lei
(Qingdao Harbor Vocational and Technical College, Qingdao 266404, China)
Abstract: This paper studies the data warehouse and OLAP technology, and designs the port material management data warehouse model, and analyzes the process of the showing theresults of the analysis based on MS SQL Server2005 OLAP data warehouse implementation plan process.
Key words: data warehouse; OLAP; on-line analysis processing
近几年中国沿海港口企业发展迅猛,中国沿海的各大港口吞吐量急速攀升,突破亿吨,成为数亿吨的大港。在港口经济迅速发展的背后,国内外港口之间的竞争也日趋白热化,国内外大港口在硬件设施、价格战和软环境建设方面正展开愈演愈烈的港口竞争,纷纷建大码头、上新泊位,随着港口硬件条件的趋同,谁的管理体制更适合市场竞争环境谁就能在竞争中占得先机。因此,现在各大港口的发展策略从前期的抓市场转向抓管理、抓效率。我国各大港口企业内部管理情况基本类似:涉及多行业经营,下属企业众多,业务复杂,所需物资状况复杂,物资管理存在困难。下属单位分散采购,缺乏对整体利益考虑,各子公司的采购行为缺乏有效的跟踪、评估、分析,由此导致物资供应和采购价格管理不到位,物资采购流程不规范,物资供应存在风险,库存数据不清,库存物资积压和浪费严重。据统计一个大型港口企业每年的生产、建设物资采购额大概是几个亿甚至十几个亿。针对如此庞大的采购额,如果企业借助先进的计算机技术对物资材料消耗、物资采购数据进行科学分析,科学的管理物资材料的采购、库存和消耗量,达到物资采购最及时、库存最小、采购物资材料性价比最高的理想效果,将为企业从节约挖潜途径节约大量的成本。上世纪90年代在美国兴起的数据仓库和OLAP(联机分析处理)技术为解决这一问题提供理想的解决方案。该文将对数据仓库和OLAP技术进行深入分析,构建港口企业物资管理数据仓库模型,并基于MS SQL Server2005 Analysis Services的数据仓库和OLAP解决方案对港口物资管理的采购数量和金额、领用数量和金额、库存数量和金额从时间、种类、公司、部门、供应商等几个维度进行综合分析,即构建港口物资管理连接分析系统,为港口物资管理、物资采购策略的指定提供决策支持,实现由物资管理由事后统计向事前预测的转变。
1 数据仓库和OLAP概述
1.1数据仓库
数据仓库的概念在20世纪90年代由“数据仓库之父”W.H.Inmon首先提出,他这样定义数据仓库的:数据仓库是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合,用来支持管理人员决策[1]。数据仓库的主要作用是面向企业管理人员需要,对分布在企业内业务数据库的数据从宏观角度进行提取、加工和存储,建立分析型数据处理环境,为解决决策问题提供支持,数据仓库是一种决策支持系统(DDS)资料存储理论。
数据仓库基本的特性是:面向主题、集成性、非易失性、随时间变化。面向主题是指数据仓库数据组织形式是根据管理决策的分析需要对用户进行决策时所关心某一方面(即一个主题)的重点数据(可能在不同的数据库、不同的数据表)从不同的业务数据库中抽取出来,进行综合归类组织,方便用户进行决策分析时查询数据;集成性是指从不同业务数据库中抽取出来的数据,可能存在数据格式不一致、测量单位不统一、数据代码和数据名称混乱的情况,因此,数据在载入数据仓库之前要经过清洗、转置、汇总、集成,保证数据一致性,并且数据是按照一定的周期分批载入到数据仓库中的;非易失性是指由于历史数据对决策分析的重要性,所以信息数据一旦被写入数据仓库,就轻易不会被删除或更新,数据仓库是以只读的方式被用户访问;随时间变化是指由于数据仓库中的数据周期性、分批装载的继承性,因此在基于数据仓库的历史信息数据进行决策分析(如OLAP、数据挖掘)时,分析的结果始终随着时间的变化而变化,企业管理决策人员也就是通过数据的变化情况了解企业某些方面的历史发展趋势,为企业未来的发展方向提供决策支持。
1.2 OLAP技术
OLAP,即On-line Analytical Processing(联机分析处理),是面向某个特定主题的联机数据访问和数据分析技术,其主要作用是根据公司分析人员的面向某个主题的分析需要,对数据仓库中的大量数据从多个角度进行快速、一致和交互的观察和复杂的分析操作,从而使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而为公司的数据分析人员和高级管理人员提供决策支持。可以说OLAP是专门设计用来对数据仓库中的大量数据进行访问的工具。它的技术核心是“维”。endprint
OLAP的主要功能是对数据的多维观察,即通过对多维组织后的数据进行切片和切块、钻取、聚合、旋转等动作实现多维分析,使用户从多种维度、多个侧面、多种数据综合度查看数据。切片和切块指的是对多维数据在某以个维度或某几个维度选定一个度量值,得到的多维数据组的一个子集;钻取指的是从较高的维度层次上到较低的维度层次上观察数据的过程,使用户获得更详细的数据;聚合是钻取的反向操作,实现从低维度层次到高纬度层次观察数据的过程,使用户得到综合度更高的数据;旋转是指改变维度的位置关系,使用户能够层不同的视角观察数据。其次OLAP还具有强大的计算能力,可以对数据进行深入加工。
可以看出,数据仓库注重面向主题的数据存储和管理,OLAP注重对数据仓库中数据的多维分析,数据仓库的多维数据组织和OLAP的多维数据分析相辅相成,共同构成决策支持系统的主体。
2 系统设计方案
2.1系统架构设计
根据典型数据仓库系统的模型,物资管理联机分析系统包含四个层次:数据源、数据仓库服务器、OLAP服务器和前端展示工具。物资管理联机分析系统的数据源层主要包括港口企业的采购计划数据、物资库存管理数据和来自供应商商务平台的数据,这些数据是物资管理联机分析系统数据仓库的数据来源,是联机分析的基础;物资管理联机分析系统的数据仓库服务器层主要功能是面向主题构建多维数据集,然后将存放在不同数据库物资采购计划数据、物资库存数据和供货商产品数据进行ETL(抽取-转换-载入)处理,将数据载入到数据仓库中,对数据按照联机分析的要求重新组织存储。数据仓库是OLAP分析的数据层。OLAP服务器根据分析需求面向分析主题构建多维数据集并将数据自动定期从数据仓库载入OLAP服务器的多维数据集,从不同维度、不同层次对采购、库存、单价数据进行分析。前端展示工具为用户提供分析多维数据的展示平台,将分析结果以表格和图表的形式展示给客户。图1为物资管理联机分析系统架构图。
2.2数据仓库设计
数据仓库设计主要包括数据仓库模型设计和数据仓库的ETL(数据抽取、转换、装载)设计。数据仓库模型设计的一般过程包括概念模型设计、逻辑模型设计、物理模型设计,主要完成数据仓库的主题选择、粒度选择、表的分割等。
数据仓库是根据主题组织数据的,因此数据仓库的概念设计首先要确定主题和主题的边界。港口企业物资管理的主题主要包括部门主题、物资主题、供货商主题、仓库主题。物资主题主要包括物资的采购情况、物资的仓储情况、物资的部门使用情况,部门主题主要包括部门领用物资的情况,仓库主题主要包括仓库储存物资的情况,供货商主题主要包括供应商供应商品的情况。经过分析确定使用数据仓库的部门主要包括物资管理部门、物资采购管理部门、集团相关管理部门。对于物资材料管理部门的管理管理人员,他们只关注各个时间物资的使用数量和仓库的数量,为公司的物资计划上报和集团对物资管理监控提供支持;对于物资采购管理部门的管理人员,他们重点关注物资的采购价格的变化趋势和供货商的供货质量,为物资采购计划指定和策略实施提供数据支持。根据数据仓库使用对象的需求,确定港口企业物资管理数据仓库的主题域:物资采购、物资领用、物资库存三个主题。物资管理数据仓库三个主题的维度分别是:物资采购主题的维度包括时间、商品、供应商;物资领用主题的维度包括时间、商品、部门;物资库存的维度包括时间、商品。由于三个主题域有部分共同的维度,因此物资管理数据仓库的维度可以设定为时间维、商品维、供应商维、部门维。这四个维度支持用户从各个维度对物资的进货、领用、库存的情况进行分析。在从各个维度对物资材料的采购、领用、库存数据进行分析时,各层管理人员关注的数据主要是数量和金额,因此选定物资采购、领用、库存数量和金额作为各个主题域的度量值。
数据仓库逻辑模型设计主要确定数据粒度策略、表的分割策略和定义关系模式。物资管理数据仓库不同的维度根据分析的粗细需要进行粒度的划分,时间维度的粒度为:年、季度、月、周、日,用户既可以使用较细的粒度查询物资采购、领用、库存的详细数据,也可以使用较粗的粒度对各个时间的物资采购、领用、库存数据进行对比分析,为下一年度的物资管理计划和策略制定提供支持;商品维度的粒度包括:商品、商品小类、商品大类,为用户对各类的商品的使用和库存数据进行对比分析,为企业的物资采购计划、物资管理计划制定提供支持;部门维度的粒度包括:部门、分公司、集团,一个大型港口企业内部的行政管理部门的划分比较复杂,各个分公司既独立经营又需要集团统一管理,因此部门粒度的划分既可以支持各个分公司的管理层对本公司各部门的物资材料使用数据和公司内部的物资材料进货、库存数据进行查看分析,也可以支持集团管理层对各个分公司和集团整体的物资材料采购、领用、库存数据的查看分析;供应商维度的粒度包括:供应商、供应商类别。由于商品维继续进行层次化扩展,得到商品小类维、商品大类维2个维度表,部门维继续进行层次化扩展,得到公司维,因此多维数据仓库的存储模型采用雪花型。其模型结构如图2。
数据仓库的多维模型设计完成后接下来就需要将多维模型转换成关系模式,即将事实和维度转换成事实表和维表,因此物资管理数据仓库包括物资采购事实表、物资领用事实表、物质库存事实表、时间维度表、商品维度表、商品小类维度表、商品大类维度表、部门维度表、公司维度表,
物资管理数据仓库的物理实现在MSSQL Server2005系统中完成,在SQl Server2005中创建事实表和维度表,创建事实表的主键、维度表的主键和外键保证数据的完整性。
2.3数据的ETL设计
ETL指的是数据的抽取(Extract)、转换(Transform)和装载(Load)过程,是数据库建模过程中十分重要的一个环节。物资管理数据仓库的数据来源于企业内部的物资管理数据库、物资超市商务平台数据库、供货商产品数据库以及一部分Excel文件,这些来源于不同数据库和文件的数据在载入数据仓库之前需要根据数据仓库的设计要求进行数据格式的转换、实现数据格式的统一,清洗错误数据,统一商品大类编码、商品小类编码、商品编码,统一公司、部门编码,完成数据聚合汇总。物资材料数据仓库的ETL设计与实现使用SQL Server2005 的SSIS,在SSIS中定义一个载入和替换数据的SSIS包,将数据定期自动的从数据源载入到数据仓库的事实表和维度表中。endprint
3 基于Analysis Services的OLAP分析实现
3.1面向主题创建OLAP多维立方体
Analysis Services是Ms SQL Server2005中提供的分析数据仓库数据的工具,包括OLAP和数据挖掘工具。OLAP工具的主要作用是根据用户的分析需求迅速从数据仓库中获取数据创建多维数据立方体,进行高效率的多维分析,为用户提供决策支持。基于Analysis Services进行OLAP分析的一般过程包括:配置服务器、创建数据库、连接数据源、创建维和立方体。其中最重要的一步是面向主题创建维和立方体,我们分别面向采购主题、仓储主题、领用主题创建维、事实表和度量,创建各个多维立方体,Analysis Services同时支持多维OLAP(MOLAP)、关系OLAP(ROLAP)、混合OLAP(HOLAP)三种立方体存储结构,根据OLAP分析的数据量,我们在创建立方体时选择ROLAP存储结构。
3.2使用MDX语句查询数据
MDX语句与SQL语句类似,都是对数据库中的数据进行操作的语言,不同之处是,MDX是对数据仓库中的多维立方体数据进行操作的语言,MDX的重要功能是对数据仓库中的多维数据进行复杂的查询,其基本语法为:
SELECT 坐标轴标识符,……
FROM立方体标识符
WHERE 条件
如检索领用数量度量和时间维、商品维的值的MDX语句:
SELECT{([MEASURES].quantity])}ON AXIS(0),
{([Time].[2014]),([Time].[2014])}ON AXIS(1),
{([Goods].[电脑])}ON AXIS(2)
FROM uses
3.3 OLAP结果展现
OLAP分析的结果只有通过客户端软件展示给系统用户才能为用户提供决策支持。OLAP结果展示可以由开发人员编写专门的web应用程序进行结果展现,也可以通过现在工作人员比较熟悉的Excel软件的数据透视表和数据透视图进行展现。在没有开发专门的客户端程序前,Excel软件是一个不错的选择,Excel数据透视表通过Analysis Services OLE DB 数据访问接口与OLAP多维数据集建立连接,通过列、栏、页的设置实现对度量值的上卷下钻、切片切块、旋转分析,比如对各类物资材料的进货金额按照年、季度、月下钻分析。Excel数据透视表支持对数据的多维分析功能,并转换为数据透视图直观展示。
4 结束语
本文主要介绍了通过数据仓库和OLAP技术实现对大型的港口企业的物资管理的消耗数量、金额以及供货商服务质量进行联机分析处理的方案,以及基于MS SQL Server2005 Analysis Services实现港口企业物资管理联机分析处理的方法。多维模型设计和ETL设计是OLAP设计的关键点,决定着OLAP能否高效的运行。MS SQL Server2005 Analysis Services是OLAP系统实现的平台,该平台为开发人员创建数据仓库和ETL抽取包提供支持,并且提供客户端程序开发接口(ADOMD.NET、OLE DB等)和多维查询语言,支持用户开发各种客户端程序对分析结果进行展示。
参考文献:
[1] 石丽, 李坚.数据仓库与决策支持[M].北京:国防工业出版社,2003.
[2] 林宇,张立科.数据仓库原理和实践[M].北京:人民邮电出版社, 2002.
[3] 于宗民,刘义宁,祁国辉.数据仓库项目管理实践[M].北京:人民邮电出版社, 2006.
[4] 陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社, 2006.
[5] 郎川萍.应用OLAP技术实现教学评价结果的多维分析[D].成都:西南交通大学,2012.
[6] 胡杨,袁建华.数据仓库和OLAP技术在集团财务分析中的应用[J].计算机与现代化,2013(4).
[7] 王怡青,王征.基于OLAP的高校学生综合成绩管理系统的设计与实现[J].大众科技,2013(9).endprint