发电企业数据仓库的设计与实践
2015-10-24周峰
摘要:数据仓库设计是指导企业数据体系建设,打破信息孤岛,实现企业信息数据共享的重要环节。文章对数据仓库设计中所涉及的总体要求、总体架构、 技术架构、数据模型设计、数据管理体系设计、数据采集与应用集成等重点环节进行了总结,并结合某发电集团就数据仓库的实际设计案例进行了分析和探讨,为企业构建一个先进、实用的数据仓库提供了参考。
关键词:数据仓库; 设计; 数据模型; 数据采集; 应用案例
中图分类号:TP311.13 文献标识码:A 文章编号:1009-3044(2015)05-0025-02
1 引言
数据仓库的设计是指导数据体系建设,打破信息孤岛,实现企业信息数据共享的重要环节。它能够实现应用与数据分离,实现数据从部门到企业的提升,建立数据转换为价值的体系,让数据发挥出企业核心资源的效用,从而最终实现数据的增值[1]。
随着企业快速发展与各类信息化系统建设的深入开展,某发电集团出于自身对于信息化发展的需求,按照企业信息化规划所确定的“顶层设计、统一规划”和“试点先行、分步实施”的建设原则,开展了数据仓库系统方案和数据体系规范的设计工作。这其中所涉及的核心和关键环节在这里与大家展开研究和探讨。
2 数据仓库的设计
2.1 数据仓库设计的总体要求
数据仓库是在企业应用系统建设基础上,为了进一步挖掘数据资源、为了决策支持需求而建设。它实现跨层级的数据抽取和共享。将企业各个应用系统的数据进行统一抽取,实现跨层级应用系统的数据抽取和共享[2],它为企业上层的BI应用提供数据源。数据仓库作为BI系统的数据输入源,其作用是提供不同分析主题的数据模型和数据统计,确保企业层面数据的完整和统一。
某发电企业的数据仓库项目作为一期试点建设,项目设计的重点要求考虑如下:
1)搭建可线性扩展、高性能、易管理的数据仓库平台。由于数据仓库的基础性和稳定性,通过项目搭建全企业统一的数据仓库平台,其建设不仅需考虑企业本期数据采集的数据存储量,还应重点从数据仓库未来的发展定位与要求来考虑搭建方案。
2)设计全面、合理、稳定的数据仓库模型。数据仓库数据模型是数据仓库建设的核心工作之一,数据仓库中各层级(整合层、汇总层)的逻辑数据模型和物理数据模型,应满足企业基于数据主题的数据存储需要。
3)以分析模型作为需求驱动,设计实用、清晰合理的数据集市多维模型。基于数据仓库数据模型,以分析模型作为需求驱动,设计试点业务域的数据集市数据模型,使其具备实用、清晰合理的特点,并能在建设过程中不断验证、完善、优化与拓展,满足业务分析与设计的需要。
4)以企业已建的数据总线平台为手段实现相关数据主题的数据采集与共享服务。数据仓库建设主要目的为满足数据共享与综合分析需求,核心内容为数据资源,项目建设重点就必须以企业数据总线平台,实现系统间的数据集成工作。同时,借助数据总线平台的应用集成功能,实现数据共享的服务化管理。
2.2 总体架构设计
企业数据仓库设计建设应体现“数据与应用分离、数据为应用服务”的理念,基于开放性与先进性、活性与可维护性、可扩展性与可伸缩性、安全性与可靠性、可用性和容错能力、准确性与实时性、易用性和完整性等原则开展数据仓库的总体架构设计。
1)总体架构
数据仓库的总体架构是数据体系总体框架内细化设计,是整个企业的数据仓库总体架构,它包括支撑平台层、数据源层、数据集成层、数据存储层、数据管理层、数据应用层、数据展现层共七层,以及数据安全保障体系、数据标准规范体系。
其中数据存储层的设计根据企业的实际情况设计为三个部分组成,包括了操作型数据存储层(ODS)、数据仓库层(DW)、数据集市层(DM)。DW作为所有分析功能的单一数据源。ODS身兼二职,一方面保持与源系统的业务数据同步以满足一些实时性应用的数据需求,另外作为数据加工区为仓库提供数据加工服务。DM作为最终的前端分析、报告提供支持数据集市的数据是面向最终应用的,比如财务分析。数据集市的数据基于数据仓库之上进行汇总加工而成[3]。
2)技术架构
根据企业对数据仓库的实际应用分析技术架构设计采用分布式计算架构、基于MPP结构的并行计算数据库系统进行数据仓库平台构建。
技术架构中展示层将采用“富客户端”技术,减轻服务器的负担,无刷新更新页面,提高用户体验,方便用户操作。
控制层负责接收来自于展示层的请求,验证请求的数据,调用相应的业务逻辑进行数据处理,并将处理结果返回给展示层。包括了数据验证、日志处理、安全认证、权限验证、缓存处理、流量控制等功能。
业务处理层接收控制层传来的指令,负责加工和处理业务数据,如果处理成功则更新数据存储内容,如果处理失败则回滚事务,并将处理结果返回给控制层。
企业信息系统层是系统正常运行的基础模块,系统采用统一权限管理,统一消息管理,统一工作流平台,统一日志管理,统一报表平台等。
2.3数据模型设计
数据模型是数据仓库的核心,一个完整、灵活、稳定的数据模型对于数据仓库的成功起着重要的作用。数据模型设计一般遵循统一规范化原则、可扩展性原则和高效性原则开展。在这部分的设计中我们按照以下思路来开展:
1)遵循数据模型设计方法论。在数据仓库及数据集市模型设计中,通过对企业业务的详细分析与理解,针对业务特点,我们选用了维度建模方法,设计了合理的分析维度表和事实表模型。
2)立足企业的现有信息化环境。数据仓库是管控的基础,而数据模型是决定数据仓库质量的关键因素。数据模型必须以实际需求为牵引,满足管控功能要求,从而支撑决策分析、经营管理、综合管理与专业生产管理的需求。
3)实现项目阶段目标。数据仓库当期选取财务主题分析为本期项目实施切入点,就应该详细分析了财务主题的业务需求,对主题进一步细化并设计相应的维度分析模型。
基于这些分析主题域建立相应的维度分析模型。在建模中,就可以确定ODS模型存贮的数据,其中如图3的财务分析域主要来自财务主题域的分析成果。
2.4数据管理体系设计
数据管理体系包括管理目标、管理内容、管理环节、保障体系、管理工具五方面内容。本设计的核心内容是数据质量、数据安全、数据标准、基础数据管理,从组织、标准、规程、技术四个方面构建完整的数据管理体系,对数据采集、传输、存储、应用全生命周期进行管理。
图4 数据管理体系设计图
数据管理内容包括数据安全管理、数据质量管理、数据标准管理和基础数据管理四部分内容。其中,图4中数据标准管理是为全面加强企业数据管理,适应全公司数据集中管理与应用的需要,要结合企业数据管理需求,制定数据管理规范和技术技术标准。企业数据安全管理应该是整个企业信息化安全体系的一个组成部分,在整体安全体系规划下建设数据安全系统。数据安全管理主要包括安全管理体系、安全架构、认证管理、容灾备份管理等内容。
2.5数据采集与应用集成实践
系统集成与数据采集是数据仓库建设的核心工作内容,与数据填报共同组成数据仓库数据收集的通道。通过对企业数据集成现状的分析和数据采集与实施需求的理解,此次数据采集与实施的设计思路是以需求为驱动,充分考虑利用统一数据总线平台现有资源,沿用企业数据标准,并采用闭环的采集流程设计,满足该发电企业数据仓库建设中的数据集成需求[4]。
通过业务系统分析,近年来,该发电企业先后建设了综合计划、综合统计、股权管理、对标管理等业务管理系统,使得业务管理与信息技术的融合不断深化;同时还开展了集团ERP系统、主数据管理系统、燃料管理系统等信息系统的实施与应用。
根据数据仓库建设要求,系统集成主要实现数据集成和应用集成,其中数据集成主要实现各业务系统与数据仓库之间的数据交互,包括数据仓库从业务系统采集业务数据、业务系统从数据仓库获取其他行业或业务域的共享数据、分析系统从数据仓库获取分析数据;应用集成主要实现各业务系统之间直接进行数据交互的场景,即实现各组织层级应用系统之间的业务流程数据交互。
3 结论
总之,企业数据仓库作为企业信息化的基础技术平台,是在企业应用系统建设基础上,为了进一步挖掘数据资源、为了决策支持需求而建设。在其设计中应充分围绕项目的业务需求分析、数据模型需求分析、功能需求分析和性能需求分析等方面开展。以实现以实际企业业务需求为导向,搭建企业数据仓库,充分挖掘与发挥数据应用价值,构建横向融合、纵向贯通的应用集成体系,最终为企业实现全面的综合分析系统建设奠定坚实的数据基础。
参考文献:
[1] 李於洪. 数据仓库与数据挖掘导论[M]. 北京: 经济科学出版社, 2012.
[2] 袁文礼. 基于数据仓库技术设计与实现的科技数据管理系统[J]. 电脑知识与技术, 2014(10).
[3] 石永生. 基于数据仓库技术与数据集市的企业信息化探究[J]. 云南社会主义学院学报, 2014(1).
[4] 周峰,吴春. 发电集团“战略+运营管控”管控模式下的信息化应用集成方案研究[J]. 电子世界, 2014, 18:184-185.