APP下载

企业数据中心的研究与设计

2011-07-07林烈青

制造业自动化 2011年15期
关键词:数据仓库数据挖掘数据中心

林烈青

(广东工业大学,广州 511495)

0 引言

企业集团的营销、管理、财务和其他业务数据存储在各类管理信息系统和业务应用系统中,各自的数据库分散独立,数据格式和存储方式也不尽相同,难以实现系统间的信息交换和共享,不利于业务数据的集中管理和分析评估。如何实现数据的集中管理和交流共享,提高现代化管理水平,从而辅助企业决策是一项紧迫任务。因此建立企业数据中心,实现数据大集中,综合利用各种数据及时对企业发展作深层分析,是实现企业科学决策的必然选择。

1 数据中心的概念与系统架构

1.1 数据中心的概念

企业数据中心(Data Center)的概念是逐步发展而清晰的。狭义的企业数据中心是指企业一系列电子化数据的集合,其基本表现形式是结构化和非结构化数据的文本或数据库,包括各应用系统数据库、企业全局数据字典以及数据仓库。而广义的企业数据中心是指企业所有经过处理的电子化数据的集合以及存储和应用这些数据的计算机和网络环境,其表现形式除了信息网络、服务器、存储设备以及相关的机房环境外,还包括企业专用或通用数据库以及对数据实施收集、加工分析处理、管理、存储保护和查询检索服务的企业信息应用系统。

1.2 数据中心的系统架构

企业数据中心一般可由软件系统和硬件系统组成。软件系统由数据库、数据仓库、数据交换系统、数据中心门户、数据备份中心等组成。硬件系统包括服务器群、网络系统、电源系统以及相关的机房设施组成。数据中心的应用功能架构如图1所示。

图1 企业数据中心功能架构图

数据中心的数据源由企业现有的营销系统、财务系统、人事管理系统、计划统计系统、资产管理系统、OA系统等业务数据组成。数据交换系统是所有共享数据的集中池,向下从源数据库集成数据并保持同步更新,成为各个应用系统之间的共享数据通道;向上作为统计分析服务的数据源,向统计分析服务提供从各个应用系统集成过来的共享数据。数据交换系统统一了企业的主题数据库标准、数据代码标准、数据指标解释,从而达到数据的一致性,实现各种资源的整合。

数据中心的数据库由各项业务的主题数据库、数据仓库、扩展数据库组成,它们是不同应用层次的数据资源体系。主题数据库包含所有业务系统的核心基础数据,统一企业的全局数据字典和管理业务数据的编码等规范。扩展数据库是在相应业务主题数据库的基础上扩展各业务系统专用的其他数据而成。数据仓库是通过抽取方式,对数据中心的主题数据库信息进一步钻取、清洗、转换、存储及管理,可以建立多维的数据分析和挖掘主题,或根据业务需要建立数据分析模型及算法,支持企业决策。

数据中心的门户平台提供统一的数据展现界面,实现统一的用户管理和系统资源管理,在数据交换渠道上通过E T L 应用与应用系统连接;在数据表现上将数据中心门户集成到企业信息门户;在运行管理上将关键管理数据以接口方式汇集到企业全局数据字典进行集中监管。

2 数据中心的核心交换系统

图2 数据交换系统逻辑体系图

数据中心的核心组件是数据交换系统。数据交换系统的设计遵循分层次原则,在统一规划的前提下,不同业务系统的数据保持相对独立性,重点解决跨部门、跨系统数据一致性和数据共享交换问题。数据结构设计具有扩充性,同时要保证业务系统的稳定性,建立共同遵守的统一标准和规范,解决系统间信息的互连互通,支持业务开展、横向的信息交换和宏观管理的要求。数据交换系统的逻辑体系如图2所示。

数据交换系统从纵向看是一个多层结构,主要分为数据获取层、数据转换与存储层、数据访问层三大层次。数据获取层将各业务系统传送来的数据文件进行预处理和格式检查,然后分类存放在临时存储区中;数据转换与存储层包括第一次ETL、ODS、第二次ETL、DW和数据仓库接口。数据访问层通过数据仓库接口使用DW中的数据,向外提供统计报表、OLAP分析、即席查询、数据挖掘等应用。从系统外部来看,应用逻辑层负责提供所有应用,其分布式结构可以由应用服务器(OLAP服务器、统计型报表服务器等)和WEB服务器构成,通过图形用户界面(GUI)、Web浏览器等多种方式为用户提供友好的界面访问。

数据交换系统从横向看还包括了元数据管理和系统管理。元数据管理主要对各种元数据进行添加、删除、查询和修改操作,包括数据源元数据管理、ETL规则管理、ODS元数据管理、数据仓库元数据管理、应用逻辑元数据管理。系统管理则负责整个系统的管理工作,主要有用户权限管理、系统监视、接口管理。其中,用户权限管理负责用户基本信息管理、权限管理、用户权限分配;系统监测负责日志管理、系统管理任务提示、系统服务进程监测和数据存储空间的监视;接口管理负责对数据仓库接口、数据文件接口进行管理。

2.1 数据获取层

数据获取的数据源主要是各业务管理系统。数据获取的方法可以多样化,部门预算编制系统、预算执行系统等可通过授权访问的方式来实现联机读取,OA系统可通过系统专用接口抽取数据,其他业务系统的数据如电子表格等可采取FTP方式进行上传。此外,数据获取还支持用户手工录入数据,包括界面录入和文件载入。

数据获取层的模型如图3所示。数据获取模块监控源数据的到来,并记录源数据的采集日志。采集数据时,激活数据接口协议检查模块对源数据文件进行预处理和格式检查,将源数据接口文件装载入接口数据缓冲区。当发现源数据文件有错误的时候,形成错误文件的接口状态报告,并将信息反馈给数据源端。

整个采集和数据接口检查都由数据获取调度管理模块进行统一调度。如源数据已经超过保存期限时,将其转换为历史接口数据文件并脱机保存。

图3 数据获取层

2.2 数据转换及存储层

数据转换及存储层负责数据清洗、生成数据仓库和存储应用数据。在本层中,数据仓库包括操作型数据库和分析型数据库,应用数据包括数据集市和数据挖掘样本数据。

图4 数据转换及存储层

数据转换及存储层的模型如图4所示。本层次包括了三次ETL过程:从数据缓冲区到操作型数据库的第一次ETL过程,将经过清洁、集成后的数据装载到ODS数据存储区中,形成明细的单位信息、科目信息、项目信息、业务信息、文档信息等。从操作型数据库到分析型数据库的第二次ETL过程,通过ODS数据存储区抽取数据,以面向主题方式将数据重新组织、转换、综合后装载到DW数据存储区中。从仓库数据到应用数据的第三次ETL过程,是从仓库数据到数据集市以及从仓库数据到数据挖掘样本数据的ETL过程,从DW抽取数据后,以面向应用方式为管理业务提供数据支持。

2.3 数据访问层

数据访问层是用户与系统交互的界面,通过数据访问层来获取数据中心的信息。本层是一个典型的层次体系结构,由数据层(DB)、业务层和展现层组成,如图5所示。

LISP协议网络结构除了将LISP主机间的互通进行考虑外,还对LISP和非LISP主机间的通信进行了考虑。如图3给出了LISP和非LISP之间互通的整体网络架构。

1)数据层(DB):包括数据集市、数据挖掘样本数据等;

2)业务层:包括统计分析应用,如统计报表、OLAP、数据挖掘、即席查询,再往上抽象就是KPI、EIS、专题分析等应用逻辑组织;

3)展现层:主要是Web Portal和知识管理,Web Portal将用户接入到系统中,由知识管理负责为客户生成定制化的访问界面,同时辅助用户进行决策分析。

图5 数据访问层

数据访问层是用户获取分析数据,提取知识的窗口,提供了多维分析、即席查询、预定义报表、数据挖掘和Web查询等多种数据访问方式。

3 数据交换与共享机制

数据中心的数据交换与共享机制定义所有参与数据交换与共享的分布式应用系统为交换节点,数据中心为中心节点,如图6所示。

图6 数据交换与共享机制

首先,交换节点必须在中心节点进行注册来取得节点标识。节点与中心进行数据交换时,中心通过节点标识信息确认消息的发送方和接收方。数据中心的数据来源于各节点,数据采集由节点通过数据上传的方式来实现,每个节点负责维护业务上归属本节点的信息数据。数据采集后必须经过数据校验,保证数据中心采集的数据与该数据业务归属方数据的一致性,中心作为数据校验的发起方,将校验数据发送到该数据业务归属节点进行数据校验,校验结果由节点返回。节点可以在中心订阅所需数据,当订阅数据发生更改后,中心将更新数据并发送到订阅节点,实现数据的同步;当节点的本地数据发生更新后,实时将更新数据上传到数据中心。数据中心向各节点提供数据查询和信息发布服务,实现信息共享,并通过广播方式向各节点发送管理类信息。

4 数据中心的标准体系建设

数据中心的标准体系是企业信息化标准体系的重要组成部分,首先要进行数据中心标准化的总体设计,确定标准体系框架,制定统一的标准,另外还要开发相应的标准体系管理工具,建立标准符合性的检验机制等。具体来讲,应优先在数据指标体系、基础数据指标定义、数据分类、数据编码、数据交换格式与共享规范,以及数据文件命名规则和质量控制标准、系统转换接口、主题数据库的定义、主题数据库数据的使用维护机制等方面进行标准化。此外,企业信息网络、系统平台、软件架构、机房环境等方面也应进行规范,优先采用国际标准和国家标准,共同推进企业的整体信息化建设。

5 数据中心的安全保障

企业数据的大集中,极大的方便了数据的使用,同时也增大了安全风险。因此必须高度重视数据中心的安全防范措施,确保数据中心系统及数据的安全。数据中心的安全措施必须统一规划,建立安全访问认证体系、运行环境的安全保障系统以及完善的备份数据中心等。在数据中心各层次的安全技术实施过程中,必须建立严格的安全管理和运行制度,确保数据中心的环境安全、系统安全、网络安全和数据安全。建议采取如下安全技术:

1)建立网络安全技术体系,如配置防火墙、防病毒软件及入侵检测系统;

2)实施PKI/PMI认证和权限管理,保证数据的使用安全;

3)建立高可靠的冗余数据库系统和存储系统,保证数据的存储安全;

4)建立异地灾难备份数据库,保证基础数据的安全;

5)建立数据中心安全评估系统,及早发现安全隐患并及时解决。

6 结论

企业数据中心的建设是企业信息化深层发展的必然趋势,是实现企业现代化管理的重要措施。数据中心储存了企业的基础数据和各部门的业务数据,包括了企业的核心业务数据库和用于数据挖掘分析的数据仓库,实现了数据的一致性、完整性、有效性和准确性,形成了统一的信息资源体系。数据中心有效地实现了应用系统的整合,极大地加强了基础数据综合利用和数据共享水平,为企业提供数据综合分析和决策支持,有利于提高企业市场竞争优势,提升现代化管理水平。

[1] 王继业,辜体仁.电力企业数据中心建设探讨[J].电力信息化,2006,2:16-19.

[2] 胡金明,李健.基于B/S的企业数据采集系统设计与实现[J].自动化与仪表,2010,5:43-46.

[3] 姚家奕.数据仓库与数据挖掘技术原理及应用[M].北京:电子工业出版社,2009.

[4] 刘明德,陈湘.数据挖掘与OLAP理论与实务[M].北京:清华大学出版社,2003.

猜你喜欢

数据仓库数据挖掘数据中心
酒泉云计算大数据中心
浅析数据中心空调节能发展趋势
探讨人工智能与数据挖掘发展趋势
基于数据仓库的数据倾斜解决方案研究
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
关于建立“格萨尔文献数据中心”的初步构想
基于数据仓库的住房城乡建设信息系统整合研究
探析电力系统调度中数据仓库技术的应用
基于数据仓库的数据分析探索与实践
基于云计算的交通运输数据中心实现与应用