APP下载

一种基于统一管控体系的数据仓库的建设方法

2019-09-12王小红周炳

计算机时代 2019年8期
关键词:元数据数据仓库

王小红 周炳

摘  要: 数据仓库建设作为信息社会中人们提取信息的关键技术,已经相当成熟。但是传统数据仓库单独建设ETL调度子系统、数据质量管理子系统和元数据管理子系统的数据仓库体系,容易导致配套子系统描述的不一致。文章阐述了一种基于统一管控体系的数据仓库建设思路及其架构,通过构建新的管控体系改变传统的数据处理和管理方式,实现数据“统一采集、统一存储、统一管理、统一运营、统一服务”,解决了传统数据仓库各子功能系统之间无法良好协同、描述不一致的问题。该系统在实际应用中取得了较好的效果,具有较高的应用价值。

关键词: 数据仓库; ETL; 元数据; 统一管控体系; 数据生产线

中图分类号:TP311.52          文献标志码:A     文章编号:1006-8228(2019)08-40-04

Abstract: The construction of data warehouse, as a key technology for people to extract information in the information society, has been quite matured. However, traditional data warehouse can lead to the inconsistency of supporting subsystems, because subsystem of ETL scheduling, subsystem of data quality management and subsystem of metadata management are built separately. So a method of establishing data warehouse based on uniform data management and control system is introduced in this paper. The aim of "unified collection, unified storage, unified management, unified operation and unified service" can be achieved by the new management and control system, which substitutes the traditional data processing and management methods, and solves the problem that the sub-function systems of traditional data warehouse can not cooperate well and describe inconsistently. This system has achieved good effects, and has good practicability and high application value.

Key words: data warehouse; ETL; metadata; uniform data management and control system; data assembly line

0 引言

隨着社会的发展和技术的进步,数据已成为人类社会重要的资源,而社会信息化的发展也使数据量急剧增长,人们为了从大量数据中提取出能对预测、辅助决策有用的信息,使用各种技术手段,如可视化、BI、人工智能、大数据等,这些技术的实现均需良好的数据架构作为支撑基础,数据库已无法满足这种需求,主要体现在以下三个方面:一是历史数据量大,尽管软硬件的性能持续得到大幅度提升,但是仍然无法满足快速增长的数据量所需要的环境;二是辅助决策信息涉及多个部门、多个系统、多种格式的数据,而这些多样化的数据在数据库中是难以集成的;三是数据库主要用于OLTP,对于处理数据查询等OLAP操作的能力不足,对大量数据的访问性能明显下降。为了解决上述问题,人们提出了数据仓库的概念,并研究出数据仓库的建设方法。

然而,传统的数据仓库单独建设ETL调度子系统、数据质量管理子系统和元数据管理子系统等,这样容易导致各子系统之间无法良好协同,对同一数据的描述往往不一致,基于此我们提出建立包括ETL调度、元数据管理和数据质量等功能在内的统一的数据管控体系,改变传统的数据处理和管理方式。

1 数据仓库的基本内容

1.1 数据仓库

数据仓库是向业务主题的、集成的、基于历史的、信息本身相对稳定的数据及应用集合[1,2,3\,4],它通过建立面向数据分析服务的统一的数据存储平台,实现不同业务系统原始数据的清洗、整合和标准化,其主要内容包括三个方面。

⑴ 制定统一的数据标准[5]

数据标准是一套符合系统自身实际,涵盖定义、操作、应用多层次数据的标准化体系,是数据仓库建设的一项重要工作。

数据标准包括数据定义规范的标准化、数据编码的标准化、元数据标准化和数据质量的标准化等。

⑵ 实现内部数据的归口管理

归口管理指所有下游应用分析所需数据支持均平台统一提供,避免数据源的多头出口,从而提高各系统之间数据标准化和安全性。

⑶ 实现“一次采集、多次使用”

“一次采集、多次使用”是指下游应用系统由对生产系统的直接依赖变为依赖于各种粒度的汇总数据,这些不同粒度的数据由数据仓库统一加工且统一存储,从而减轻其对生产系统压力, 降低数据冗余和资源浪费,提高数据处理和数据分析的效率。

1.2 数据仓库的配套体系

数据仓库的建设和实施除了基础存储的建设外还包括周边的配套体系,包括ETL调度、元数据管理和数据质量管理等。

ETL[6-8] 是对操作数据库中的业务数据进行抽取、清洗、转换并将其载入数据仓库存储库的数据集成工具,其主要作用在于对各类业务数据进行清理、标准化和汇总,为基于数据仓库的决策分析应用提供高质量的数据。ETL负责按照统一的规则清洗并整合不同来源的数据,完成数据源向数据仓库转化的过程,是数据仓库的核心和关键环节。

元数据是关于数据的数据。在数据仓库系统中,元数据是描述数据仓库内数据的结构和建立方法的数据,它实现了对数据全生命周期的管控,包括数据的描述、数据与数据之间的依赖关系以及数据流转情况等信息,帮助数据管理员、开发人员和分析人员方便地找到他们所关心的数据[9,10,11,14]。

数据质量管理是对支持业务需求的数据进行全面质量管理,通过相关办法、流程、软件等,及时发现并解决数据质量问题,提升数据的完整性、及时性、准确性及一致性,提升业务价值[12-13]。

1.3 数据仓库的体系架构

数据仓库的体系架构是以基础数据存储平台为数据集合,在此基础上建设ETL调度子系统、数据质量管理子系统和元数据管理子系统等功能,如图1所示。

1.4 传统数据仓库体系存在的问题

由于传统的数据仓库体系单独建设ETL调度子系统、数据质量管理子系统和元数据管理子系统,因此存在以下几个问题:一是数据处理逻辑优化及ETL改造而相关描述文档未及时更新可能导致元数据与实际数据处理不一致;二是元数据不可信导致多角色的不能有效沟通;三是ETL与数据质量管理体系独立导致数据质量的可靠性无法随时掌控,且与数据处理过程无法互动。这些问题导致各子系统之间无法良好协同。

2 基于统一管控体系的数据仓库的架构体系

为了有效地解决传统数据仓库体系存在的描述不一致问题,我们提出了建立包括ETL调度、元数据管理和数据质量等功能在内的基于统一管控体系的数据仓库。

2.1 统一数据管控体系

统一数据管控体系是依托于数据仓库作为基础的数据存储平台,通过整合包括ETL调度管理、元数据管理和数据质量等功能建立全新的数据管控体系,改变传统的数据处理和管理方式。

2.2 基于统一管控体系的数据仓库的架构体系

基于统一管控体系的数据仓库的架构体系是以前端各业务系统的原始数据为数据源,通过ETL调度服务,定期将源数据抽取、加工并统一存储,由数据管控模块在此基础上开展一系列数据管控工作。

首先,数据管控模块提供数据对象之间依赖影响关系的管理,形成基于元数据的数据对象流,作为调度的惟一管理载体将多个数据源定期迁移至平台内部,并加工成长期的、变化的基础数据以及能够满足下游应用系统特定结构的结果数据,同时根据不同的数据结构及用途存储在相应的数据层或存储区域。

其次,ETL过程会根据所制订的数据标准及相关规范,对进入平台的数据进行清洗、标准化处理以及数据整合,最终形成清洗完成的、标准化的数据,供后续使用。

再次,数据管控模块根据预设的数据质量检查规则定期对数据对象进行监控,并将结果以发送报告、报表和告警等形式反馈给相应环节。这为保证系统数据质量提供数据校验手段和管理控制手段,具体系统架构见图2。

与图1所示的传统数据仓库的体系架构相比,图2所示的基于统一管控体系数据仓库系统采用的统一数据管控平台集中提供ETL调度、元数据管理、数据质量管理等功能。

3 基于统一管控体系数据仓库的内容与建设

3.1 基于统一管控体系数据仓库的主要内容

基于统一管控体系数据仓库通过改变传统的数据处理和管理方式,實现数据“统一采集、统一存储、统一管理、统一运营、统一服务”,具体包括以下几点。

⑴ 构建面向数据处理的统一管控框架

构建面向数据处理的统一管控框架是通过标准化数据处理模式,基于可视化、规范化的数据处理手段,实现系统后台数据处理合理的业务透明度,彻底杜绝技术实现的黑盒化,实现数据资产业务化的“可视、可管、可控”。

⑵ 实现模型和数据处理的标准化、规范化

实现模型和数据处理的标准化、规范化是指标准化数据处理流程和代码编写规范,对命名规则、分层模型进行统一管理,能够对数据处理过程输出的元数据进行规范性、完整性、时效性检查控制,从而保证数据处理质量。

⑶ 实现数据处理过程中元数据、数据质量的统一管控

实现数据处理过程中元数据、数据质量的统一管控是指对元数据强制前向获取、规范性的数据处理、数据质量控制方法和技术管理手段,实现数据处理链路的追根溯源和全程审计。建立保证业务元数据、技术元数据和代码的强一致性保障机制并通过数据管控平台承载,有效降低数据处理过程中的监管成本,实现管理流程和技术手段的良好融合和相互促进。

⑷ 建设系统知识库

建设系统知识库是通过技术手段保证数据处理经验的有效传承,降低开发人员个性和流失带来影响;通过知识管理手段,降低对文档系统的依赖。

3.2 基于统一管控体系数据仓库的建设方法

基于统一管控体系数据仓库借鉴了制造业的生产方法,提出以数据为中心采用工具化、流程化、自动化的手段开展一切数据生产和管理活动。

首先,对数据加工处理过程进行抽象,把数据加工处理分为数据输入、加工处理、数据输出三个步骤,对应这三个步骤,数据从原材料转变为半成品,最终成为成品(如决策分析报表)(见图3)。

最后,通过将不同数据对象的组合,实现数据工厂的核心——数据生产线。数据生产线以数据对象关系图(即元数据血缘图)作为核心调度,描述了数据以时间为轴的加工顺序,形成数据对象流调度。每个数据对象需要管理好自己的元数据,并完成对自己的所有加工和质量控制的操作。

因此,之前的ETL调度和监控、元数据管理以及数据质量管理,不再是独立的实体,而是数据生产线的视图(见图5)。

模型的定义和开发、模型的管理和调度、模型的运行和监控、元数据管理、数据质量管理等均基于同一套数据对象流并在不同视图中展示,提升对系统、数据的管控能力:

⑴ 通过数据对象实现知识的集中化管理,数据对象融合了库内外加工、元数据、数据质量管理、调度管理等功能,解决了不同功能之间互动和一致性保证的难题。

⑵ 系统调度的逻辑就是元数据的血缘分析图,由多组单向的数据对象的流动构成的一张由数据对象构成的单向无环图(Directed Acyclic Graph),内嵌在数据对象里的质量控制,可以低成本高效地解决传统调度面临的问题定位和修复问题最小代价等难题。

⑶ 业务元数据驱动的数据对象流,可以实现数据全程的可控,最小化了业务和技术沟通的成本。

4 结束语

基于统一管控体系的数据仓库,改变了容易导致各系统之间无法良好协同传统分散的数据处理和管理方式,解决了传统的数据仓库各子功能系统之间无法良好协同的问题,降低了数据仓库系统的复杂度和开发维护成本,保障系统的基于统一数据对象管理下的可视、可管、可控,促进系统持续、稳定、健康的发展,满足多样化的业务应用分析需求。

参考文献(References):

[1] W H Inmon.王志海等译. 数据仓库(第3版)[M].机械工业出版社,2003.

[2] 余丹.银行企业级数据仓库建设研究[D].吉林大学硕士学位论文,2009.

[3] 高翔,刘峰,张殿东.商业银行数据仓库建模研究与设计[J].计算机与数字工程,2010.38 (8):81-82

[4] 王威. 个人征信数据仓库系统的设计[D]. 对外经济贸易大学,2006.

[5] 刘晨,苏颖.一种面向数据仓库项目数据接入的基于数据元素的数据质量管理方法[C]//科技信息资源共享促进国际会议,2011.

[6] 张晖. 基于工作流和元數据的ETL工具研究与实现[D].河北工业大学, 2006.

[7] 孙伟,张忠能.ETL架构研究[J].微型电脑应用,2005.21(3):34-37

[8] 王克龙等.数据仓库中 ETL 技术的探讨与实践[J].计算机应用与软件,2005.22(11):30-3

[9] 罗兵.基于元数据控制的ETL系统应用研究[D]. 西南大学,2006.

[10] 陈德莉. 元数据实施方法的研究[C]//中国烟草学会学术年会.2011.

[11] 孙力君,仇道霞,方峻峰,宋楠. 浅析数据仓库中的元数据管理技术[J].齐鲁工业大学学报(自然科学版),2009.23 (2):58-62

[12] 孙中东.企业级数据治理框架下的数据质量管理[J].金融电子化,2011.6:57-60

[13] 程大庆,郑承满. 数据仓库数据质量的治理及体系构建[J].中国金融电脑,2011.6:28-34

[14] 栾晓宇.基于元数据驱动的企业级数据仓库系统[J].计算机系统应用,2015.24(2):99-107

猜你喜欢

元数据数据仓库
基于数据仓库的数据倾斜解决方案研究
基于数据仓库的住房城乡建设信息系统整合研究
页岩气工程大数据仓库建设与管理系统开发
分布式存储系统在液晶面板制造数据仓库中的设计
元数据与社会化标签在微视频搜索中的应用
高等院校智慧校园建设规划与实现
探析电力系统调度中数据仓库技术的应用
财会信息资源元数据标准的研究
基于隐语义模型和用户信任的个性化推荐模型
基于数据仓库的数据分析探索与实践