APP下载

数据治理:让数据质量更好

2014-03-15高亮

中国教育网络 2014年12期
关键词:超级计算机标准质量

文/高亮

数据治理:让数据质量更好

文/高亮

大数据时代数据产生的价值越来越大,基于数据的相关技术、应用形式也在快速发展,开发基于数据的新型应用已经成为高校信息化建设的一个重点领域。当前各大厂商、用户都在探索与数据相关的开发技术、应用场景和商业模式,最终目的就是挖掘数据价值,推动业务发展,实现盈利。目前数据应用项目非常多,但真正取得预期效果的项目少之又少,而且开发过程困难重重,其中的一个重要原因就是数据质量问题导致许多预期需求无法实现。如果没有数据治理,再多的业务和技术投入都是徒劳的,因为很经典的一句话:Garbage in Garbage out。数据治理是保证数据质量的必需手段,从全球范围来看,加强数据治理提升数据质量已成为企业提升管理能力的重要任务。

数据治理是一个系统的、大型的、长期的工程,大型企业已经开始了实施,并取得了一定成果,但目前高校在数据治理方面还没有开始真正意义上的实践,究其原因,一方面高校还没有把数据治理的重要性提升到战略高度,另一方面没有将数据治理单独作为课题研究,没有形成系统的实施方法论。本文从管理和技术两方面出发探索适合高校信息化建设的数据治理方法,形成包含组织、制度、标准、流程、安全、技术等内容的数据治理方案,从而打造高校绿色数据生态环境,为数据应用提供基础保障。

图1 数据治理与数据管理职能关系

数据治理概念

数据治理并不是一个新生事物,可以说,有数据的地方就存在数据治理,只不过随着数据应用的迅猛发展将它提到了一个高度,作为一个独立的研究领域。数据治理并没有标准的、严格的定义,概况地讲,所有为提高数据质量而展开的业务、技术和管理活动都属于数据治理范畴。

数据治理的英文是Data Governance,《DAMA 数据管理知识体系指南》一书给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。数据治理职能指导其他数据管理职能如何执行,图1说明了数据治理与其他几个数据管理职能的关系。

数据治理是技术与管理相结合的一套持续改善管理机制,贯穿在数据管理的整个过程中,通常包括了组织架构、政策制度、技术工具、数据标准、流程规范、监督及考核等方方面面,将其他几个数据管理职能贯穿、协同在一起,让企业的数据工作成为一个有机整体而不是各自为政。数据治理涉及的IT技术主题众多,包括元数据管理、主数据管理、数据质量、数据集成、监控与报告等。

数据治理体系框架

仅仅依靠技术手段,以建设系统的方式是难以有效解决数据治理面临的所有问题。构建数据治理体系是数据治理工作的基础,为了有序实施数据治理,应采用规划先行的原则,制定适合高校业务特点的管理流程,选择可行的技术方案和实施工具,明确数据治理的工作机制和工作内容,稳步推进数据治理各项工作,数据治理体系框架如图2所示。

战略:数据治理是在高校发展战略和规划的指导下进行实施的,这些战略和规划包括业务发展目标、IT规划以及数据治理相关的发展规划。

机制:机制是数据治理工作实施的基础保障,通过组织、制度、流程的建设和执行得以落实。机制是数据治理工作的重点,数据治理执行效果就是机制落实的效果。

专题:数据治理专题是数据治理的工作内容,包括数据标准、数据治理、元数据、主数据、数据生命周期等方面。

实施:数据治理工作最终在相关制度、规范和流程下通过数据治理组织借助技术手段和管理手段来实现。包括系统开发阶段为提高数据质量进行的校验设计;系统日常运维工作;数据分析应用阶段的数据集成;数据质量监控等。

数据治理措施

管理措施

1.提高全面思想认识

毋庸置疑,数据是高校的宝贵资产,各高校已经意识到数据质量的重要性,但是并没有将数据治理提到战略高度,信息化建设的重点仍然是应用系统建设和运维。数据治理是一个系统工程,需要管理层、系统开发人员、系统使用人员、系统维护人员多方协作才能进行。目前最大的问题就是各方人员对数据治理的认识还处于盲区,他们并没有意识到数据治理的重要性,因此数据治理首先要从上到下全面提高思想认识,保证在系统建设、系统运行、系统维护各个环节都能重视数据治理。

2.成立数据治理组织

健全的数据治理组织是全面开展数据治理工作的基础,数据治理组织应包括管理人员、业务人员和技术人员,缺一不可。数据治理组织可以设置三种角色,数据治理委员会、数据治理业务组、数据治理技术组。

图2 数据治理体系框架

数据治理委员会:由校领导、IT部门负责人和业务部门负责人组成,负责制定数据治理的目标、制度、规范、流程、标准等,沟通协调,解决相关人员责、权、利问题,推行数据治理文化。

数据治理业务组:由业务部门业务专家、业务部门系统管理员组成,负责业务系统参数、基础数据维护,保证系统正常使用;负责审核、检查、整改业务数据,在数据产生源头提高数据质量。

数据治理技术组:由IT部门的相关技术人员组成,包括系统开发人员、数据治理人员、数据库管理员。系统开发人员负责系统数据录入功能符合数据校验标准和数据治理标准;数据治理人员负责开发数据质量检测规则、监控数据质量、批量修改数据等工作;数据库管理员负责系统数据的备份、恢复、安全、审计等工作。

3.建立数据标准体系

一般来说,信息化建设应遵循标准先行的原则,在应用系统建设初期就应该制定高校内部数据标准体系,保证各业务部门、各业务系统使用相同的数据标准,提高部门间、系统间数据共享能力,避免形成信息孤岛。数据标准体系包括数据标准、技术标准、管理标准、数据质量标准等内容,可以成立由业务人员和技术人员组成的数据标准制定小组,负责数据标准体系的制定、维护、宣传、解释等工作。

4. 制定数据质量管控规范

由于高校缺乏明确的数据质量管控规范、流程,导致数据治理相关人员职责划分不清,缺乏专职人员在不同阶段对数据质量负责。通过制定数据质量管控规范,使相关人员明确在数据产生、存储、应用整个生命周期中数据治理包含的工作内容和工作流程,形成校内统一管理体系。为了提高数据治理执行效率,有必要建立数据治理绩效考核,检验数据治理各个环节的效果。

5. 制定数据安全管理制度

保障数据安全是高校信息化的首要工作,高校应该制定贯穿于数据生命周期的数据安全管理制度,包括数据生成及传输、数据存储、数据处理及应用、数据销毁四个方面。安全管理制度主要用来规范员工在日常工作中安全地使用数据,并且指导技术人员如何实施数据安全工作。

技术措施

1.构建校级数据架构

高校构建的信息系统以满足功能应用为主,如果没有整体数据架构,应用系统就没有数据标准可参考,不可避免地会出现不同的应用系统使用不同的数据标准和数据库,导致数据交换、数据共享困难,数据冗余、数据完整性、数据一致性等问题突出。

理想情况下,高校在信息化初期就应该规划整体数据架构。一个完整的高校数据架构主要包括:数据标准、数据库产品线、主数据、元数据、数据质量、数据安全、数据交换、数据仓库。每一部分都需要作为独立的专题去建设,而且必须是技术与管理相结合的建设过程,最终形成高校全局数据架构。

2.加强信息系统设计

产生数据质量问题的第一个环节就是生成数据的源系统,在数据源头解决数据质量问题是提高数据质量非常有效的措施。加强信息系统设计和开发可以通过系统功能自动地规避大量数据质量常见问题。具体包括以下三个方面:

细化需求,在需求分析阶段增加对数据质量的详细要求;

加强数据库设计,使用3NF范式构建业务系统数据模型可以通过数据库有效解决数据冗余、不一致等问题;

系统开发阶段加强数据录入功能的设计和开发,提高界面友好性和校验功能,可以有效解决数据完整性、时效性等问题。

3.建立主数据中心

学校内部不同应用系统、不同部门间需要共享数据的现象非常普遍,建立主数据中心不仅能避免各应用系统相互共享数据形成网状结构,同时能够保证对外提供准确、一致的数据。一般地,主数据是描述核心业务实体的数据,如教师、学生、科研成果、资产等,这些数据变化相对缓慢并通常跨业务重复使用。这里我们结合实际需求情况扩大了主数据的范围,凡是需要交换、共享的数据都纳入到主数据范围,形成全校范围内一致的、完整的、准确的核心业务数据,统一由主数据中心完成对外提供数据的任务。建立主数据中心不仅仅是技术工作,除开发、维护外还需要制定开发规范、管理规范、管理流程,共同规范主数据的使用。

4.搭建数据质量监控平台

通过搭建数据质量监控平台可以实现数据质量自动检查、监控,平台包括数据质量检查规则库、规则执行引擎、数据质量报告、报告推送功能。平台的核心是规则库,与业务无关的规则由技术人员独立开发,与业务相关的规则需要技术人员和业务人员共同确定检查规则,然后编写规则脚本。规则执行引擎可以定时批量执行检查规则,及时发现数据质量问题,将数据质量报告第一时间推送给业务人员,有助于及时纠正问题数据。

5.实施数据安全工作

数据安全实施工作在数据安全管理制度的指导下执行,由技术人员完成,主要包括数据备份、恢复、脱敏、监控、审计等。

数据治理是高校信息化建设中提高数据应用水平和信息化管理水平的有效手段。数据治理是一项长期系统工程,贯穿于整个数据生命周期,不仅需要借助技术手段,更需要完善数据治理制度,包括规划、组织、机制、规范、流程等,只有全校各级人员高度重视和积极参与,逐步形成数据治理文化,数据治理才能取得成效,数据才能发挥更大的价值。

(作者单位为上海财经大学信息化办公室)

注:本文由上海财经大学211专项项目,数据仓库建设(2012330008)基金项目支持

美国将投资3.25亿美元开发全球最快超级计算机

美国能源部将与IBM、英伟达和Mellanox合作,在2017年之前投资3.25亿美元开发全球最快的超级计算机。这两款通过GPU(图形处理单元)加速的超级计算机分别名为Sierra和Summit,将依赖IBM的OpenPower芯片、英伟达最新的图形芯片Volta,以及Mellanox的高速网络。后者负责将超级计算机的元件联系在一起。

Summit将被部署在田纳西州的美国橡树岭国家实验室,用于民用和科研用途,也是两台超级计算机中性能更强的一台,峰值计算能力将达到每秒150至300千万亿次浮点运算。

Sierra将提供峰值100万亿次浮点运算的计算能力,并将被部署在加州的劳伦斯利物莫国家实验室,用于核武器模拟。

Sierra和Summit将远远超过美国和全球当前其他的超级计算机。橡树岭国家实验室的Titan目前是美国最强大的超级计算机,计算能力为峰值27千万亿次浮点运算,而全球记录的保持者、中国的“天河2号”计算能力为峰值55千万亿次浮点运算。

不过,IBM将采取“以数据为中心”的方式。通过将计算能力部署在数据存在的所有位置,IBM表示,这将使数据传输最小化,降低能耗。

Sierra和Summit能够以超过每秒17千万亿字节的速度将数据传输至处理器,这相当于在1秒时间内将超过1000亿张照片传送至Facebook。

IBM系统及技术集团高级副总裁汤姆·罗萨米利亚(Tom Rosamilia)表示:“这标志着传统超级计算机开发方式的转型,随着数据传输速度的提升,传统的超级计算机开发方式已经不再具有竞争力。IBM以数据为中心的方式是一种新的实现方法,代表了开放计算平台的未来,并且有能力应对越来越快的数据传输速度。”

(来自cnbeta.com)

猜你喜欢

超级计算机标准质量
超级计算机
2022 年3 月实施的工程建设标准
“质量”知识巩固
质量守恒定律考什么
超级计算机及其在航空航天领域中的应用
做梦导致睡眠质量差吗
忠诚的标准
美还是丑?
每秒100亿亿次 中国超级计算机
一家之言:新标准将解决快递业“成长中的烦恼”