浅谈数据治理在数据质量管理中的作用
2016-12-30续瑾成
续瑾成
(中国石油大港油田公司 信息中心,天津 300000)
浅谈数据治理在数据质量管理中的作用
续瑾成
(中国石油大港油田公司 信息中心,天津 300000)
当今社会,很多大型公司和机构拥有大量但分散在所有运营系统中的客户、产品和供应商相关的信息。没有合适的监督,数据的质量将不断下降。数据质量管理是一门学科,包含度量、改进和验证组织数据质量和完整性的方法。数据质量包括数据标准化、匹配、寿命和持续的质量监控。数据治理组织需要建立策略来识别高价值数据属性,建立机制来不断提高数据质量。
大数据;数据质量管理;数据治理
1 建立数据质量策略
各个应用系统、业务部门都拥有对其运作至关重要的数据,因此,了解数据是非常重要的。建立数据质量策略与数据治理流程中“了解数据”的步骤紧密连接。首先,在数据治理组织识别了业务驱动的数据治理关键绩效指标后,就很容易确定具有最高价值的数据属性。其次,数据治理组织还需要制定可接受的数据质量水平策略。最后,数据治理组织需要制定处理数据质量问题的策略和规程。
2 建立数据治理组织架构
健全的数据治理组织是全面开展数据治理工作的基础,数据治理组织应包括管理人员、业务人员和技术人员,缺一不可。数据治理组织可以设置三种角色,数据治理委员会、数据治理业务组、数据治理技术组。
数据治理委员会:由组织领导、信息技术部门负责人和业务部门负责人组成,委员会负责制定相关制度、目标、规范、流程、标准等,沟通协调,保障数据治理工作的全面顺利推进。
数据治理业务组:由业务部门的业务专家、系统管理员组成,负责业务系统参数、基础数据维护,保证系统正常使用;另外还要负责审核、检查、整改业务数据,保障数据质量在数据产生源头的高度和精度。
数据治理技术组:由信息技术部门的专业IT技术人员组成,包括系统开发人员、数据治理人员、数据库管理员。系统开发人员负责系统数据录入功能符合数据校验标准和数据治理标准;数据治理人员负责开发数据质量检测规则、监控数据质量、批量修改数据等工作;数据库管理员负责系统数据的备份、恢复、审核等工作。
3 设置数据质量基准
数据必须具有合适的质量,才能解决业务的需要。可通过多种方式评估数据集的质量。①效性。数据值具有可接受的格式。例如,员工编号为6位文字数字字符。②唯一性。数据字段中没有重复的值。③完备性。数据字段中没有空值。例如,邮政编码应该始终填入到地址表中。④一致性。数据属性与可能基于该属性本身或多个属性制定的业务规则一致。⑤及时性。数据属性表示没有过时的信息。例如,没有客户合同拥有已过期的有效期。⑥准确性。数据属性是准确的。⑦符合业务规则。数据属性或数据属性组合遵守指定的业务规则。
4 建立主数据中心以实现对主数据的管理
要满足收入增长、成本减少和风险管理等基本战略目标,数据治理组织需要控制业务部门中的数据。这些信息中最有价值的部分(关于客户、产品、材料、供应商和账户的关键业务数据)常常称为主数据。
主数据十分重要,分散在整个企业的业务流程、系统和应用程序中。数据治理组织现在已认识到了主数据的战略价值,在大部分企业和组织中,多个应用系统、不同部门间需要共享数据的现象非常普遍,建立主数据中心不仅能避免各应用系统相互共享数据形成网状结构,同时能够保证对外提供准确、一致的数据。这其中,凡是需要交换、共享的数据都纳入到主数据范围,形成一致的、完整的、准确的核心业务数据,统一由主数据中心完成对外提供数据的任务。建立主数据中心不仅仅是技术工作,除开发、维护外还需要制定开发规范、管理规范、管理流程,共同规范主数据的使用。
5 实现数据质量管理和数据治理的良好结合
数据质量管理应当是与整个公司组织的数据治理体系有机结合在一起的,数据标准为数据质量管理提供质量检查规则来源,而数据是否符合标准,是一个典型的数据质量问题,通过部署数据质量管理系统,可以对数据标准的落地实施提供监控和检验手段。
元数据管理系统可以作为数据质量管理的一个输入,辅助数据质量检查脚本的自动生成;而数据质量管理系统中存储的检核规则等信息又是一项元数据,应当被元数据管理系统采集。
数据安全管理中定义的数据所有者,是构建数据质量治理闭环流程,确定数据整改权责的重要依据。
6 数据质量管理流程的关键要素
数据质量管理流程应当涵盖从“数据产生”到“数据集成”再到“数据使用”在内的全过程,为了进行有效的数据质量管理,数据质量管理的不同功能点应当分布在流程的恰当环节,基于基础数据平台类系统构建数据质量管理系统,并将源系统、相关应用以及相关信息技术和业务用户都纳入到数据质量的发现-修正-跟踪-评估的闭环流程当中,是实施数据质量管理的最佳选择。
同时,数据质量管理成败的一个关键点在于合理有效的组织架构和流程,而不是管理系统自身,因此应当更重视数据质量管理配套的组织架构和流程建设。
因此,在构建数据质量管理体系时,需考虑以下5个关键因素:①跨部门以上领导的重视和牵头;②专门负责解决数据质量问题的组织;③专门负责解决数据质量问题的流程;④专门负责解决数据质量问题的平台;⑤专门负责侦测数据质量问题的工具。
10.3969/j.issn.1673 - 0194.2016.18.133
F830.49;TP311.13
A
1673-0194(2016)18-0192-01
2016-08-20