APP下载

基于全生命周期的数据质量管理研究与实践

2017-12-19范媛媛

商情 2017年41期
关键词:数据质量全生命周期

范媛媛

[摘要]信息化时代呈现出数字化、网络化、智能化特征,数据逐步成为新的生产要素,发挥着越来越重要的作用。如何提高数据的可靠性可用性,最大程度发挥数据资产价值,已经提升到企业的核心战略问题。本文简要介绍了数据质量管理定义、数据质量问题成因和评价维度,并重点从组织、制度、技术和内容四个方面对国开行的全生命周期数据质量管理实践进行了分析。

[关键词]数据质量;数据质量管理;全生命周期

一、概述

(一)数据质量管理定义

数据质量是数据的可用程度,即数据满足业务运行、管理与决策的程度,可通过准确性、完整性、一致性等指标予以衡量。

数据质量管理是指对数据从获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

(二)数据质量问题的成因和评价维度

数据质量问题产生于数据管理整个生命周期的各个环节,是由业务、技术和管理等多方面因素造成的。例如:业务需求阶段,业务部门重业务流程轻需求分析,导致数据需求不完备不准确:系统设计阶段,架构不合理功能重复建设,造成数据重复录入内容不一致;人工采录阶段,随意性强不按格式要求填写;系统记录阶段,缺少校验与预警,造成错误数据输入或信息缺失;数据整合阶段,存在跨系统数据不一致或数据不及时情况:数据应用阶段,多头管理造成名称不统一口径不一致。

结合数据质量问题成因分析及业界通用方法,数据质量问题的评价维度有五个方面。准确性描述数据是否准确、真实反映实际信息,以及是否符合数据标准的要求:完整性描述业务操作所需要的数据是否完备:一致性反映同一个业务实体的数据及其属性是否具有一致的定义和含义,不同系统间的数据是否保持一致:时效性描述数据是否能够及时被获取,并反映当前业务情况:适当性描述数据是否在可控、安全的范围内发布和使用。

(三)数据质量管理体系

数据质量管理是数据治理的核心内容之一,需从组织、制度、流程、技术等多层面构建数据质量管理框架体系。只有建立完整的数据质量管理框架,以制度规范为约束、以组织机制为保障、以技术工具为支撑,才能从设计、开发、生产等各个环节发现数据质量问题,并提炼相应的数据质量检查规则,进行贯穿事前、事中和事后的全面治理,有效提升数据整体质量,从而提供更为精确的决策分析数据。

二、国开行基于全生命周期数据质量管理实践

基于“数据全生命周期管理理念”,国开行从组织、制度、技术和管理内容四位一体开展工作,注重业务和技术衔接、落实与执行,初步建立了企业级数据质量管理框架体系。

(一)组织与角色

鉴于数据质量管理工作的跨部门跨领域协作特点,国开行建立了高层决策、数据管理部门统筹、全行参与的企业级数据质量管理组织机制。

决策层由信息科技委员会领导下的数据管控与应用工作组构成,负责数据质量工作的整体组织与协调:管理层由数据管理中心构成,是全行数据质量归口管理和监督的职能部门,负责数据质量管理工作的規划、设计、实施和考核:执行层由总行各业务部门、各分行和总行技术部门构成,业务部门是所属业务条线数据质量推动的直接责任部门,负责从业务层面参与数据质量管理工作,各分行负责按照业务流程进行数据录入和维护,及时发现和提交数据质量问题,参与数据质量问题分析和整改工作。技术部门负责从技术层面参与数据质量管理工作。

(二)制度与规范

通过数据质量管理制度与规范的制定,使得数据管理工作更加体系化、规范化,为实现数据管理目标打下坚实的基础。国开行建立了从管理办法、工作指南到细则的制度体系,《管理办法》提供数据质量管理的高阶规范,《工作指南》落地指导管理和考核工作,《细则》覆盖了数据质量考核、数据变更、采录认责、管控前移、通报机制等数据质量管理职能域的执行规范。

(三)技术工具支撑

分层级数据质量检核是保障全过程数据质量问题监测的重要技术。国开行分别在业务源系统、数据平台和数据类应用系统建立从数据产生、数据集成到数据使用的多点多级联动数据质量检核规则。

业务源系统录入端是数据质量问题产生的最初来源,加强源头控制是数据质量管理的切入点。在源系统录入界面嵌入字段检核规则,比如非空数据项的必输校验、数据格式校验和一致性检查、代码类数据的菜单选择等。

基础数据平台类系统集成不同源系统的数据,并按照数据模型进行整合,是企业内部数据的最主要汇聚点,也是数据质量问题暴露最多的地方,比如:系统间一致性的检核、系统间关联错误检核。来自业务源系统的数据每天会加载到基础数据平台,此处可跟踪数据质量问题的解决情况,作为数据质量问题整改的依据。

数据类应用系统是数据质量检核的最后一道防线,根据对数据的使用目标来定义数据应当满足的质量标准并设计对应的检核规则。作为数据的最终使用者,此处可评估数据质量治理的成效,并设定后续数据质量治理目标。

(四)管理内容和流程

从数据产生的时点审视,数据质量管理的管理对象包括历史数据、当前数据和未来数据,数据质量提升要做到事前防范、事中监控和事后改善。管理流程设计需包括数据质量基础建立、数据质量监控、数据质量分析、数据质量改进和设计质量评估五个方面。

事前防范侧重面向未来的数据(指未来业务运营过程中可能新增的数据),防患于未然。通过业务流程优化、源系统改造等方式保证未来数据质量。事中监控侧重当前的数据(指当前数据质量检查周期内更新的数据),根据数据质量检核规则,对数据质量进行持续的周期性的监测。事后改善侧重面向历史的数据(指某时间点前已经生成的数据),按业务系统或者主题分批对数据进行剖析、清洗,提高既有数据的质量。

三、结束语

随着大数据技术不断深入,面对模态繁多的数据类型和几何级增长的海量数据,传统的数据质量管理面临着新的挑战和要求,下一步需要重点关注非结构化数据和外部数据的数据质量管理方法,以保障大数据的风险可控、安全合规和价值创造。endprint

猜你喜欢

数据质量全生命周期
全生命周期视角下基础设施类PPP项目利益相关者分析
二维码标识管理系统在教育装备管理中的应用
天然气管道建设项目全生命周期风险管理研究
电子商务平台数据质量控制系统及仿真模型分析
强化统计执法提高数据质量
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
绿色建材全生命周期的研究与落实方法
范式转换视角下建筑工程全生命周期的工程造价管理研究