电信数据质量管理与稽核研究
2012-06-11叶宇航贺仁龙程晓旭
叶宇航,贺仁龙,2,程晓旭
(1.中国电信股份有限公司上海研究院 上海200122;2.东华大学旭日工商管理学院 上海200051)
1 引言
为应对激烈的市场竞争,运营商越来越依托于精确化的数据统计分析以实现科学管理与决策。数据质量的好坏直接关系到信息提供的准确程度,数据质量问题得不到有效的解决,数据资产将不能有效反映企业运营和市场事实,经营决策将失去可靠依据。因此,有必要围绕企业数据生命周期,实现对关键数据的全过程质量监控,包括业务指标、维度、数据模型、接口文件等,加强数据稽核工作,保障数据的准确、及时、有效和可信,提升数据质量,从而提高经营分析以及决策支持的准确性,协助业务人员实现准确、迅速的市场决策以及经营分析,获得可持续市场发展能力。
2 数据质量管理的研究
MIT-TDQM(麻省理工全面数据质量管理)数据质量改进模型提出了基于信息系统所生产的数据产品的质量管理体系。数据质量管理的方法基于TDQM的思想,应包括质量的定义、度量、分析和改进(即 DMAI)4个过程,如图1所示。数据作为信息系统所生产的产品,也应该将其作为具有生产周期的产品进行管理,要由专门的人员按照如下4个环节管理数据产生的过程和结果。
图1 全面数据质量管理方法论
2.1 数据质量的定义
数据质量即数据的“完好性”,反映了数据提供者、生产者和管理者对数据不同角度的质量要求,是数据满足使用需要的合适程度。数据质量的基本要求为数据的五性:准确性、及时性、一致性、完整性、逻辑性,具体介绍见表1。
2.2 数据质量的度量
数据质量的度量是用数据的一组固有特性来衡量满足要求的程度,是数据可用性的判断标准,只有明确了质量标准,才可以识别出哪些数据是好数据,哪些数据是脏数据、劣质数据。根据数据及其质量定义,确定指标体系,跟踪数据的量度,监控数据质量,见表2。
2.3 数据质量的分析
数据质量分析应从数据生命周期全过程着手,按照数据度量标准的要求,分析质量问题出现的原因,形成数据质量分析报告,见表3。
2.4 数据质量的提升
数据质量的提升与改进应当包括如下3方面。
·与计划目标找差异:针对评估报告与数据质量度量标准,确定差异点,按应用重点和影响度圈定重点影响范围。
·制定提升策略:根据对标差异,依据实际选择重点提升目标,制定当期重点质量提升计划,纳入企业整个质量体系改进计划。
表1 数据质量“五性”
表2 数据质量的度量维度
表3 数据全生命周期的数据质量分析
·审计、分析、评估:根据数据质量检查的情况,定期或不定期地生成相关的数据质量评估报告。
3 电信企业数据仓库开展数据稽核的方案研究
在企业数据仓库中,数据经过接口数据层、整合数据层、汇总数据层进行层层汇总,接口数据可能被上层多个数据集中使用,底层的数据问题很容易被放大,产生“误差放大”的效应;由于数据仓库中的数据存在这种层次间放大的特点,数据稽核必须重视最初的数据处理环节,从数据接口开始就必须进行认真核查,并且整个过程中每个环节完成之后都要进行,以避免数据错误被不断扩大。数据稽核的目的是保证数据在处理过程中各个环节数据的正确、完整,因此应在数据处理的每个环节完成时对数据进行稽核,总体上包含接口数据层稽核、整合层数据稽核、汇总层数据稽核3部分。
接口数据层稽核见表4。对接口数据与源系统数据的一致性进行检查,以保证数据的一致性;对源系统提供的数据进行逻辑性检查,保证逻辑性的正确,具体包括文件规范性检查、文件传送完整性检查、文件加载正确性检查。
整合数据层稽核见表5。对整合的数据进行检查,一方面检查与源系统的一致性,另一方面从数据库约束规则和记录级的业务规则方面进行正确性检查,还要比较接口层和整合层数据的逻辑性。
汇总数据层稽核见表6。通过电信汇总级的业务规则,对企业数据仓库生成的汇总数据进行检查,以验证数据的正确性。
4 构建电信数据质量管理与稽核系统
4.1 数据质量管理与稽核流程
数据质量管理的整个过程可以抽象为一个闭环处理流程。数据源、元数据的变更有可能引发稽核点/稽核规则的变更,从而导致系统出现异常,产生告警,告警达到严重等级时,将升级为数据质量问题。告警及问题的处理经验和方案不断被汇总,充实数据质量监控及评估报告等。这些理论知识的积累将进一步促进系统功能的提升,完善数据质量的管控。
表4 接口数据层稽核
表5 整合数据层稽核
表6 汇总数据层稽核
图2 数据质量管理与稽核流程
数据质量管理与稽核流程如图2所示,包括如下几个方面。
(1)数据稽核变更控制流程
生产系统数据源变更、企业数据仓库元数据变更或者发现的数据质量问题(如告警阈值需调整)等引发稽核点或者稽核规则变更时,将触发数据稽核变更控制流程。
(2)数据质量告警处理流程
数据质量管理系统在监控过程中发现异常时,自动触发告警后的相应处理过程。此时的告警为非严重告警,企业数据仓库运维人员通过分析,判定是否将告警转置为数据质量问题,从而进入数据质量问题处理流程。
(3)数据质量问题处理流程
数据质量管理系统发现严重告警、企业数据仓库运维人员或业务部门等发现数据问题时,将引发数据质量问题处理流程。数据质量管理员接收到数据质量问题后,组织协调企业数据仓库运维、生产系统运维或者业务部门人员进行问题的分析与处理。
(4)数据质量报告管理流程
需要进行数据质量监控状况或者数据质量评估结果汇报时,由数据质量管理人员根据需要定期生成数据质量监控报告、数据质量评估报告等,从而引发数据质量报告的生成、评估、发布及归档等一系列的管理流程。
4.2 数据质量管理与稽核系统功能设计
结合数据质量管理与稽核流程,为保证数据质量问题能够及时、有效地得到解决,有必要构建数据质量管理与稽核系统。在企业数据仓库的数据处理主要阶段设置数据质量稽核点,实现对数据源系统数据接口质量的监控,支持对数据质量的全程监控;并在各数据质量监测点上,实现数据质量稽核规则的灵活配置,并提供常见问题的处理方法,促进数据质量管理的标准化、自动化、日常化;进一步加强对数据源侧数据质量的监控和分析,并实现企业数据仓库数据管理与稽核流程和数据源侧相关管理流程的对接,促进跨系统的数据质量管理过程的协调和互动。
通过对数据质量管理与稽核流程的分析,设计的系统功能框架如图3所示,主要包括数据集合点管理、数据稽核任务管理、数据质量告警管理、稽核问题管理和数据质量评估5个模块。
其中,各模块功能见表7,数据交互关系介绍如下。
·稽核指标配置产生的指标数据会作为稽核规则配置的输入,稽核规则配置产生的规则数据会作为稽核点配置的输入,稽核点配置产生的稽核点数据会作为任务定义的输入。
图3 数据管理与稽核系统功能框架
表7 数据质量管理系统功能要求
·任务定义产生的任务规格数据以及告警规则配置产生的告警规则会被任务调度引用;任务调度产生的告警信息、数据质量信息会作为任务运行监控、告警查询、告警处理、数据质量报表的数据来源;告警处理会作为问题生成的来源之一。
·问题监控处理产生的数据会作为稽核问题处理报表的数据来源,问题监控总结产生的知识会作为数据质量知识管理的数据来源。
·数据质量报表和稽核问题处理报表都可以作为数据质量评估报告管理的输入。
5 结束语
本文在全面研究数据质量管理理论的基础上,形成了针对电信企业数据质量的定义、度量、分析与改进的闭环管理方法,并结合对电信企业数据仓库开展数据稽核方案的探讨,完成了数据质量管理与稽核系统的构建,实现数据质量管理与稽核全过程的自动化处理,为电信业界开展数据质量管理工作提供了帮助。
1 侯延湘.数据质量管理及在数据仓库实现探讨.吉林大学硕士学位论文,2007
2 姚宇峰.电信收入保障中数据稽核平衡关系式的研究.电脑知识与技术,2009,5(20):5 348~5 350