企业数据质量管控关键技术问题研究
2018-10-31徐彩云
徐彩云
摘要:数据质量的保证是企业信息化管理发挥作用的重要前提。本文提出了一个数据质量全程监控流程,该流程包括数据的采集、检查、报告、处理和总结,增加了数据可信度,提高了企业决策质量。
关键词:数据质量;全程监控;数据处理
中图分类号:TP311.52 文献标识码:A 文章编号:1007-9416(2018)06-0069-02
1 引言
近年来随着云计算、物联网、移动互联网的出现,数据信息时代已经来临。在信息大爆炸、商业竞争日益激烈的趋势下,企业对以数据为基础的信息化管理越来越重视。信息化管理可以实现对企业业务活动的监测、分析和检查,开展企业综合绩效、发展能力、竞争能力、风险管控等方面的运营分析,并对企业经营管理中存在的异常和问题进行警示并协调解决,是保障企业正常运行的有效手段。
数据是企业的信息化管理的灵魂。数据质量问题已经严重影响企业的成本控制、管理与跟踪、数据安全以及服务质量等方面。对企业数据质量管控技术展开研究,提高数据质量,促使企业信息化管理降低成本,提高企业决策质量,在竞争中获得优势。
2 数据质量控制研究现状
目前,国内外在数据质量控制方面的研究主要集中数据质量框架与模型研究、数据质量评估算法与模型研究方面。
2.1 数据质量框架与模型研究
在国外,英属哥伦比亚大学的ALARCOS研究团队提出并设计了CALDE数据质量模型,包括对数据成熟度划分和定义,每个成熟度的质量目标以及成熟度的评估方法。2011年斯坦福大学推出了一款集数据清洗与重组的大数据清洗工具Data Wrangler。同年,谷歌也推出了一款需在Java环境下运行的大数据清洗工具Gooogle Refine。
在国内,复旦大学的周傲英教授提出了一个可以通过不同模块来实现用户定义的相关规则和数据清洗任务的可扩展数据清洗框架。鲍宏庆等提出了一个基于领域知识的数据清洗框架,该框架借助领域专家和专家系统引擎通过获取数据和知识以及清洗规则,对整个数据集进行清洗。东南大学董逸生教授与其研究小组提出了一种新的基于规则描述的交互式数据清洗框架, 利用基于N-Gram的改进算法检测拼写错误,同时将在元数据库中存放清洗规则,方便元数据的管理。
2.2 数据质量评估算法与模型研究
在国外,R.Y.Wang等提出了AIM Quality数据产品质量评估方法论,包括数据质量评估模型、评估数据收集方法以及评价方法。WANG Hong-jian, XIONG Wei提出了一种将客观评价和主观评价相结合的数据质量评估模型,解决了如何将客户反馈信息纳入数据质量评估的问题。Zhang Weiwei等對多源异构多模态数据的质量进行了建模,提出了该类数据的综合质量评价方法。
在国内,武汉大学赵星、李石君等建立了面向互联网平台的统一数据模型和数据质量标准模型,给出针对大数据全样本数据分析的质量标准度量和标识方法。西安科技大学齐艺兰从数据环境、数据管理、数据处理和数据固有质量四个维度,建立了针对ERP系统数据的详细的评价指标体系。
3 数据质量存在的问题
由于企业数据增长速度快,数据类型复杂,目前在数据质量方面存在的问题主要有三个方面:(1)数据的多源性:同一数据可能来自多个数据源,由于角度不同可能产生理解偏差,导致数据质量问题;(2)数据处理过程中技术环节的异常:数据在创建、获取、传输、装载、使用、回收等任一环节出现议程都会导致数据质量问题;(3)数据处理流程设置不当:系统的建设容易忽视配套流程的制定和跟进。
从国内外现在的研究来看,针对数据全程实时监控的研究较少,主要集中在数据清洗、数据质量评估、数据处理等方面。因此本文主要针对企业数据在创建、获取、传输、使用、维护等阶段出现的问题,制定数据质量全程监控方案。为实现对企业业务活动、运营状况、经营绩效、财务等核心资源的在线实时监控提供最有利的数据保障。
4 数据质量全程监控流程
数据质量监控流程主要包括五个环节:采集、检查、报告、处理和总结。整体流程框架如图1所示。该流程涉及元数据库、运行状况信息库、源数据状况、ETL运行状况、数据仓库、数据集市运行状况、数据质量知识库。
4.1 数据采集
数据信息质量的采集点部署在如外部业务系统接口传输、ETL、数据仓库处理、数据集市处理、应用展示等过程,作为后续的数据质量检查环节的输入。
4.2 元数据管理
以自动加载、批量导入/导出和模块化导入/导出的方式对元数据进行操作并定期以自动或者人工的方式从企业运营系统中抽取元数据,与元数据库的对应信息进行比较,保证元数据的同步更新。
4.3 数据质量检查
根据预先配置的规则、质量检查度量以及预先设定的时间范围,对数据处理过程的检查稽核,得出处理有问题的数据接口及其具体的处理环节。处理环节包括接口数据的抽取、传输、清洗转换、装载,集市数据汇总生成,应用展现等。
对于有问题的数据,进行数据溯源。从某一实体出发,往回追溯其处理过程,直到追溯到数据输入的源头。对于不同类型的实体,其涉及的转换过程可能有不同类型,除了数据接口实体由源系统提供,其它的数据实体都经过了一个或多个不同类型的处理过程。数据追溯可以让使用者根据需要了解不同的处理过程,每个处理过程具体做什么,需要什么样的输入,又产生了什么样的输出。
4.4 数据质量报告
在此环节根据数据质量检查的结果,向数据质量管理人员报告数据质量情况。根据系统配置,生成不同类型的检查或警示报告,并由检查点将检查报告存储于运行状况信息库中。
4.5 数据质量处理
在检查过程中发现数据质量问题时,当发现数据质量异常时,系统进入处理环节,通过问题分析,确定问题原因,生成解决方案,然后通过相应途径具体解决问题。
4.6 数据处理总结
当问题处理环节结束后,数据质量监控模块进入总结环节,对问题处理的全过程进行记录和总结。对处理环节问题处理的过程和结果进行评估;把问题的采集、检查、报告、处理全过程信息进行整理,形成问题处理案例,存入数据质量知识库中,以便质量管理工作的改进。
5 结语
在信息爆炸,企业越来越注重资源整合的背景下,如何提升企业数据质量成为人们关注的问题。本文设计的数据质量全程监控流程实现了从底层源系统数据创建、数据获取、数据传输、数据装载、数据使用直至数据回收的全程监控,提高了数据的可靠性。通过国内外現有开展的深入研究,在未来阶段,我们需要进一步对数据质量的管理与控制进行探索,为企业信息化管理提供可靠的数据支撑,成分发挥数据资源的作用。
参考文献
[1]Yair Wand,Richard Y Wang.Anchoring Data Quality Dimensions in Ontological Foundations[J].Communications of the ACM,1996:39(l):86-95.
[2]郭志懋,俞荣华,田增平,周傲英.一个可扩展的数据清洗系统[J].计算机工程,2003,(3):95-97.
[3]鲍洪庆,石冰,王石.一个基于领域知识的数据清洗框架[J].信息技术与信息化,2005,(05):100-102.
Abstract:The assurance of data quality is an important prerequisite for enterprise information management to play a role. This article presents a data quality monitoring process. This process includes data collection, inspection, reporting, processing and summing up. This process increases the credibility of data and improves the quality of enterprise decision.
Key words:data quality;whole course monitoring;data processing