APP下载

数据元质量评价方法研究

2022-04-14程红云

现代计算机 2022年1期
关键词:指标质量评价

方 亮,程红云,陈 美

(上海宝信软件股份有限公司,上海 201203)

0 引言

随着国家大数据战略、数字中国、数字经济、数据要素等政策引领,极大推动了我国大数据的快速发展和应用。在海量数据管理的需求驱动下,数据管理技术也在不断革新和迭代,从早期数据库、数据仓库、数据湖到目前数据中台,数据管理的数据量、管理能力和水平都在不断地提升。与此同时,海量数据汇聚在一起,数据的存储、管理、应用、运营等难度更大,对数据标准的需求更加迫切。

数据元是数据的标准。在文献[11]中,数据元定义为“由一组属性规定其定义、标识、表示和允许值的数据单元”。在实践中,可以通俗的理解为:数据元为数据模型属性或数据项的标准,数据元集合构成了数据字典,基于同一个数据字典构建的数据资产,数据语言得到了统一,数据之间实现了互通互融,为数据资产的高效和高质量的赋能奠定了基础。

数据元是构建高质量数据资产的基础,数据元质量决定数据资产的质量,因此必须对数据元质量进行管控。为此,本文结合国内外相关的研究成果,提出了数据元质量评价方法,目标为数据质量管控提供了依据。

1 研究现状

和本文相关的研究内容,包括数据元和数据质量。

1.1 数据元研究现状

数据元基础理论主要来源ISO/IECJTC 1/SC 32数据管理与交换分技术委员会制定的元数据注册系统系列标准(数据元是元数据管理的基本单元),从元数据的框架、分类、注册系统元数据模型与基本属性、数据定义的形式、命名原则、注册等,形成了比较全面的基础理论。在我国,全国信息技术标准化技术委员会(SAC/TC28)在ISO/IEC的成果基础上,等同制定了我国的元数据注册系统系列标准。在文献[4]中,数据元作为数据标准能力域的能力项,从数据元定义、建设过程、建设目标、能力等级等给出了数据元标准管理成熟度评价方法。

在应用方法方面,文献[17]—[22],结合ISO的元数据注册系统系列标准第二版,从数据元的概述、命名、定义和表示、数据要素的基本属性、数据要素的提取、数据要素标准化阶段、数据要素管理工具等,给出了比较详细的数据元标准化实施方法;在文献[23]中,制定了面向政务领域的数据元建设方法和规范;在文献[24]中,制定了面向公安领域的数据元建设方法和规范等。

1.2 数据质量研究现状

数据元同时又是数据,因此必然面临数据质量问题。目前数据质量研究比较成熟,在实践中,通常参考国家标准成果,如在文献[25],从准确性、完备性、一致性、确实性等提出了15项数据质量模型特性;文献[26]对15项数据质量模型特性,给出了具体测量方法。文献[27],从规范性、完备性、准确性、一致性、时效性、可访问性等,给出了数据质量评价指标框架、计算方法和评价过程等。在文献[4]中,数据质量作为能力域,包括数据质量的需求、检查、分析、提升等能力项,从过程描述、过程目标、能力域等给出了数据治理管理成熟度评价方法。

从目前国内外研究成果来看,数据元研究主要集中在数据元的基础理论、建设方法、建设规范等方面,面向数据元的质量评价研究成果很少,本文将结合目前相关的研究成果,研究数据元质量评价方法。

2 数据元质量评价指标

数据元质量评价指标目标是实现对数据元某一观察维度的质量度量,是数据元定量评价的基础。本章节将从数据元质量指标框架和指标量化进行阐述。

2.1 数据元质量指标框架

数据元质量,与业务系统实时数据的质量问题有所不同,在实践中,数据元的质量问题,主要表现为数据元的数据不完整、不规范(包括格式、语法、语义、重复等)、不正确等;此外,作为数据标准,对于一个具体数据元,其“名、值、型”通常是固定不变的,并且一般情况不涉及一致性、时效性和可访问性等数据质量问题。

结合分析,本文参考了文献[27],提出了数据元质量指标框架,如图1所示。

图1 数据元质量指标框架

结合数据元质量指标框架,各指标定义如下:

(1)完整性。按照要求,数据元被赋予数值的程度。

(2)规范性。按照要求,数据元数据符合规范的程度。

(3)准确性。数据元准确表示其所描述的真实值的程度。

2.2 数据元质量指标量化

数据元质量指标的粒度通常比较粗,需要进一步细化才能更加精准的量化和度量,为此本文在评价指标基础上,增加了指标小项作为进一步细化,相当二级指标,同时对指标小项进行描述、计算方法、说明等定义,指标评价量化如表1所示。

表1 数据元指标评价量化

3 数据元质量综合指数

数据元质量指标只能反映一个观察维度的质量问题,不能综合定量评价数据元质量,因此需要能够综合定量评估数据元质量的综合指数。

数据元质量综合指数设计分析:数据元是静态数据,一旦创建,通常其“名、值、型”不会发生变化;数据元相比业务系统的实时数据,数据元的数量非常少;作为数据标准,是数据的数据字典,是构建高质量数据资产的基础,因此必须要求质量保障,即对于一个数据元,要求其完整性、规范性和正确性同时成立。为此,本文提出了健康度作为数据元的综合指数,相关内容如下。

(1)定义。健康度是按照要求,数据元的数据同时满足完整性、规范性和正确性的程度。

(2)计算公式。设表示健康度,表示数据元集中,同时满足完整性、规范性和正确性的数据元个数;表示数据元集中数据元的总数,则健康度的计算公式如式(1)所示:

健康度主要综合定量评价数据元的数据健康情况,健康度越大,数据元质量越好,反之越差。

4 数据元质量评价过程

数据元质量评价过程如下:

(1)成立数据元管理委员会。数据元作为标准,需要成立数据元管理委员会,负责数据元标准的制定、评审和管理;成员主要包括业务专家、评审专家、管理员等;职责分工是,业务专家负责制定数据元并登记到数据元管理系统中,评审专家负责对数据元的内容正确性进行评审,管理员负责对数据元进行注册和发布。

(2)规划数据元质量。主要工作包括:①制定数据元质量工作目标、计划、路径和举措。②对数据元质量进行规章建制,包括制定数据元管理办法、工作方法、工作规范。③将数据元质量的规章建制沉淀到数据元管理平台,为数据元质量评价的信息化、自动化和智能化提供支持,提高数据元质量管控效率。

(3)确定数据元质量评价指标。业务专家按照数据元的工作方法和工作规范要求,制定数据元,然后登记到数据元管理系统中,由数据元管理员负责确定评价指标,配置相关参数。

(4)评价数据元质量。系统会对数据元的完整性和规范性进行统计打分,数据元评审专家对数据元的正确性进行评审,最后生成数据元质量报告,主要包括指标得分、指数得分、指标不合格的数据元清单列表和明细等。对不合格的数据元提出质量整改,对合格的数据元进入(6)操作。

(5)数据元质量提升计划。针对数据元整改建议,业务专家按照不合格的数据元清单列表和明细,对数据元进行完善和修订,然后再次提交(4)操作。

(6)数据元正式发布。管理员负责对质量合格的数据元进行注册和发布。

5 结语

本文针对数据元质量管控需求,提出了数据元质量评价方法,并从评价指标、综合指数、评价过程进行详细阐述。在提出的方法中,从某一观察维度评价和综合评价两个方面,分别提出了数据元评价指标和综合指数,为数据元质量的精确管控提供了依据。在实践中,对于数据元正确性指标评价,通过目前的人工智能、经验知识等进行自动化评价,结果证明都不理想,建议由人工专家评审。

本文主要贡献是基于国内外的数据元和数据质量研究成果,提出了数据元质量评价方法,为相关数据元质量的研究、实践工作等提供了一定的参考。

猜你喜欢

指标质量评价
二年级下册期末质量检测(一)
主要宏观经济指标及债券指标统计表
主要宏观经济指标及债券指标统计表
主要宏观经济指标及债券指标统计表
主要宏观经济指标及债券指标统计表
2006—2016年度C—NCAP评价结果
2006—2015年度C—NCAP评价结果(3)
2006—2015年度C—NCAP评价结果(2)
2006—2015年度C—NCAP评价结果
睡个好觉