APP下载

领域数据质量知识建模方法研究

2023-03-29袁满杜杨杨

现代情报 2023年4期
关键词:数据质量

袁满 杜杨杨

关键词: 数据质量; DQV; 元模型; 质量模型; 建模方法

DOI:10.3969 / j.issn.1008-0821.2023.04.008

〔中图分类号〕TP391 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 04-0077-11

随着万维网资源的开放与互联, 链接开放数据(Linked Open Data, LOD)作为数据共享与互联的一种方式[1] , 其“质量” 问题也逐渐显露出来。例如, DBpedia 以LOD 的形式发布在Web 上[2] , 由于它从半结构化、非结构化等数据源中提取数据, 因此存在语义冲突、表示错误以及信息不完整等质量问题; 其次, LOD 数据集存在一些资源没有标识数据来源信息导致可信性低或者用户无访问权限等, 从而间接导致数据集质量较差。数据质量是确保数据能够进行业务组织以及决策实施的重要前提[3] , 因此, 数据的质量问题也成为工业界和学术界重点关注的对象。

数据质量的研究已有30 年之久, 质量模型能够为数据管理者提供规范化术语并且辅助用户决策。因此, 国际标准化组织[4](International Organi?zation for Standardization, ISO)认识到了数据质量模型的必要性, 并提出ISO/ IEC 25012 标准[5] 数据质量模型。该标准提出的数据质量模型按照固有的和系统相关的观点概述了15 种通用的质量特征。然而, ISO 数据质量模型被认为过于通用, 没有考虑到LOD 特有的互连性。Zaveri A 等[6] 则系统回顾了链接数据质量的评估方法, 为链接数据质量提供了18 个质量维度以及69 个质量指标。这项调研扩展了5 个链接数据特有的质量维度[6] , 并对数据质量常用术语进行统一形式化表述, Zaveri A 等团队的这项工作为后续的研究提供了重要的参考价值。Chen H 等[7] 指出, Zaveri A 等所提供的综合框架中一些质量指标是不必要的。因此, 在Zaveri A 等研究的基础上提出了基于知识图谱质量需求适用程度的质量评估框架, 要求该框架中的质量评估维度应该与知识图谱所在应用层的质量需求相关联。随着数据质量的深入研究, Wand Y 等[8] 指出, 数据质量维度目前还没有达到普遍的共识, 亟需开发一种层次评估框架并建议依据本体的严格规范性来统一术语。目前基于本体的质量模型也各不相同, 其中, Fürber C[9] 提出基于本体的语义数据质量管理( Semantic Data Quality Management Framework,SDQM)框架, 该框架解决了当前数据质量问题类型以及数据质量需求(也称数据质量规则)的表述并定义了66 个类和56 个最常见质量问题的属性。2016 年, W3C 推出数据质量(DQV)词表[10] , 刘洋等[11] 基于DQV 模型分析得出知识图谱22 个质量需求并映射为13 个质量维度, 其核心质量模型依据DQV 规范构建了知识图谱质量本体, 并实现对知识图谱质量评估以及质量标准化的任务。

综上所述, 当前的质量模型既存在共性又具有差异。对于数据质量领域专家在模型的互操作性上存在不足; 非领域专家在模型构建上则存在一定的困难。针对这些问题, 本文提出一套标准的、适用的以及可互操作的质量模型建模方法, 从而系统地帮助数据持有者构建或选择“Fitness for Purposes”的质量模型。本文采用溯源法, 首先对DQV 元模型以及其他4 个质量模型进行梳理和总结, 提炼出质量模型必要的核心要素, 并组织为数据质量概念模型; 其次, 采用GQM(Goal Question Metric)的思想[12] , 提出一套质量模型建模方法。以该方法为指导方针, 依次进行概念建模、词表映射、模型构建。该方法以自底向上的方式从数据质量问题抽象到质量核心要素并组织为通用的数据质量概念模型; 再由概念模型向DQV 元模型进行映射以此来帮助用户如何应用现有的顶层质量模型解决互操作性差的问题, 最终构建一个符合用户需求的质量模型。对于数据持有者来说, 基于该方法构建的质量模型具有层次清晰以及语义关系明确的优势, 使质量评估过程更加透明。对于数据资源來说, 该方法有助于数据质量管理的标准化进而促进数据生态环境的良好发展。

1相关理论研究

数据在人工智能发展的过程中一直扮演着重要角色, 不可避免的是“数据质量” 仍然为一项巨大挑战。当前数据质量没有一个统一的概念界定, 但数据质量通常与数据的使用有着紧密联系。ISO/ IEC25012 标准将数据质量[5] 定义为“在特定条件下使用时, 数据的特征满足规定和隐含需求的程度”;W3C 最佳实践组[13] 认为, 数据适合其在操作、决策和计划中的预期用途时, 这些数据是高质量的。因此, 数据持有者与特定任务之间的需求可以作为确定数据质量的基准。GB/ T 36344-2018[14] 标准指出“数据质量” 在指定条件下使用时, 数据的特性满足明确的和隐含的要求的程度。

综上所述, 数据质量的内涵与“Fitness for Use”主观评价是高度一致的, 即数据满足质量需求的程度。数据质量外延又分为质量评估、问题发现以及质量改进3 个任务[15] , 即以判定数据适用程度、识别数据质量问题以及提高数据质量的数据质量管理过程而开展的。

1.1数据质量术语规范

由于不同学者给定的数据质量术语存在差异,因此, 本文首先对术语进行标准化。通过溯源法对DQV 以及其他质量模型进行梳理, 总结了如下几个数据质量核心要素。

1.2数据质量概念模型

本文使用溯源法对当前现有的数据质量模型(DQM、daQ、QMO、DQV[5,9,10,17-19] 等)进行梳理,提炼出质量模型中共有的质量要素: 质量维度、质量指标、质量度量、度量方法、质量类别, 并通过1.1 节对数据质量术语进行统一规范化。从知识组织[20] 的视角来看, 质量要素作为一种细粒度的知识单元, 它们之间存在丰富的信息结构和语义关联,可将其组织为如图1 所示的数据质量概念模型。

1.3最佳实践原则

2017 年, DWBP 工作组提出35 条最佳实践[13]原则, 依照这些原则来构建或维护不同的数据资源可获得如表1 所示的有益启示。其中涵盖了数据质量、数据来源、元数据等不同方面, 最大程度上促进数据资源的规范性与共享性。

基于本體的质量模型也是一种数据资源, 因此, 当数据使用者针对其特定任务进行质量模型建模时, 建议其优先参照这35条最佳实践原则。DQV词表参照了最佳实践15、16(详细内容可参考[13]),从而促进资源的重用和互操作。一方面,DQV遵循最小本体原则(最佳实践15), 其在知识组织的过程中选定了适用范围的知识粒度, DQV的设计不是涵盖实例化的质量问题、质量维度以及指标等, 而是为数据持有者提供一致的组织方式,从而促进其他用户的可用性以及可扩展性; 另一方面, DQV 充分考虑到对现有词表的重用(最佳实践16), 例如dqv:Dimension 是skos:Concept 的子概念、dqv:Dimension 等价于daq:Dimension 等。使用现有词表同样促进了其他用户的可用性, 从而提高数据资源的互操作性, 减少数据资源冗余, 避免数据资源存在语义歧义和冲突。

2数据质量模型研究

质量模型是通过一组已定义的质量特征、质量子特征、质量度量, 以及通过这些特征和度量之间的关系来定义的[5] , 在某种程度上规范了质量相关信息。目前, 质量模型共分为两类: 一类是基于框架的质量模型[21] ; 另一类是基于本体的质量模型。质量模型旨在为质量评估过程提供一致的术语, 促进不同的系统间实现互操作以及提高可读性。

2.1基于框架的质量模型

基于框架的质量模型由质量要素以及质量要素间的关系组成, 这类模型以层次结构对数据质量知识进行组织。2008年, 国际标准化组织提出ISO/IEC 25012标准[5] ,该标准下的质量模型将质量属性分为15 个质量特征(即质量维度), 并将质量维度分为两个类别——固有的和系统依赖的。图2为该质量模型的层次结构, 固有类别与数据本身属性相关; 系统依赖类别指在特定条件下使用数据时,其满足需求的程度。

该质量模型是通用的数据质量模型, 对于链接开放数据的一些特性是不满足的, 例如, 链接数据须用唯一的URI 来命名资源(表征维度类别), 该质量特征可映射为dqv:Availability 维度以及dqv:Uniqueness 维度。2016 年, Zaveri A 等的团队[6] 在ISO 25012 模型的基础上进行扩展和补充, 其框架确立了4 个质量类别18 个质量维度以及69 个质量指标。该项调研为后续的研究提供了重要参考价值。2019 年, Chen H 等[7] 提出“Fitness for Pur?pose” 的质量框架, 旨在依据数据集在应用层的需求来确立评估的质量维度/ 指标, 简化了模型的规模避免工作内容的冗余。

2.2基于本体的质量模型

基于本体的质量模型是将数据质量知识用本体的严格规范性来统一术语[8],相比于基于框架的形式, 本体对层次划分更加清晰、语义关系更加明确以及模型易于扩展和重用。当前, 基于本体的质量模型有DQV、DQM、DaQ 等, 下面将从模型的适用范围、模型的规模, 以及模型的重用率进行对比分析。

2.2.1DQM 本体

2011 年, Fürber C 团队[9] 提出数据质量管理(Data Quality Management Vocabulary, DQM)词表质量模型, 其核心概念是dqm:DataRequirement 并且依赖于dqm:Task的实例, 旨在使用DQM 词表定义的dqm:DataRequirement 进行数据质量评分并自动创建质量报告。目前DQM 词表规模较大, 具有68 个类、46 个对象属性和54个数据类型属性。DQM 词表具有可扩展性, 用户可通过Wiki 界面自定义新的类和属性等。由于该质量模型为早期任务并且当前已不再维护, 不推荐优先考虑重用该词表。

2.2.2QMO&EVAL本体

2015 年, Radulovic F 发布了质量模型本体[17](Quality Model Ontology, QMO)与评估结果本体[18](Evaluation Result Ontology, EVAL), 它们是基于ISO 25010 和ISO 15939 系列标准开发的轻量级通用本体。QMO 侧重于建模质量特征以及质量度量,EVAL 侧重于获取在产品、服务或行动评估中获得的价值知识, 两个本体则需要相互协作完成完整的质量评估任务。相比于DQV元模型, 二者在知识粒度上过于轻量级, 这可能导致用户在开发新的类和关系时违背互操作性原则; 相比于其他质量模型, 二者严格遵循了W3C提倡的表述模型。推荐用户优先选定通用建模语言, 不推荐用户优先考虑重用这两个词表。

2.2.3 daQ本体

2014年,Debattista J 等[19] 开发了数据集质量(Dataset  Quality Ontology, daQ)本体, 其采用自下而上的方法系统地将质量要素以及质量要素间的关系以层次结构组织为元数据概念模型。daQ 是一个轻量级、可扩展的通用质量模型, 其开发的意义是为数据持有者提供一个核心模型, 并在该模型的基础上开发适合适用的质量模型, daQ 的设计遵循了可重用性和互操作性的原则。图3 为daQ 的概念模型,其中核心类有daq:Metric、daq:Dimension、daq:Cat?egory 等。

2.3DQV 数据质量词表

2016年, W3C-DWBP 推出[13] 数据质量(DataQuality Vocabulary, DQV)词表, 首先, 相比于daQ本体DQV 的一些类和属性做了简化处理。例如,dqv:Metric、dqv:Dimensional 等作为抽象类概念并未对其进行值的约束, 数据持有者可根据业务定义值域从而在使用上更加灵活; 其次, DQV 扩展了dqv:QualityMetadata、qv:QualityPolicy 等描述数据集质量信息元数据, 从而帮助数据持有者快速选定适用的数据资源。DQV 在设计原则上是严格遵守最佳实践最小化本体原则的; 最后, DQV 还重用了W3C 标准词表——DCAT、PROV、SKOS、RDFData Cube、OA 等。不同领域的标准词表将DQV划分为6 个组件, 分别为质量维度和类别、质量度量、质量注释、质量来源、(元)数据标准以及质量政策, 如图4所示。

DQV 作为数据质量领域标准的、通用的、顶层的质量元模型, 已成为构建高质量、易扩展、可互操作的质量模型的基准。Zaveri A 等提出的链接数据质量(Linked Data Quality Model, LDQM)框架[6] ,并在以DQV 為质量元模型将框架中的质量维度、质量指标、质量类别等向dqv:Category、dqv:Di?mension、dqv:Metric 等进行映射和描述, 该框架还重用了SKOS 词表提供的语义关系(skos:related、skos:exactMatch 等)建立概念间的关联关系。2021年, 刘洋等[11] 基于DQV 质量模型构建了知识图谱质量(Knowledge Graph Quality Vocabulary, KGQV)本体, 结合知识图谱的特性扩展了两个抽象类和5个属性并完成知识图谱质量评估任务。

DQV 词表不仅可以作为质量评估的预定义模型, W3C 还建议适用DQV 提供的质量政策、质量注释、质量元数据组件作为数据集的元数据, 帮助数据持有者从描述元数据中获取关键的质量信息,从而快速选定适用的数据资源。

2.4质量元数据

上述质量模型都对数据质量知识进行组织和建模, 但它们建模视角各不相同。DQM 从实际质量问题出发确立了68 个类和100 个属性, 相比于DQV元模型不具有通用性和可扩展性。QMO 与EVAL遵循了W3C 推荐的标准语言, 但QMO 与EVAL 涵盖的质量知识过于轻量会间接导致“信息孤岛”等问题。针对DQM 和QMO 等模型的不足, Debat?tista J 等团队[22] 基于daQ 本体开发了Luzzu 质量评估工具, 并基于daQ 本体开发了Luzzu 质量指标(Luzzu Quality Metric Language, LQML)语言而非官方语言。daQ 模型在设计灵感上为DQV 提供了良好的基础, 但其在知识交换层面上存在不足。综合来看, DQV 模型涵盖了上述模型的优点并且弥补了上述模型的不足。

在DCAT 2.0版本[23]明确提出增加质量元数据, 并推荐优先使用DQV 中的dqv:Metric、dqv:Dimension、dqv:hasqualitymeasurement 的类和属性。DQV 在设计上遵循了最佳实践15、16, 因此DQV具有很强的可扩展性、灵活性以及互操作性和易于理解。依照贾君枝[24] 给定的资源重用方式, 质量模型的资源描述也可分为3 层, 分别为元数据层、模式层以及实例层。如图5 所示, 推荐用户优先选定DQV 元模型作为元数据层、模式层的元数据最终实例化为“Fitness for Use”的质量模型。

3质量模型建模方法研究

在以往的研究中, 仅为数据持有者提供可参考的质量模型, 而并未向数据持有者提供一套详细的、完整的质量建模方法, 从而导致质量模型在使用的过程中存在一定的阻力。因此, 本文结合目标—问题—度量法(Goal Question Metric Approach, GQM)的思想[25] 并以W3C 最佳实践为指导, 提出一个三阶段六步骤的质量模型建模方法。

本文的建模灵感来自Maryland 大学的VictorBa?sili 开发的GQM[12] 层次模型, 如图6 所示。GQM 模型的基本思想是从一组目标(Goals)定义开始, 目标的描述须包含评估对象、质量要素、视角等。其中评估对象可以为数据集、三元组集、链接集等; 视角可以为用户视角或业务需求视角等; 质量要素为上述2.1节提到的质量维度、质量类别、质量度量等。将目标细化为几个问题(Questions), 每个问题(Questions)量化为多个质量指标(Metrics), 依据指标计算数据来解决问题进而达成确立的目标。遵循GQM 思想能够为特定的业务需求提供细化方案, 从而更容易达成确立的目标。

在以往的研究中, Wang Y R等和Zaveri A等分别系统地提供了各自的质量建模方案。Wang Y R等结合数据工程的思想[26] 提出一套质量建模方法并为数据质量管理定义了相关术语。具体步骤如下,第一步从实际业务出发确定数据质量问题; 第二步根据数据质量问题确立在实际应用场景下的主观的/客观的质量维度; 第三步将质量维度量化为可度量的质量指标; 第四步构建质量模型。Wang Y R等提出的模型考虑了根据特定需求来指定质量模型,但却忽略了模型的术语标准化。RulaA等则结合数据质量管理[27]的思想确立了需求分析、质量评估以及质量改进3个阶段。其中, 质量评估阶段细化为质量问题识别、统计和分析、高级分析3个步骤, 即对数据集的质量问题进行识别, 再确立质量维度和质量指标再进行评估。这两种建模方法都没有给定依据的标准以及构建模型的建模语言, 从而存在不标准以及互操作性差等问题。因此, 本文为解决上述问题提出一个三阶段六步骤的质量模型(Three-stage Six-step Methodology for Quality Model?ing, TS_MQM)建模方法。根据第1 章、第2 章的初步研究, 实现了术语标准化的过程。W3C 提供的DQV 数据质量顶层本体为互操作性提供了良好的前提。最后以GQM 思想为指导, 可以根据用户的特定需求来构建适用的质量模型。

表2 为TS_MQM 建模方法的详细内容, 概念建模阶段共有4个步骤, 分为需求分析、目标分析、指标分析以及度量方案。需求分析从数据实际业务出发, 识别其质量问题并向质量维度/ 指标进行抽象目标分析, 定义目标以及子目标。例如, 目标的质量要素为“固有质量” 类别, 可将目标再细化为“语义准确性” “一致性” 等子目标; 指标分析, 根据上一步骤确立的问题细化为可度量的指标, 此过程也称为定量过程; 度量方案, 根据上一步骤确立的质量指标指定度量方法并得到度量结果。

词表映射阶段是将概念建模中的质量维度/ 类别、质量指标以及度量方法等向DQV 质量组件进行映射, 可视为DQV 元模型实例化的过程。模型构建是将确立的概念模型构建为人机可读的本体形式, 建议数据持有者在构建本体时遵循W3C 最佳实践原则。例如, 优先考虑重用DQV 词表以及DQV 重用的词表。

4基于DQV 的质量建模用例

链接数据是语义Web 中常见的数据模型, 其同样存在质量问题。以链接数据的语义准确性维度为例来验证该方法论的可行性。例1 描述的三元组中Triple1 与Triple3 存在语义不准确的质量问题。根据常识可知ex:Italy 的首都并非ex:Milan; 并且Triple3 将ex:Italy 划分为ex:Place, 则用ex:Coun?try 的实例来表述更符合真实状态。

例1:三元组集

4.1语义准确性概念建模

语义准确性定义为数据值表示一个对象正确状态的程度, 根据例1 存在不准确的注释和虚假的注释的语义不准确的质量问题, 可判定其违背了语义准确性维度/ 固有质量类别。语义准确性概念建模的具体步骤如表3 所示, 由自底向上的方法完成概念建模阶段。

固有质量类别下包含语义准确性维度, 语义准确性维度通过定量的4 个质量指标进行度量并得到相应的度量结果。

4.2语义准确性词表映射

针对固有质量类别、语义准确性维度、质量指标等概念分别对应DQV 中的dqv:Category、dqv:Dimension、dqv:Metric組件, 类间的关系由dqv:inCategory、dqv:computedOn 等属性进行关联。如表4所示, 详细描述了语义准确性的对象缺失比率(dqv:missObjectRate)指标, 并用W3C 推荐的语言来表述该质量模型。

4.3语义准确性模型构建

质量模型最终要以人机可读的本体形式进行质量评估、质量信息描述等任务, 本文选用Protégé工具对质量模型本体进行构建。图9 为语义准确性(dqv:semanticAccuracy)维度的质量模型构建的可视化过程。其中包含以下的内容: dqv:Category、dqv: Dimension、dqv: Metric、qb: Observation 是DQV 元模型提供的组件; dqv:semanticAccuracy存在于(dqv:inCategory)固有类别下(dqv:intrinsicDi?mensions)、dqv:semanticAccuracy 下包含(dqv:in?Dimensuon)对象丢失率指标(dqv:missObjectRate)、dqv:missObjectRate 可度量为(dqv:isMeasurement?Of)统计对象丢失率的方法(missObjectFunction)。

5总结与展望

本文围绕如何构建一套标准的、一致的以及适用的数据质量知识表示模型为核心, 采用溯源法对其开展研究。首先, 笔者在文献调研和对比分析以往的质量模型的基础上, 提出并构建了数据质量知识概念模型; 其次, 笔者将W3C 推荐的DQV 词表作为数据质量顶层本体并开展词表映射(数据质量知识概念模型向数据质量顶层本体进行映射)以及模型构建的研究; 最后, 以GQM 思想为指导提出一个三阶段六步骤的质量建模方法, 即概念建模、词表映射以及模型构建的3 个阶段。该方法可根据用户业务的特定需求自底向上地构建标准的、一致的以及适用的质量模型。为了验证该方法的可行性, 本文以“语义准确性” 为例构建了相应的质量本体。结果表明, 该方法可以用来解决领域数据质量知识表示模型的构建, 并且以该方法构建的质量模型具有良好的扩展性和互操作性。本文的下一步工作是收集动态性语义质量的问题并确立其质量维度、质量指标以及度量方法等核心要素, 以本文提出的建模方法进一步细化和扩建适合特定领域的语义质量模型。

猜你喜欢

数据质量
强化统计执法提高数据质量
浅谈统计数据质量控制