领域数据质量知识建模方法研究

2023-03-29袁满杜杨杨

现代情报 2023年4期

袁满　杜杨杨

关键词：数据质量；ＤＱＶ；元模型；质量模型；建模方法

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０２３．０４．００８

〔中图分类号〕ＴＰ３９１〔文献标识码〕Ａ〔文章编号〕１００８－０８２１（２０２３）０４－００７７－１１

随着万维网资源的开放与互联，链接开放数据（ＬｉｎｋｅｄＯｐｅｎＤａｔａ，ＬＯＤ）作为数据共享与互联的一种方式［１］，其“质量” 问题也逐渐显露出来。例如，ＤＢｐｅｄｉａ以ＬＯＤ的形式发布在Ｗｅｂ上［２］，由于它从半结构化、非结构化等数据源中提取数据，因此存在语义冲突、表示错误以及信息不完整等质量问题；其次，ＬＯＤ数据集存在一些资源没有标识数据来源信息导致可信性低或者用户无访问权限等，从而间接导致数据集质量较差。数据质量是确保数据能够进行业务组织以及决策实施的重要前提［３］，因此，数据的质量问题也成为工业界和学术界重点关注的对象。

数据质量的研究已有３０年之久，质量模型能够为数据管理者提供规范化术语并且辅助用户决策。因此，国际标准化组织［４］（ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉ?ｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ，ＩＳＯ）认识到了数据质量模型的必要性，并提出ＩＳＯ／ＩＥＣ２５０１２标准［５］数据质量模型。该标准提出的数据质量模型按照固有的和系统相关的观点概述了１５种通用的质量特征。然而，ＩＳＯ数据质量模型被认为过于通用，没有考虑到ＬＯＤ特有的互连性。ＺａｖｅｒｉＡ等［６］则系统回顾了链接数据质量的评估方法，为链接数据质量提供了１８个质量维度以及６９个质量指标。这项调研扩展了５个链接数据特有的质量维度［６］，并对数据质量常用术语进行统一形式化表述，ＺａｖｅｒｉＡ等团队的这项工作为后续的研究提供了重要的参考价值。ＣｈｅｎＨ等［７］指出，ＺａｖｅｒｉＡ等所提供的综合框架中一些质量指标是不必要的。因此，在ＺａｖｅｒｉＡ等研究的基础上提出了基于知识图谱质量需求适用程度的质量评估框架，要求该框架中的质量评估维度应该与知识图谱所在应用层的质量需求相关联。随着数据质量的深入研究，ＷａｎｄＹ等［８］指出，数据质量维度目前还没有达到普遍的共识，亟需开发一种层次评估框架并建议依据本体的严格规范性来统一术语。目前基于本体的质量模型也各不相同，其中，ＦüｒｂｅｒＣ［９］提出基于本体的语义数据质量管理（ＳｅｍａｎｔｉｃＤａｔａＱｕａｌｉｔｙＭａｎａｇｅｍｅｎｔＦｒａｍｅｗｏｒｋ，ＳＤＱＭ）框架，该框架解决了当前数据质量问题类型以及数据质量需求（也称数据质量规则）的表述并定义了６６个类和５６个最常见质量问题的属性。２０１６年，Ｗ３Ｃ推出数据质量（ＤＱＶ）词表［１０］，刘洋等［１１］基于ＤＱＶ模型分析得出知识图谱２２个质量需求并映射为１３个质量维度，其核心质量模型依据ＤＱＶ规范构建了知识图谱质量本体，并实现对知识图谱质量评估以及质量标准化的任务。

综上所述，当前的质量模型既存在共性又具有差异。对于数据质量领域专家在模型的互操作性上存在不足；非领域专家在模型构建上则存在一定的困难。针对这些问题，本文提出一套标准的、适用的以及可互操作的质量模型建模方法，从而系统地帮助数据持有者构建或选择“ＦｉｔｎｅｓｓｆｏｒＰｕｒｐｏｓｅｓ”的质量模型。本文采用溯源法，首先对ＤＱＶ元模型以及其他４个质量模型进行梳理和总结，提炼出质量模型必要的核心要素，并组织为数据质量概念模型；其次，采用ＧＱＭ（ＧｏａｌＱｕｅｓｔｉｏｎＭｅｔｒｉｃ）的思想［１２］，提出一套质量模型建模方法。以该方法为指导方针，依次进行概念建模、词表映射、模型构建。该方法以自底向上的方式从数据质量问题抽象到质量核心要素并组织为通用的数据质量概念模型；再由概念模型向ＤＱＶ元模型进行映射以此来帮助用户如何应用现有的顶层质量模型解决互操作性差的问题，最终构建一个符合用户需求的质量模型。对于数据持有者来说，基于该方法构建的质量模型具有层次清晰以及语义关系明确的优势，使质量评估过程更加透明。对于数据资源來说，该方法有助于数据质量管理的标准化进而促进数据生态环境的良好发展。

１相关理论研究

数据在人工智能发展的过程中一直扮演着重要角色，不可避免的是“数据质量” 仍然为一项巨大挑战。当前数据质量没有一个统一的概念界定，但数据质量通常与数据的使用有着紧密联系。ＩＳＯ／ＩＥＣ２５０１２标准将数据质量［５］定义为“在特定条件下使用时，数据的特征满足规定和隐含需求的程度”；Ｗ３Ｃ最佳实践组［１３］认为，数据适合其在操作、决策和计划中的预期用途时，这些数据是高质量的。因此，数据持有者与特定任务之间的需求可以作为确定数据质量的基准。ＧＢ／Ｔ３６３４４－２０１８［１４］标准指出“数据质量” 在指定条件下使用时，数据的特性满足明确的和隐含的要求的程度。

综上所述，数据质量的内涵与“ＦｉｔｎｅｓｓｆｏｒＵｓｅ”主观评价是高度一致的，即数据满足质量需求的程度。数据质量外延又分为质量评估、问题发现以及质量改进３个任务［１５］，即以判定数据适用程度、识别数据质量问题以及提高数据质量的数据质量管理过程而开展的。

１.１数据质量术语规范

由于不同学者给定的数据质量术语存在差异，因此，本文首先对术语进行标准化。通过溯源法对ＤＱＶ以及其他质量模型进行梳理，总结了如下几个数据质量核心要素。

１.２数据质量概念模型

本文使用溯源法对当前现有的数据质量模型（ＤＱＭ、ｄａＱ、ＱＭＯ、ＤＱＶ［５，９，１０，１７－１９］等）进行梳理，提炼出质量模型中共有的质量要素：质量维度、质量指标、质量度量、度量方法、质量类别，并通过１.１节对数据质量术语进行统一规范化。从知识组织［２０］的视角来看，质量要素作为一种细粒度的知识单元，它们之间存在丰富的信息结构和语义关联，可将其组织为如图１所示的数据质量概念模型。

１.３最佳实践原则

２０１７年，ＤＷＢＰ工作组提出３５条最佳实践［１３］原则，依照这些原则来构建或维护不同的数据资源可获得如表１所示的有益启示。其中涵盖了数据质量、数据来源、元数据等不同方面，最大程度上促进数据资源的规范性与共享性。

基于本體的质量模型也是一种数据资源，因此，当数据使用者针对其特定任务进行质量模型建模时，建议其优先参照这３５条最佳实践原则。ＤＱＶ词表参照了最佳实践１５、１６（详细内容可参考［１３］），从而促进资源的重用和互操作。一方面，ＤＱＶ遵循最小本体原则（最佳实践１５），其在知识组织的过程中选定了适用范围的知识粒度，ＤＱＶ的设计不是涵盖实例化的质量问题、质量维度以及指标等，而是为数据持有者提供一致的组织方式，从而促进其他用户的可用性以及可扩展性；另一方面，ＤＱＶ充分考虑到对现有词表的重用（最佳实践１６），例如ｄｑｖ：Ｄｉｍｅｎｓｉｏｎ是ｓｋｏｓ：Ｃｏｎｃｅｐｔ的子概念、ｄｑｖ：Ｄｉｍｅｎｓｉｏｎ等价于ｄａｑ：Ｄｉｍｅｎｓｉｏｎ等。使用现有词表同样促进了其他用户的可用性，从而提高数据资源的互操作性，减少数据资源冗余，避免数据资源存在语义歧义和冲突。

２数据质量模型研究

质量模型是通过一组已定义的质量特征、质量子特征、质量度量，以及通过这些特征和度量之间的关系来定义的［５］，在某种程度上规范了质量相关信息。目前，质量模型共分为两类：一类是基于框架的质量模型［２１］；另一类是基于本体的质量模型。质量模型旨在为质量评估过程提供一致的术语，促进不同的系统间实现互操作以及提高可读性。

２.１基于框架的质量模型

基于框架的质量模型由质量要素以及质量要素间的关系组成，这类模型以层次结构对数据质量知识进行组织。２００８年，国际标准化组织提出ＩＳＯ／ＩＥＣ２５０１２标准［５］，该标准下的质量模型将质量属性分为１５个质量特征（即质量维度），并将质量维度分为两个类别——固有的和系统依赖的。图２为该质量模型的层次结构，固有类别与数据本身属性相关；系统依赖类别指在特定条件下使用数据时，其满足需求的程度。

该质量模型是通用的数据质量模型，对于链接开放数据的一些特性是不满足的，例如，链接数据须用唯一的ＵＲＩ来命名资源（表征维度类别），该质量特征可映射为ｄｑｖ：Ａｖａｉｌａｂｉｌｉｔｙ维度以及ｄｑｖ：Ｕｎｉｑｕｅｎｅｓｓ维度。２０１６年，ＺａｖｅｒｉＡ等的团队［６］在ＩＳＯ２５０１２模型的基础上进行扩展和补充，其框架确立了４个质量类别１８个质量维度以及６９个质量指标。该项调研为后续的研究提供了重要参考价值。２０１９年，ＣｈｅｎＨ等［７］提出“ＦｉｔｎｅｓｓｆｏｒＰｕｒ?ｐｏｓｅ” 的质量框架，旨在依据数据集在应用层的需求来确立评估的质量维度／指标，简化了模型的规模避免工作内容的冗余。

２.２基于本体的质量模型

基于本体的质量模型是将数据质量知识用本体的严格规范性来统一术语［８］，相比于基于框架的形式，本体对层次划分更加清晰、语义关系更加明确以及模型易于扩展和重用。当前，基于本体的质量模型有ＤＱＶ、ＤＱＭ、ＤａＱ等，下面将从模型的适用范围、模型的规模，以及模型的重用率进行对比分析。

２.２.１ＤＱＭ本体

２０１１年，ＦüｒｂｅｒＣ团队［９］提出数据质量管理（ＤａｔａＱｕａｌｉｔｙＭａｎａｇｅｍｅｎｔＶｏｃａｂｕｌａｒｙ，ＤＱＭ）词表质量模型，其核心概念是ｄｑｍ：ＤａｔａＲｅｑｕｉｒｅｍｅｎｔ并且依赖于ｄｑｍ：Ｔａｓｋ的实例，旨在使用ＤＱＭ词表定义的ｄｑｍ：ＤａｔａＲｅｑｕｉｒｅｍｅｎｔ进行数据质量评分并自动创建质量报告。目前ＤＱＭ词表规模较大，具有６８个类、４６个对象属性和５４个数据类型属性。ＤＱＭ词表具有可扩展性，用户可通过Ｗｉｋｉ界面自定义新的类和属性等。由于该质量模型为早期任务并且当前已不再维护，不推荐优先考虑重用该词表。

２.２.２ＱＭＯ＆ＥＶＡＬ本体

２０１５年，ＲａｄｕｌｏｖｉｃＦ发布了质量模型本体［１７］（ＱｕａｌｉｔｙＭｏｄｅｌＯｎｔｏｌｏｇｙ，ＱＭＯ）与评估结果本体［１８］（ＥｖａｌｕａｔｉｏｎＲｅｓｕｌｔＯｎｔｏｌｏｇｙ，ＥＶＡＬ），它们是基于ＩＳＯ２５０１０和ＩＳＯ１５９３９系列标准开发的轻量级通用本体。ＱＭＯ侧重于建模质量特征以及质量度量，ＥＶＡＬ侧重于获取在产品、服务或行动评估中获得的价值知识，两个本体则需要相互协作完成完整的质量评估任务。相比于ＤＱＶ元模型，二者在知识粒度上过于轻量级，这可能导致用户在开发新的类和关系时违背互操作性原则；相比于其他质量模型，二者严格遵循了Ｗ３Ｃ提倡的表述模型。推荐用户优先选定通用建模语言，不推荐用户优先考虑重用这两个词表。

２.２.３ｄａＱ本体

２０１４年，ＤｅｂａｔｔｉｓｔａＪ等［１９］开发了数据集质量（ＤａｔａｓｅｔＱｕａｌｉｔｙＯｎｔｏｌｏｇｙ，ｄａＱ）本体，其采用自下而上的方法系统地将质量要素以及质量要素间的关系以层次结构组织为元数据概念模型。ｄａＱ是一个轻量级、可扩展的通用质量模型，其开发的意义是为数据持有者提供一个核心模型，并在该模型的基础上开发适合适用的质量模型，ｄａＱ的设计遵循了可重用性和互操作性的原则。图３为ｄａＱ的概念模型，其中核心类有ｄａｑ：Ｍｅｔｒｉｃ、ｄａｑ：Ｄｉｍｅｎｓｉｏｎ、ｄａｑ：Ｃａｔ?ｅｇｏｒｙ等。

２.３ＤＱＶ数据质量词表

２０１６年，Ｗ３Ｃ－ＤＷＢＰ推出［１３］数据质量（ＤａｔａＱｕａｌｉｔｙＶｏｃａｂｕｌａｒｙ，ＤＱＶ）词表，首先，相比于ｄａＱ本体ＤＱＶ的一些类和属性做了简化处理。例如，ｄｑｖ：Ｍｅｔｒｉｃ、ｄｑｖ：Ｄｉｍｅｎｓｉｏｎａｌ等作为抽象类概念并未对其进行值的约束，数据持有者可根据业务定义值域从而在使用上更加灵活；其次，ＤＱＶ扩展了ｄｑｖ：ＱｕａｌｉｔｙＭｅｔａｄａｔａ、ｑｖ：ＱｕａｌｉｔｙＰｏｌｉｃｙ等描述数据集质量信息元数据，从而帮助数据持有者快速选定适用的数据资源。ＤＱＶ在设计原则上是严格遵守最佳实践最小化本体原则的；最后，ＤＱＶ还重用了Ｗ３Ｃ标准词表——ＤＣＡＴ、ＰＲＯＶ、ＳＫＯＳ、ＲＤＦＤａｔａＣｕｂｅ、ＯＡ等。不同领域的标准词表将ＤＱＶ划分为６个组件，分别为质量维度和类别、质量度量、质量注释、质量来源、（元）数据标准以及质量政策，如图４所示。

ＤＱＶ作为数据质量领域标准的、通用的、顶层的质量元模型，已成为构建高质量、易扩展、可互操作的质量模型的基准。ＺａｖｅｒｉＡ等提出的链接数据质量（ＬｉｎｋｅｄＤａｔａＱｕａｌｉｔｙＭｏｄｅｌ，ＬＤＱＭ）框架［６］，并在以ＤＱＶ為质量元模型将框架中的质量维度、质量指标、质量类别等向ｄｑｖ：Ｃａｔｅｇｏｒｙ、ｄｑｖ：Ｄｉ?ｍｅｎｓｉｏｎ、ｄｑｖ：Ｍｅｔｒｉｃ等进行映射和描述，该框架还重用了ＳＫＯＳ词表提供的语义关系（ｓｋｏｓ：ｒｅｌａｔｅｄ、ｓｋｏｓ：ｅｘａｃｔＭａｔｃｈ等）建立概念间的关联关系。２０２１年，刘洋等［１１］基于ＤＱＶ质量模型构建了知识图谱质量（ＫｎｏｗｌｅｄｇｅＧｒａｐｈＱｕａｌｉｔｙＶｏｃａｂｕｌａｒｙ，ＫＧＱＶ）本体，结合知识图谱的特性扩展了两个抽象类和５个属性并完成知识图谱质量评估任务。

ＤＱＶ词表不仅可以作为质量评估的预定义模型，Ｗ３Ｃ还建议适用ＤＱＶ提供的质量政策、质量注释、质量元数据组件作为数据集的元数据，帮助数据持有者从描述元数据中获取关键的质量信息，从而快速选定适用的数据资源。

２.４质量元数据

上述质量模型都对数据质量知识进行组织和建模，但它们建模视角各不相同。ＤＱＭ从实际质量问题出发确立了６８个类和１００个属性，相比于ＤＱＶ元模型不具有通用性和可扩展性。ＱＭＯ与ＥＶＡＬ遵循了Ｗ３Ｃ推荐的标准语言，但ＱＭＯ与ＥＶＡＬ涵盖的质量知识过于轻量会间接导致“信息孤岛”等问题。针对ＤＱＭ和ＱＭＯ等模型的不足，Ｄｅｂａｔ?ｔｉｓｔａＪ等团队［２２］基于ｄａＱ本体开发了Ｌｕｚｚｕ质量评估工具，并基于ｄａＱ本体开发了Ｌｕｚｚｕ质量指标（ＬｕｚｚｕＱｕａｌｉｔｙＭｅｔｒｉｃＬａｎｇｕａｇｅ，ＬＱＭＬ）语言而非官方语言。ｄａＱ模型在设计灵感上为ＤＱＶ提供了良好的基础，但其在知识交换层面上存在不足。综合来看，ＤＱＶ模型涵盖了上述模型的优点并且弥补了上述模型的不足。

在ＤＣＡＴ２.０版本［２３］明确提出增加质量元数据，并推荐优先使用ＤＱＶ中的ｄｑｖ：Ｍｅｔｒｉｃ、ｄｑｖ：Ｄｉｍｅｎｓｉｏｎ、ｄｑｖ：ｈａｓｑｕａｌｉｔｙｍｅａｓｕｒｅｍｅｎｔ的类和属性。ＤＱＶ在设计上遵循了最佳实践１５、１６，因此ＤＱＶ具有很强的可扩展性、灵活性以及互操作性和易于理解。依照贾君枝［２４］给定的资源重用方式，质量模型的资源描述也可分为３层，分别为元数据层、模式层以及实例层。如图５所示，推荐用户优先选定ＤＱＶ元模型作为元数据层、模式层的元数据最终实例化为“ＦｉｔｎｅｓｓｆｏｒＵｓｅ”的质量模型。

３质量模型建模方法研究

在以往的研究中，仅为数据持有者提供可参考的质量模型，而并未向数据持有者提供一套详细的、完整的质量建模方法，从而导致质量模型在使用的过程中存在一定的阻力。因此，本文结合目标—问题—度量法（ＧｏａｌＱｕｅｓｔｉｏｎＭｅｔｒｉｃＡｐｐｒｏａｃｈ，ＧＱＭ）的思想［２５］并以Ｗ３Ｃ最佳实践为指导，提出一个三阶段六步骤的质量模型建模方法。

本文的建模灵感来自Ｍａｒｙｌａｎｄ大学的ＶｉｃｔｏｒＢａ?ｓｉｌｉ开发的ＧＱＭ［１２］层次模型，如图６所示。ＧＱＭ模型的基本思想是从一组目标（Ｇｏａｌｓ）定义开始，目标的描述须包含评估对象、质量要素、视角等。其中评估对象可以为数据集、三元组集、链接集等；视角可以为用户视角或业务需求视角等；质量要素为上述２.１节提到的质量维度、质量类别、质量度量等。将目标细化为几个问题（Ｑｕｅｓｔｉｏｎｓ），每个问题（Ｑｕｅｓｔｉｏｎｓ）量化为多个质量指标（Ｍｅｔｒｉｃｓ），依据指标计算数据来解决问题进而达成确立的目标。遵循ＧＱＭ思想能够为特定的业务需求提供细化方案，从而更容易达成确立的目标。

在以往的研究中，ＷａｎｇＹＲ等和ＺａｖｅｒｉＡ等分别系统地提供了各自的质量建模方案。ＷａｎｇＹＲ等结合数据工程的思想［２６］提出一套质量建模方法并为数据质量管理定义了相关术语。具体步骤如下，第一步从实际业务出发确定数据质量问题；第二步根据数据质量问题确立在实际应用场景下的主观的／客观的质量维度；第三步将质量维度量化为可度量的质量指标；第四步构建质量模型。ＷａｎｇＹＲ等提出的模型考虑了根据特定需求来指定质量模型，但却忽略了模型的术语标准化。ＲｕｌａＡ等则结合数据质量管理［２７］的思想确立了需求分析、质量评估以及质量改进３个阶段。其中，质量评估阶段细化为质量问题识别、统计和分析、高级分析３个步骤，即对数据集的质量问题进行识别，再确立质量维度和质量指标再进行评估。这两种建模方法都没有给定依据的标准以及构建模型的建模语言，从而存在不标准以及互操作性差等问题。因此，本文为解决上述问题提出一个三阶段六步骤的质量模型（Ｔｈｒｅｅ－ｓｔａｇｅＳｉｘ－ｓｔｅｐＭｅｔｈｏｄｏｌｏｇｙｆｏｒＱｕａｌｉｔｙＭｏｄｅｌ?ｉｎｇ，ＴＳ＿ＭＱＭ）建模方法。根据第１章、第２章的初步研究，实现了术语标准化的过程。Ｗ３Ｃ提供的ＤＱＶ数据质量顶层本体为互操作性提供了良好的前提。最后以ＧＱＭ思想为指导，可以根据用户的特定需求来构建适用的质量模型。

表２为ＴＳ＿ＭＱＭ建模方法的详细内容，概念建模阶段共有４个步骤，分为需求分析、目标分析、指标分析以及度量方案。需求分析从数据实际业务出发，识别其质量问题并向质量维度／指标进行抽象目标分析，定义目标以及子目标。例如，目标的质量要素为“固有质量” 类别，可将目标再细化为“语义准确性” “一致性” 等子目标；指标分析，根据上一步骤确立的问题细化为可度量的指标，此过程也称为定量过程；度量方案，根据上一步骤确立的质量指标指定度量方法并得到度量结果。

词表映射阶段是将概念建模中的质量维度／类别、质量指标以及度量方法等向ＤＱＶ质量组件进行映射，可视为ＤＱＶ元模型实例化的过程。模型构建是将确立的概念模型构建为人机可读的本体形式，建议数据持有者在构建本体时遵循Ｗ３Ｃ最佳实践原则。例如，优先考虑重用ＤＱＶ词表以及ＤＱＶ重用的词表。

４基于ＤＱＶ的质量建模用例

链接数据是语义Ｗｅｂ中常见的数据模型，其同样存在质量问题。以链接数据的语义准确性维度为例来验证该方法论的可行性。例１描述的三元组中Ｔｒｉｐｌｅ１与Ｔｒｉｐｌｅ３存在语义不准确的质量问题。根据常识可知ｅｘ：Ｉｔａｌｙ的首都并非ｅｘ：Ｍｉｌａｎ；并且Ｔｒｉｐｌｅ３将ｅｘ：Ｉｔａｌｙ划分为ｅｘ：Ｐｌａｃｅ，则用ｅｘ：Ｃｏｕｎ?ｔｒｙ的实例来表述更符合真实状态。

例１：三元组集

４.１语义准确性概念建模

语义准确性定义为数据值表示一个对象正确状态的程度，根据例１存在不准确的注释和虚假的注释的语义不准确的质量问题，可判定其违背了语义准确性维度／固有质量类别。语义准确性概念建模的具体步骤如表３所示，由自底向上的方法完成概念建模阶段。

固有质量类别下包含语义准确性维度，语义准确性维度通过定量的４个质量指标进行度量并得到相应的度量结果。

４.２语义准确性词表映射

针对固有质量类别、语义准确性维度、质量指标等概念分别对应ＤＱＶ中的ｄｑｖ：Ｃａｔｅｇｏｒｙ、ｄｑｖ：Ｄｉｍｅｎｓｉｏｎ、ｄｑｖ：Ｍｅｔｒｉｃ組件，类间的关系由ｄｑｖ：ｉｎＣａｔｅｇｏｒｙ、ｄｑｖ：ｃｏｍｐｕｔｅｄＯｎ等属性进行关联。如表４所示，详细描述了语义准确性的对象缺失比率（ｄｑｖ：ｍｉｓｓＯｂｊｅｃｔＲａｔｅ）指标，并用Ｗ３Ｃ推荐的语言来表述该质量模型。

４.３语义准确性模型构建

质量模型最终要以人机可读的本体形式进行质量评估、质量信息描述等任务，本文选用Ｐｒｏｔéｇé工具对质量模型本体进行构建。图９为语义准确性（ｄｑｖ：ｓｅｍａｎｔｉｃＡｃｃｕｒａｃｙ）维度的质量模型构建的可视化过程。其中包含以下的内容：ｄｑｖ：Ｃａｔｅｇｏｒｙ、ｄｑｖ：Ｄｉｍｅｎｓｉｏｎ、ｄｑｖ：Ｍｅｔｒｉｃ、ｑｂ：Ｏｂｓｅｒｖａｔｉｏｎ是ＤＱＶ元模型提供的组件；ｄｑｖ：ｓｅｍａｎｔｉｃＡｃｃｕｒａｃｙ存在于（ｄｑｖ：ｉｎＣａｔｅｇｏｒｙ）固有类别下（ｄｑｖ：ｉｎｔｒｉｎｓｉｃＤｉ?ｍｅｎｓｉｏｎｓ）、ｄｑｖ：ｓｅｍａｎｔｉｃＡｃｃｕｒａｃｙ下包含（ｄｑｖ：ｉｎ?Ｄｉｍｅｎｓｕｏｎ）对象丢失率指标（ｄｑｖ：ｍｉｓｓＯｂｊｅｃｔＲａｔｅ）、ｄｑｖ：ｍｉｓｓＯｂｊｅｃｔＲａｔｅ可度量为（ｄｑｖ：ｉｓＭｅａｓｕｒｅｍｅｎｔ?Ｏｆ）统计对象丢失率的方法（ｍｉｓｓＯｂｊｅｃｔＦｕｎｃｔｉｏｎ）。

５总结与展望

本文围绕如何构建一套标准的、一致的以及适用的数据质量知识表示模型为核心，采用溯源法对其开展研究。首先，笔者在文献调研和对比分析以往的质量模型的基础上，提出并构建了数据质量知识概念模型；其次，笔者将Ｗ３Ｃ推荐的ＤＱＶ词表作为数据质量顶层本体并开展词表映射（数据质量知识概念模型向数据质量顶层本体进行映射）以及模型构建的研究；最后，以ＧＱＭ思想为指导提出一个三阶段六步骤的质量建模方法，即概念建模、词表映射以及模型构建的３个阶段。该方法可根据用户业务的特定需求自底向上地构建标准的、一致的以及适用的质量模型。为了验证该方法的可行性，本文以“语义准确性” 为例构建了相应的质量本体。结果表明，该方法可以用来解决领域数据质量知识表示模型的构建，并且以该方法构建的质量模型具有良好的扩展性和互操作性。本文的下一步工作是收集动态性语义质量的问题并确立其质量维度、质量指标以及度量方法等核心要素，以本文提出的建模方法进一步细化和扩建适合特定领域的语义质量模型。