数据开放共享中数据质量治理研究
2023-04-25夏童
夏童
关键词:数据开放共享;数据质量;霍尔三维模型;质量治理
1引言
数据开放共享在一定程度上打破了信息壁垒,促进了信息的共享与交流,推动了知识的有效传播。数据开放作为数字经济发展和学术研究的基本要素,对经济发展和学术研究起着重要的作用,高質量的数据共享是经济发展和学术研究的驱动力。而在数据开放共享的时代,数据质量问题也成为数据开放共享的阻碍,是影响开放数据及其共享效果的关键,越来越受到人们的关注。为了提供高质量的开放共享数据服务,有效享受数据开放共享的成果,数据质量治理问题亟待解决。
国内研究学者对开放数据的研究主要集中于政府开放数据质量研究,热点主题是评价体系、评价模型、影响因素、控制机制等。比如,申宇[1]、邵艳红[2]使用文献调查法和层次分析法构建了包含4种一级指标和12种二级指标的开放政府数据质量评价体系;莫祖英等[3]基于信息质量理论,利用层次分析法构建了政府开放数据质量的模糊评价模型:侯征[4]采用Nvivo软件编码分析影响政府开放数据质量的因素,采用网络分析法和专家调查法来确定数据质量各个评价指标及其具体权重,以此来构建政府开放数据质量评价模型:郝文强等[5]应用比较分析方法研究政府开放数据质量在疫情防控期间的影响因素,研究发现,政策、服务能力、领导动员是核心影响因素:童楠楠[6]研究政府开放数据质量维度,基于数据生命周期理论,分析了开放数据质量在技术层面、流程层面、管理层面存在的问题,并提出建立政府开放数据质量控制机制:王娟等[7]利用演化博弈理论,研究政府开放数据质量在不同的监管情况下博弈双方稳定的策略和实现质量控制的有效条件,提出建立科学的数据质量评估标准和数据质量过滤机制来提高数据质量控制效率。
国外研究学者对开放数据质量的研究不止集中于政府开放数据,而是拓宽到整个开放数据领域,研究热点主题有质量评价方法、质量政策、元数据质量、质量度量框架。比如,Nikiforova[8-9]分析了拉脱维亚开放数据质量问题,提出了一种由数据对象、数据质量规范和数据质量度量过程组成的数据对象驱动的数据质量评价方法:Machova[10]为了检查和比较开放数据门户的质量,提出了一个基准框架,以评估开放数据门户的质量:Jantzen等[11]根据公平原则评估透明健康的数据库的质量和可重用性,研究表面开放数据质量政策的提出可以减少相关因素对开放数据工作的影响:Kubler等[12]认为元数据的质量对开放数据的成功起着至关重要的作用,为了解决对元数据质量多维度的测量和比较,提出开发一个开发数据门户质量框架,使用户能够实时地对开放数据门户进行评估。总体而言,数据开放共享中的数据质量问题备受学术界的关注,现有研究从数据质量评价角度、政策影响角度、机制角度出发,缺乏从霍尔三维模型视角对数据质量治理模型进行构建。鉴于此,本文基于数据生命周期理论和数据质量标准,利用霍尔三维模型构建数据开放共享中数据质量治理模型,进而提出相关治理对策。
2相关概念
数据开放共享促进了信息资源的交流与传播,尤其方便了学术研究者获取数据和交流科研成果,是资源共享体现。但是,在数据开放共享中,因为数据是可以在网络上免费获取的,数据质量会影响用户的满意程度,所以数据的质量对开放共享的推动起到了很重要的作用,并且随着数据开放共享的发展,用户对数据质量也提出了更高的要求。因此,数据质量治理在数据开放共享效果中起着重要作用。
2.1数据开放共享
现代意义上的开放共享,是指在网络环境下,个人或机构向社会提供数据、信息或作品,并授权他人免费使用的一种行为[13]。并且,这种开放共享并不等同于OA(Open Access),OA只是开放共享的一种方式。数据开放共享就是在开放共享下所获得的数据,是可免费使用的。数据开放共享具有以下特征:(1)全面开放性,即面向所有的对象,用户只要登录互联网就可以获得;(2)免费性,即向用户免费开放使用,用户无需支付任何费用即可免费获取数据或信息;(3)多样性,即内容和方式的多样性,数据开放获取的内容涉及各个领域和学科,以开放出版、开放存取、开放阅读等方式呈现。
2.2数据质量在数据开放共享中的作用
数据质量在数据传播的过程中起着非常重要的作用,直接关系到数据传播的效率和数据价值的发挥。尤其在数据开放共享中,在大量的数据面前,数据进入互联网的门槛越来越低,数据质量显得尤为重要。高质量的数据在数据开放共享中,是有价值的信息资源,可以提高用户的满意程度,促进数据的交流与传播,有助于发挥数据真正的价值,从而推动开放共享的进一步实施。而低质量的数据则会增加用户处理数据的时间,甚至会提供给用户错误的数据,会阻碍数据开放共享有效实施。因此,数据质量在数据开放共享中的作用至关重要,对数据开放共享中数据质量治理的研究具有现实意义。
2.3霍尔三维模型
霍尔三维模型(Hard System Methodology,HSM)是美国系统工程专家霍尔(A.D.Hall)提出的一种系统工程方法论,其内容能直观地反映系统工程各项工作内容的结构图[14]。该模型是融入时间维度、逻辑维度和知识维度的三维立体空间结构,具有系统性、综合性、最优性和程序性等特点,旨在为处理复杂系统工程的运行和管理提供方法论[15]。其中,时间维度是指按时间进行发展的各个工作阶段的安排:逻辑维度是指在时间维度上不同阶段要进行的工作内容和要依照的思维程序:知识维度是指为完成时间维度和逻辑维度的工作而用的知识。
数据开放共享中数据质量研究涉及数据整个生命周期全过程中数据提供者和数据获取者的数据处理行为的管理,包含环境、法律、文化等因素,是一个开放的、复杂的系统性问题。因此,对数据开放共享中数据质量治理的分析需要应用综合、系统的思维模式和方法,与霍尔三维模型的特点和目的相契合。因此,借助霍尔三维模型构建数据质量治理模型具有可行性。
3数据开放共享中数据质量问题及缘由
要深入研究数据开放共享中的数据质量问题,首先要找到其中的数据质量的问题表现,并分析造成数据质量问题的原因,从原因进行分析能更准确地找到数据质量治理的对策。
3.1问题表现
数据质量是指数据在使用过程中满足特定目的需求的程度[16]。数据质量属性是数据在某一方面的性质,是数据用途和分类的依据,可以作为衡量需求满意程度的指标。《国家标准化组织/国际电工委员会(ISO/IEC) 25012》标准将数据质量属性分为3类:(1)内在的,包含准确性、一致性、可信性、完整性、即时性;(2)系统的,包含可用性、可携性、可恢复性;(3)内在的与系统相关的,包含可访问性、兼容性、保密性、效率性、精密性、可追踪性、易懂性。我国信息技术标准化技术委员会提出的数据质量指标(GB/T36344-2018 ICS 35.24.01) [18]中对数据质量的衡量指标包括规范性、完整性、准确性、一致性、时效性、可访问性。另外,国外学者认为,为了实现数据使用价值,数据需具有精准性、及时性、关联性、完整性、可信性和易懂性[19]。
综合上述对数据质量属性和数据质量衡量标准,本文认为一般数据质量问题通常涉及数据的准确性、完整性、一致性、及时性、相关性。其中,数据准确性是指数据是真实、可信的;数据完整性是指数据在各个方面都可以足够支撑完成一个任务:数据一致性是指数据的内容和格式的一致性,前后的内容和格式总是以一样的方式呈现出来:数据及时性是指数据的新颖性,要随时更新:数据相关性是指数据对用户是有所帮助的,与用户所要找到的数据有所关联。上述数据质量问题同样出现在数据开放共享中,因为在数据开放共享中需保证所提供数据的准确性、完整性、一致性、及时性、相关性。不过,数据开放共享中的数据质量问题还会涉及数据的开放可访问性[20]。数据的开放可访问性是指数据是否能够被免费、公开的方式使用。
根据上述数据开放共享中数据质量的标准和要求,本文认为开放数据中数据质量问题主要表现在以下方面:数据准确性问题,数据错误、编码不准确[21]、数据污染[22];数据完整性问题,数据不完整、数据缺少索引[23]:数据一致性问题,数据不一致[24]:数据及时性问题,数据及时性差;数据相关问题,数据存在关联错误[25]、数据存在信息孤岛[26];数据可访问性问题,缺少开放共享平台。
3.2缘由分析
通过分析以上数据开放共享中的数据质量问题的表现,结合数据生命周期全过程,可以将造成数据质量问题的缘由归为以下3个因素:法律法规因素、组织管理因素和技术与平台因素。
3.2.1法律法规因素
完备的数据管理法律规范是保证数据质量的根本,法律法规不仅对数据质量起到规范的作用,而且具有指导作用。从目前国内对于数据质量治理方面的法律法规来看,主要有以下2个方面。(1)没有明确的关于开放数据数据质量方面的法律。《中国科学院科学数据管理与开放共享办法》是用来指导和规范中国科学院内的工作人员与单位的数据管理与开放共享行为,但是这是针对的某一组织或机构,其他机构很少有这样的规定。而且,这也只适应于固定的单位或个人,缺乏覆盖性和普及性。这种面向单一对象的法律规定,在某个领域内的开放共享的数据质量可能会得到保障和重视,但是毕竟涉及的地方和影响力较小,所以对于整个数据开放共享环境下的数据质量问题还是存在的。(2)没有建立数据质量控制体系。数据质量控制体系是度量数据质量的依据,是保障数据质量的有效法律途径。但是,我国目前尚未建立关于数据质量的控制体系,数据质量缺乏统一的控制标准。虽然目前我国颁布了《科学数据管理方法》,但其中也未涉及数据质量控制体系来对数据质量进行度量,并且关于开放数据中的个人数据保护问题方面的法律也未完善。
法律法规是一切行为和活动的标准和指南,也是整个数据开放共享中的数据质量保障的标准和基础,没有明确的法律规定的数据质量管理就像没有方向舵的帆船,既没有明确的方向,也没有具体的数据质量度量标准,是造成数据开放共享中数據质量问题的根本原因。
3.2.2组织管理因素
数据质量问题除了初始数据输入错误,大多数的数据质量问题还是在于数据的组织管理方面。特别是在数据开放共享时代,数据是免费开放的也是免费获取的,难免会造成数据质量管理失误。这种管理失误一是由于数据量过于大,组织管理工作量较大且不方便,缺乏统一领导与相关部门协调:二是数据质量的判断标准不一,无法对数据进行统一明确的管理,缺乏数据质量管理标准:三是数据质量审核不严格,缺乏系统的管理流程:四是数据质量组织管理主体不明确,缺乏相关数据质量管理者。
组织管理对于数据来说至关重要,有序的数据组织管理可以很大程度上提高数据的质量,为用户提供更好的服务。因此,组织管理因素是数据开放共享中数据质量治理的重要因素。
3.2.3技术与平台因素
高质量的开放数据既依赖组织文化,也依赖信息技术与共享平台的支撑和有效利用,特别是在数据提交、存储、分享、使用和维护等环节上[27]。在目前数据开放共享下,数据质量存在的问题主要是数据在提交过程中的问题、数据分享平台的问题以及数据维护的问题。数据提交问题是数据在提交的过程中会因为数据格式或数据接口问题可能造成数据的不正确输入。数据分享平台主要是指开放共享平台,该平台在数据质量、数据更新、数据管理等方面的不足都有可能发生数据质量问题。数据维护问题,因为是数据开放共享中的数据,数据只能由数据产出者上传到网上,所以关于数据维护问题是由该数据产出者负责还是由数据平台提供者负责尚未明确。
技术与平台是数据质量保障的重要支撑,既可以为数据质量提供技术支持,也可以提供分享平台。好的技术与平台可以为数据开放共享中的数据质量提供技术保障与环境维护,对于提高数据质量非常重要。
4数据质量治理三维模型与对策
根据上述造成数据开放共享中数据质量问题的原因,结合霍尔三维模型,构建数据质量治理三维模型,并基于此提出相关治理对策。
4.1数据质量治理三维模型
第2节分析了开放数据共享中数据质量治理与霍尔三维模型的契合性,因此从时间维度、知识维度、逻辑维度出发,构建数据质量治理三维模型(图1)。
从图1可以看出,逻辑维度是需要在时间维度的基础上利用知识维度,进行问题形成、优化、解决等一列系统活动。逻辑维度在整个数据质量治理过程中起着关键作用,是系统整体治理效果的体现,因此下文主要从逻辑维度出发体现相关治理对策。
4.2数据质量治理对策
根据数据开放共享中数据质量治理三维模型,可见影响治理效果的因素是法律、管理、技术、平台、环境、文化,并且其中法律、管理、技术、平台是关键性因素,因此将从完善法律规范、加强组织管理、创新技术强化平台建设3个方面提出对于数据开放共享中的数据质量治理对策。
4.2.1完善法律规范
法律法规在保障数据质量的同时,也可以维护数据开放共享的秩序、作者权益以及数据的安全,进而保障数据质量中推动数据开放共享的有效实施。关于数据开放中的数据质量治理的法律规范,可以从法律的制定与实施2个方面来进行。首先,关于法律制定方面。要制定《开放共享中的数据质量法》,为数据开放共享中的数据质量治理提供法律依据。关于法律制定方面,最重要的一点就是要明确所适用的范围,即数据质量所指的具体是哪一方面或哪种形式的。关于数据质量方面的法律规定,可以参考美国的“数据质量法”(也称为“信息质量法”)。“数据质量法”虽然不是独立的法律文件,也不具有法律约束力,但是其中关于数据管理方面还是值得借鉴的。其次,关于法律实施方面。设立专门的实施监管部门,为数据开放共享中的数据质量治理提供行动保障。对于专门的实施监管部门的职责要明确,以保障部门的有效运行。该监管部门不只要对相关法律的具体实施情况进行实时监管,还要对监管过程中发现的问题进行整理,并及时反馈给上级,以便完善相关法律规定。除了对法律的监管,专门的实施监管部门还要对相关法律进行宣传,尤其是对一些科研人员进行宣传,普及关于数据质量的相关法律知识,从而更有利于法律的实施。
4.2.2加强数据组织管理
数据开放共享中的数据质量问题,如数据不一致、数据不完整、数据不及时等问题都和数据组织管理有关系,因此为了保障数据质量,必须加强对数据的组织管理。经过上述关于组织管理方面的因素分析,可以从以下4个方面来加强数据组织管理。(1)要建立数据质量治理机构或委员会,明确治理主体的职责和任务。数据质量治理机构主要是对数据组织管理活动进行统一领导与规划,制定数据质量发展目标与重点,发挥一定的引领与整体管理作用。(2)要明确数据质量的发展方向,制定统一的数据质量标准。标准是对数据质量进行治理的基础与根本,并为数据质量治理提供了方向和要求。统一数据标准,对于用户来说可以享受到更优质的服务,可以获取高质量的信息。同时,激励科研人员对自身研究成果提出更高的要求,刺激数据供给者提高数据质量。(3)要制定完善的数据质量治理流程与计划,对数据组织管理的每一步进行明确要求。可以从数据输出平台人手,对数据平台的数输入、数据审核、数据检索、数据呈现等进行严格的要求。(4)要明确数据质量治理者。设置数据质量治理师,培养专门的数据质量治理者,任命专业人员对数据质量进行管理,以促进数据质量治理系统化、规范化。
4.2.3创新技术,强化平台建设
创新数据开放共享中的数据管理技术和加强数据平台建设,为保证数据质量提供了强大的技术支撑,对数据质量治理起到非常重要的作用。关于技术方面的治理对策,一是要改进数据接口的传输技术,保障数据在传输的过程中的完整性、一致性。二是要加强对数据识别技术和处理技术的研究。数据开放共享中的数据内容、格式、编码等形式多种多样,可能会因为形式的不一致而导致数据不完整,所以要加强对数据识别技术和处理技术的研究。关于平台建设方面的治理对策,在数据开放共享的环境中,开放共享平台的出现,促进了数据的传播与交流。但是,一些平台因为不完善的平台运行管理機制导致出现可访问性问题、产权纠纷问题等。这些问题需要平台加强对数据的审核和自身的运行管理,以保障数据开放共享中的数据质量。
5结束语
数据质量是数据开放共享中需要关注的重要问题,高数据质量不仅是数据开放共享的推动力,还是保障数据价值和实现开放共享效果的重要基础。本文分析了数据开放共享中数据质量存在的准确性、完整性、一致性、及时性、相关性、可访问性问题,得出出现这些问题的缘由主要来自法律法规、组织管理和技术与平台方面,根据问题来源和数据生命周期理论,借助霍尔三维模型,提出了数据质量治理三维模型。依据该模型发挥关键维度的作用,并提出数据质量治理相关对策。