开放政府数据质量评估研究进展及启示*
2018-12-14陶晨阳李晓彤
翟 军 陶晨阳 李晓彤
(大连海事大学航运经济与管理学院 辽宁大连 116026)
随着“开放政府数据”(Open Government Data, OGD)行动的发展,越来越多的数据发布到Web上,相应的质量问题也显现出来。例如,美国Data.Gov上的Gun Offenders(枪支犯罪者)数据集曾存在数据不完整、不一致等质量问题[1];英国《计算机周刊》的专家对政府开放支出等数据集的4 200万条记录进行分析,发现其中含有大量“脏数据”:人为错误、格式和编码问题等,导致公众难以理解和使用数据[2]。
目前,我国开放数据及元数据的质量状况也不容乐观。杨瑞仙等[3]选取7个代表性的地方政府数据开放平台与美国比较,发现存在数据格式非机器可读和实用性低等质量问题;孙璐等[4]指出,从几个开放数据网站上尝试下载数据,只有60%能够成功下载;于梦月、翟军等[5-6]对元数据的研究表明,我国各地方政府的元数据存在取值不规范、缺失重要的元数据项等不足。
各国政府为保障和提高OGD的质量均采取了一系列措施,其核心是各种“质量评估系统”。美国白宫的“开放数据项目”(Project Open Data)开发了“仪表板”在线系统,评估和监测各联邦机构的元数据质量及对M-13-13指令的执行情况[7]。英国内阁办公室要求开放数据集要经历“开放数据证书”(Open Data Certificate,ODC)质量评估工具(certificates.theodi.org)的评估过程,并将结果公布在网站Data.Gov.UK[8]。欧盟的“开放数据监测器”(Open Data Monitor,ODM)项目对欧洲各国173个数据门户中的规模总量达1 472 GB的数据资源的质量进行评估和监测,结果展示在网站www.opendatamonitor.eu[9];于2015年11月上线的欧洲统一的数据门户(www.europeandataportal.eu)包含“元数据质量仪表板”(Metadata Quality Dashboard)板块,实时监测73个数据目录的元数据质量状况。
澳大利亚昆士兰大学的Sadiq S等[1]认为“开放数据应质量优先于数量”,但还存在着三方面的挑战,即“对数据质量维度的共同理解”“支持用户的质量感知”及“加强数据质量与使用之间的联结”。当前,“质量评估”是OGD研究的主要领域之一[10],相应成果提供了应对这些挑战的方案并有力支撑了各国的质量管理实践。
1 研究现状
OGD质量评估可以分为两个层次:宏观和微观。前者主要针对国家层面展开整体评价和对比分析,除了数据质量因素,还包括数据集的数量、政策和法律基础、平台服务、数据使用和效果等因素[11]。著名的有开放数据晴雨表、全球开放数据指数等,后者针对开放数据平台中的每个数据集及其元数据开展质量的多维评估,以提升数据质量为目标。本文重点关注微观层次的数据质量(含元数据质量)评估(Data Quality Assessment,DQA)。
1.1 国外
“开放数据门户”(Open Data Portal)是以目录管理为核心的软件平台,向用户提供数据集的查找、展示和获取等服务[12]。数据目录(Data Catalog)是“元数据的集合”,而元数据是描述数据集的结构化数据。
J.Attard 等[13]指出“元数据质量”是提高开放数据可发现性的关键,是决定OGD成败的最重要因素之一。德国学者K.J.Reiche等[14-16]通过8个度量指标:完整性、加权的完整性、准确性、信息量、可读性、URL有效性、内在精度和开放许可,对德国、英国、加拿大和墨西哥等14个国家数据门户的元数据记录质量进行了评价,所采用的自动化方法依赖于CKAN平台的元数据API。类似地,卢森堡大学的S.Kubler等[17]在欧盟H2020计划项目资助下,采用AHP方法对44个国家的146个“开放数据门户质量”(Open Data Portal Quality,ODPQ)进行综合排序,前三名的网站分别来自荷兰、加拿大和英国。该方法的基础是CKAN平台构建的五个元数据质量指标:核心元数据的存在性、记录完整性、开放性、资源可获取性和溯源信息。奥地利学者J.Umbrich等[18-19]建立各平台(CKAN、Socrata和OpenDataSoft等)元数据到W3C标准DCAT(Data Catalog Vocabulary)的映射,有效屏蔽了平台间的差异,成功地对260个网站、110万个数据集的元数据质量进行了定期(以7天为周期)自动评价,评价结果公布在data.wu.ac.at/portalwatch。其评价体系包含5个维度(存在性、合规性、可获取性、准确性和开放性)下的18个指标,既面向元数据记录、也面向元数据模式,又增加了体现开放数据原则的维度——开放性。可见,元数据质量评估以自动评价方法为主,向着通用框架的方向发展:指标更加全面与不依赖特定的软件平台。
同时,元数据质量评估是对开放数据平台进行综合评估的基础。西班牙学者A.S.Martín等[20]将平台的“质量指数”(Quality Index,QI)分解为3个子指数:功能指数、内容指数和语义指数,其中语义指数的四个指标之一是元数据质量水平。捷克学者R.Máchová等[21]建立的数据门户质量评估的“基准框架”共有4个维度(技术、搜索与访问服务、用户交互和数据集描述)下的28个指标,其中数据集描述维度下的10个指标涉及到各种元数据项,如Title、Publisher和License等。
数据本身的质量是另一个研究焦点。巴西学者M.I.S.Oliveira等[22]对巴西国内的13个数据门户进行对比分析,评估了CSV数据集的数据稀疏性(即完整性)、记录重复性及模式定义的规范性等,发现了记录重复、字段定义不一致等质量问题。意大利都灵理工大学的A.Vetrò等[2]以意大利为背景,在SPDQM(Square-Aligned Portal Data Quality Model)基础上建立了7个维度(准确性、完整性、时效性和溯源等)和14个度量指标的评估框架,评价粒度细致到数据集中的记录与单元。荷兰代尔夫特理工大学的A.Zuiderwijk等[23]在下一代开放数据平台中引入“数据质量指示器”功能模块,以促进开放数据的再利用。数据质量评估也是各种综合评估的基础。例如,在政府的开放性评价中,塞尔维亚学者N.Veljković等[24]从开放数据的八项原则出发,重点关注数据的完整性、原始性、及时性、机器可读性及开放许可等。葡萄牙学者P.L.Rui[25]认为数据质量是政府数据披露(Data Disclosure)的关键特征,包括准确性、一致性、完整性、及时性和可获取性等子属性。英国伦敦布鲁内尔大学的K.Kapoor等[26]将数据质量列为政府数据可用性(Usability)的关键特征之一。
1.2 国内
2014 年12月2日,全国信息安全标准化技术委员会成立大数据标准工作组,启动了大数据领域(含开放数据)标准的研制工作,目前在研究的12项标准包括“信息技术数据质量评价指标”[27]。夏义堃[28]的研究成果认为“数据质量问题(数据重叠和不准确等)是OGD风险的重要来源”,提出的风险管理流程包括“建立政府数据开放的质量保障体系与评估体系”。李平等[29]认为数据质量是开放数据成功应用的基础,包括数据的高价值性、一致性、可机读性和持续性等。
台湾高雄大学的C.S.Lin等[30]对台湾省内的3个开放数据网站质量进行评估,13个指标包括元数据、API、数据格式、可用性、隐私保护和开放许可等。郑磊等[31-32]基于国情,提出“基础”“数据”“平台”三大层面共13个维度的OGD评估框架,数据质量是维度之一。马海群等构建了六维度的政府开放数据网站服务质量测量的结构方程模型[33]和基于用户满意度理论的政府开放数据质量评价指标体系[34],数据质量指标包括准确性、全面性、一致性和及时性。武琳等[35]构建的城市开放政府数据平台服务绩效评估体系中,数据质量是7个二级指标之一,含有4个三级指标:数据完整性、元数据描述、数据格式和授权许可。谭必勇等[36]从开放政府数据平台的宏观功能结构出发,对我国10个代表性开放平台数据质量从可用性、可读性、全面性、及时性和开放性等7个指标进行评价,每个指标分为三个等级,在综合等级上“上海”和“青岛”排名最高(都是一级)。
同国外相比,这些工作的不足是选取的维度和指标偏少,对数据质量的描述不全面、粒度较大,对元数据质量重视不够,也缺乏细粒度的评价案例和实际应用的评价系统。
2 评估指标
为完成数据质量评估(DQA),需要合适的评估指标、方法和工具,而构建维度和指标体系是上述研究工作的核心内容。质量维度(Dimension)是数据特征或数据需求的一个方面(如准确性、开放性等),需要分解为可测量的一系列度量指标(Metric)[37]。借助一定的方法或工具,每个指标能够根据评估对象被赋予一个明确的值——一个语言值或数值,常用的是布尔值(0或1)和百分比。
2.1 元数据
表1 元数据质量的评估指标——模式层
目前,OGD的元数据质量的评估指标已相当完善,本文从两个层次(模式层和实例层)[38]对其进行归纳,结果分别见表1和表2。可见,在22个指标中已有50%在欧盟、英国或美国的“质量评估系统”中得到了应用;除了信息量、记录的正确性和地理范围等指标难以计算外,大部分指标的计算较为简单,可由程序自动完成,比如URL的有效性可以通过“正则表达式”自动验证等[19]。
表2 元数据质量的评估指标——实例层
2.2 数据集
目前提出的主要的数据集质量评估指标见表3,也分为模式层和实例层两个层次。其中,可追溯性维度下的两个指标与表1中的“日期”指标重复,模式的可理解性也是通过元数据实现的。数据集的开放性是开放数据的核心属性,其评价归为元数据范畴(见表2),没有出现在表3中。元数据的一些质量属性,如表2中的资源可用性、开放性等,实质上也反映了数据集的相应质量属性。
从表3可见,对数据集模式定义的评估指标比较少,表明这方面的研究才刚刚起步。实际上,在传统的数据库领域存在着“模式的质量决定着数据的质量”这一规则[38],在开放数据领域也应重视数据和元数据在模式层次的质量问题及其对数据质量的影响。
表3 数据集质量的评估指标
(注:资料来源于参考文献第2、22、24—25、30、32、34—36条。)
3 对我国的启示
提升和保障数据质量是我国政府数据共享开放工程的主要任务之一[10]。我国目前的研究成果偏向于对数据平台的整体评价,还缺乏对平台内数据和元数据等的细粒度质量评价。在开展我国OGD数据质量评估工作时,应着重从以下三方面借鉴国际先进经验。
3.1 选择多元评估对象
数据质量是一个多维和主观的概念,与背景、环境和应用场景密切相关。不同于其他领域,OGD质量评估的对象呈现出多元化的特点。W3C Web数据最佳实践(Data on the Web Best Practices,DWBP)工作组在对各国开放数据实践全面调研和深入分析基础上,在元数据、开放许可、数据质量等方面提炼了35个最佳实践(Best Practice, BP),于2017年1月31日发布为正式推荐标准[39],其中提出的开放数据的结构模型如图1所示。在将“数据集”发布到Web的同时,相应的“元数据”和“词汇表”也应同时发布出来,这里的“词汇表”通常是数据集的模式定义,或者是元数据模式定义的一部分[6],用以规范元素的取值。因此,数据集、元数据和词汇表应是数据质量评估的三个基本对象,在此基础上可以进一步开展“数据目录”(即门户网站或软件平台)质量的综合评价。
图1 开放数据的结构模型
在我国,除了元数据和数据本身,数据模式定义也被越来越多的数据门户网站开放出来,如上海(www.datashanghai.gov.cn)、广州(datagz.gov.cn/data)和哈尔滨(data.harbin.gov.cn)等。但在各字段(数据项)的格式定义中,均采用“文本”类型,没有区分日期型和数值型等,为数据质量管理带来隐患。同时,不同于国外将数据访问的API (Application Programming Interface)作为一种数据资源,我国各网站将API接口服务处理为与数据集并列的开放对象。因此,数据集(含元数据和模式定义)与API(含元数据和参数定义)应是我国开放数据细粒度质量评估的基本对象。
3.2 重视元数据标准规范的作用
各国的元数据标准规范在OGD建设和质量评估中起到了关键性的作用。美国白宫的“开放数据项目”(Project Open Data)开发了元数据方案POD v1.1(Project Open Data Metadata Schema v1.1),已被24个联邦机构和43个地方政府采用。美国行政管理预算局(Office of Management and Budget,OMB)要求各联邦机构依据POD v1.1定期报送“企业数据清单”和“开放数据清单”,并对其质量进行评估和监测。在W3C DCAT的基础上,欧盟开发了元数据方案DCAT-AP(DCAT Application Profile),通过它评估各国的元数据质量。英国的ODC收集每个数据集的DCAT元数据评价其质量和可信度[9]。J.Umbrich等建立的通用评估框架借助DCAT解决了各平台元数据的异构问题[19]。
对标准规范的遵从程度是质量评估的基本准则。2013年11月,上海市质量发布地方标准《政务信息资源共享与交换实施规范第1部分:目录元数据》,用以规范政府部门数据资源开放清单的编制[6]。2016年9月28日,贵州省技术监督局发布《政府数据资源目录第1部分:元数据描述规范》等四项地方标准。这些标准应成为我国元数据质量评估的基础。同时,国家数据开放网站www.data.gov.cn的建设,迫切需要全国统一的元数据标准和通用的质量评估体系,以促进和保障地方政府的数据目录聚合到全国统一的平台上。
3.3 建设自动化的质量评估与监测系统
质量改进是一个持续的渐进过程,需要定期开展质量评估和监测工作,找出质量问题并采用应对措施。随着OGD的发展,数据集的数量和规模迅速增长。为此,自动化的质量评估与监测系统得到普遍重视,其运行方式分为两种:嵌入到开放数据平台(如欧盟)与独立运行(如美国和英国)。
以济南市为例,在对其开放数据网站(www.jndata.gov.cn)中数据集的调查发现,无论是元数据、还是数据本身都存在各种维度下的一些质量问题,详见表4。该网站于2017年7月25日正式开通,发布了325个数据集。到12月25日已有894个数据集,而到2018年1月初已增长到1 010个。显然,建设质量评估系统是质量管理成熟度提升的必由之路,也只有自动化的方式才能实时监测最新的质量状况。
表4 济南市开放数据存在的质量问题
由于我国各地的开放数据网站大多没有提供元数据API,使得程序不能以一致、便捷的方式获取元数据记录。这时需要网页抓取技术,但由于各地网站的组织方式不同,需设计不同的抓取方案,增加了独立运行的自动评估系统的复杂性。
4 结语
世界各国的实践表明,开放不等同于高质量。在开放的同时,数据发布者应确保数据是可信的和可发现的,即保障数据质量和元数据质量。国内外面向OGD数据质量评估的研究方兴未艾,以应对“对质量维度的共同理解”等挑战。本文对其进行了梳理,提炼出了主要的评估维度和指标,结合我国实际,分析了可以借鉴的经验。
下一步的工作是构建适应国情的数据质量评估和监测体系,并应用到我国开放政府数据的实践中。
(来搞时间:2018年3月)