国内外政府开放数据质量研究述评
2020-01-19武汉大学信息管理学院图书情报国家级实验教学示范中心
王 娟(武汉大学 a.信息管理学院,b.图书情报国家级实验教学示范中心)
自2009年美国政府推出《开放政府指令》(Open Government Direct),并建立开放政府数据(Open GovernmentData,OGD)平台Data.gov以来,政府数据开放行动浪潮席卷全球。各国纷纷通过颁布政府数据开放政策,建设开放平台以促进政府数据的开放、获取和利用,其中美国、英国、澳大利亚等国是政府数据开放的先行者。相对而言,我国的政府数据开放共享实践起步较晚,但高度重视开放数据工作。2015年国务院印发的《促进大数据发展行动纲要》提出要实施政府数据资源开放共享工程,标志着我国政府数据开放共享作为顶层设计被正式提上日程。[1]
虽然政府数据开放行动已成为普遍共识,但是开放数据质量依然是一个较为严峻的问题。《全球数据开放晴雨表(第四版)》指出,政府开放数据通常是不完整的、过时的、质量低下且零散的。在政府机构中,政府数据开放的时间表、流程和责任往往不够明确,使开放数据管理和发布工作非常薄弱,而且容易产生多种错误。[2]然而,数据质量是开放数据价值的关键,是影响用户获取与利用数据的关键因素,开放数据质量的不确定性将对开放数据价值的实现造成巨大威胁。[3]《中国地方政府数据开放报告(第三版)》指出,数据层是政府数据开放的核心,而数据质量则被中国开放数林指数评估专家委员会成员一致推选为数据层评估的核心。[4]
学术界围绕政府开放数据的质量展开了一系列研究,取得了一定的研究成果。本文通过文献调研对国内外政府开放数据质量的相关文献进行梳理与总结,重点把握政府开放数据质量研究的趋势与方向,以期为本领域研究者提供参考与借鉴。
1 数据来源与研究方法
本文选取Web of Science和CNKI数据库为数据源,以主题、摘要和关键词为检索字段,以政府开放数据质量或开放政府数据质量为检索词,进行模糊检索,检索时间截止为2018年12月31日,经过筛重和删除不相关或弱相关的文献,共有26篇外文文献,20篇中文文献符合本文的研究目的。
本文运用文献调查法,对文献的研究对象和研究内容进行分析和述评,全面系统地展现国内外政府开放数据质量研究的热点和发展态势。通过文献调查发现,目前国内外对政府开放数据的价值、障碍以及政策的相关研究较多,但政府开放数据质量研究相对薄弱,研究集中于开放数据质量的影响因素、开放数据质量管理与保障机制和开放数据质量评价等方面。
2 政府开放数据质量的影响因素
政府开放数据质量会受到多种因素影响,通过文献分析,具体可归纳为技术、组织、政策法规和环境因素(见下表)。
表 政府开放数据质量的影响因素
(1)技术因素。Conradi等人研究发现政府部门的数据收集、存储和使用方式对当地政府的数据开放有重要影响。政府数据开放之前会经过一系列的处理流程,政府开放数据质量势必会受到其中各个环节的影响。[5]Yang等人从技术视角出发,指出数据格式、元数据、信息系统外包和信息化水平是影响政府开放数据质量的重要因素。[6]Kubler等人发现政府开放数据门户中的元数据质量对于政府开放数据的质量以及政府数据开放的成功起着至关重要的作用。而当前的电子政务模型中几乎没有考虑元数据质量。[7]这主要是因为政府部门工作人员普遍欠缺数据质量意识和数据素养能力。[8-9]
(2)组织因素。政府数据开放仍是一项影响广泛的新兴运动,许多政府机构尚未建立专门负责的OGD部门,由于人员编制、财政支持等资源限制,政府数据开放的许多工作由现有的员工执行,增加了政府部门的额外工作量,且没有对政府数据开放实践的绩效进行正式监督,最终影响了政府开放数据的质量。[10-12]Attard等人认为,组织文化和组织准备程度都对政府开放数据质量有重要影响。[13]黄如花等人通过文献调研,提出了中国政府数据开放障碍框架,指出受传统体制观念、风险规避和保守的组织文化影响,政府机构总体上还没有真正理解并接受政府开放数据的真实价值。[14]各级政府部门将数据资源看作本部门专有资源,[15]不愿意开放政府数据或者尽量少开放,更不愿花费额外成本提供优质数据。
(3)政策法规因素。Zuiderwijk等人认为,数据所有权风险和合法性问题是开放数据的主要挑战。此外,开放政府数据还存在侵犯隐私的风险。[12]由于个人隐私等信息安全保护法规的不健全,隐私与开放透明之间的界限不清,也在一定程度上影响了政府开放数据的质量。[16]李樵指出,现有的政府信息公开法律无法有效规定和保障政府公开数据的类型和标准,是造成数据质量问题以及由于数据质量不佳导致数据驱动的决策风险的重要原因。[17]Veenstra等人指出,统一的政策和法规对政府开放数据具有方向性的引导作用。[18]由于缺乏明确的法律规范,政府机构在数据开放共享前反复检查是否违反相应的约束,[6]势必会对政府开放数据质量造成影响。
(4)环境因素。Yang等人认为,媒体和公众压力、同行比较等因素也影响了政府开放数据质量。[6]显然,开放政府数据会受到媒体和公众的审查,政府数据开放责任部门无法承受由于数据的不准确、不完整而使公众遭受损害的责任。在政府数据开放运动愈演愈烈的今天,相关机构不可避免会受到本地域乃至世界范围内的同行压力,但是,同行压力会促进政府部门提高开放数据的质量。
(5)此外,樊博等人以上海、北京和武汉三地128个政府部门为样本,从内部组织和外部环境两方面研究政府开放数据质量的影响因素。研究发现,政府部门的制度能力是政府开放数据质量的重要影响因素,来自公众和上级政府部门的外部压力可以调节作为内部组织因素的制度能力与政府开放数据质量之间的关系。[19]
3 政府开放数据质量管理与保障机制
学者们分别从政府开放数据的发布机制、政府开放数据基础架构功能以及政府数据开放实践等方面对政府开放数据质量管理与保障机制进行研究。
YouGov总裁Stephan Shakespeare提出的“数据双轨发布”办法是提高政府开放数据质量的有效方法。[20]这种发布机制可以克服体制和技术障碍,最终目的是要政府部门尽可能发布高质量的数据。Zuiderwijk等人通过准实验方式评估了政府开放数据架构中数据质量指标和用户参与机制的重要性和有用性,研究表明,在政府开放数据门户中增加信息讨论、社交分享、评论等功能,可有效提高政府数据开放用户参与度和数据质量。[21]国内学者谭必勇等人基于政府开放数据平台的宏观功能,对我国10个省、市的政府开放数据平台的数据质量现状进行调查,研究发现各地方政府数据开放平台的数据质量良莠不齐,提出我国政府应从践行开放理念、改善数据体验和夯实平台基础三个方面来提升政府开放数据平台的数据质量。[22]黄如花等人针对我国政府开放数据中的基础数据,提出我国应在遵循国际开放定义和开放数据原则的前提下,明确政府开放数据的数据格式,建立基于数据生命周期的数据质量保证框架,建立政府开放数据的元数据标准和政策等建议。[23]翟军等人通过梳理英国政府开放数据“国家信息基础设施”建设的相关政策和实施情况,归纳总结其数据质量保障等方面的经验,为我国政府开放数据实践提供借鉴和参考。[24]相丽玲等人以美国、英国、澳大利亚等国Data.Gov资料为基础,探索各国的政府数据开放在运行方式及保障机制方面的异同,并对各国在开放数据质量控制及其方法等方面的共性与差异进行分析。[25]李樵通过文献研究、政策法规调研和政府数据开放平台调研,提出建立政府数据开放和开放政府数据质量的监督问责制等建议。[17]
这些研究为国内外政府开放数据理论与实践研究提供了有益借鉴,也被许多国家政府机构采纳,如英国吸纳了Stephan Shakespeare提出的“数据双轨发布”办法,[20]将传统的自上而下的政府开放数据发布机制与自下而上的市场需求拉动数据发布机制结合起来,将优先级别高、影响范围广的数据高质量发布出来。
4 政府开放数据质量评价
数据质量评价研究历史由来已久,评估数据集的质量是数据质量管理项目的基本任务。[26]而政府开放数据质量评价主要针对数据的可获取性、准确性、可信度等方面作评价。政府开放数据质量评价研究主要包括数据质量评估标准、评估工具与方法以及实证评估研究三个方面。
4.1 评估标准
政府开放数据质量评估标准是政府开放数据质量评价的基础,也是提高数据质量的首要条件。学者们基于不同的研究视角,提出不同的政府开放数据质量评估指标。
万维网联盟(W3C)创始人Tim Berners-Lee提出的“5星开放数据”标准是政府开放数据质量评估标准中最重要的成果。[27]Ubaldi从政治、组织、技术等不同层面制定了一系列指标,从可用性、需求度和重复使用等方面衡量数据的质量。[28]王今等人基于用户满意度视角建立了评价政府开放数据质量的指标体系,采用层次分析法计算评价指标的权重,并通过模糊综合评价法对我国政府开放数据质量进行用户满意度测评,验证了模型的有效性。[29]但是,政府开放数据质量评价缺乏统一的标准,需要相关机构和组织开展此项研究和标准编制工作。
4.2 评估工具与方法
国内外学者在已有的数据质量评估工具与方法研究的基础上,结合政府开放数据的具体环境,构建相应的评估工具与方法。
Behkamal等人参考ISO25012标准数据质量模型构建了一个具有20个维度的指标体系,并通过理论和经验两种方式验证了指标体系的适用性。[30]Kubler等人运用层次分析法构建了一个开放数据门户质量评估体系,对259个开放数据门户的元数据质量进行分析与评估,验证了指标体系的适用性。[7]韦忻伶等人对已有的政府开放数据质量评估体系进行系统梳理,构建了政府开放数据质量评估动因、评估内容和评估方法的循环迭代检验机制。[31]
4.3 实证评估
政府开放数据质量实证评估研究以国内外政府开放数据平台的真实数据为对象进行数据质量评估,为改进政府开放数据质量评估方法与工具提供了依据,并对进一步提升政府开放数据质量提出了针对性的建议或意见。
Oviedo等人在Tim Berners-Lee的五星质量标准模型的基础上,提出了一个新的开放门户数据质量评估模型,并对哥斯达黎加当地政府开放数据进行实证研究以阐释该模型的测量机制。[32]Viscusi等人探讨了基于质量的政府开放数据合规性评估框架,其中包括数据质量维度和一系列衡量合规性指数的标准,并运用该框架对意大利当地公共行政机构的开放数据样本进行评估。[33]Vetrò等人在SPDQM数据质量评估模型的基础上,构建了一个量化的开放数据质量评估框架,并对意大利的两组政府开放数据集进行实证研究,结果表明存在数据监控和质量控制过程的国家层面集中式发布的开放数据具有较好的质量。[34]Torchiano等人基于ISO25024标准,制定了一系列政府开放数据质量评估指标,以意大利公共行政部门的12个不同组织发布的数据集为例,通过开源软件进行验证,结果表明该组评估指标能够实现数据集质量的初始自动评估。[35]李凡星构建了一个政府开放数据平台的评估体系,对北京、上海、浙江三地的地方政府开放数据平台进行了基于数据质量的实证评估研究,并从评估实施、政策、技术、管理、合作五个方面对政府开放数据平台建设与实施提出建议。[36]李晓彤等人通过对北京、广州和哈尔滨三个城市的1,900多个政府开放数据集质量进行评估,发现三个城市的数据集质量在完整性、准确性和一致性等维度上总体得分偏低,且不同数据集之间的质量差异较大,提出政府部门要采取有效措施提升数据质量。[37]
5 结语
政府数据开放已成为不可逆转的趋势,政府数据开放受到全世界各国的高度重视的同时,开放数据质量也得到广泛的关注。通过对国内外政府开放数据质量研究的回顾,发现本领域的研究还存在着一些不足。① 研究比较薄弱。有待学者们针对具体数据质量问题展开深入的研究与探讨,形成一个整体的理论框架。② 缺乏政府开放数据质量控制研究。后续研究可以从不同维度探索开放数据质量控制的科学途径,从而保障政府开放数据质量,促进政府开放数据的获取与再利用。③ 缺乏统一的政府开放数据质量评估标准。尽管政府开放数据质量评估方法呈现出多样化特点,但是未形成统一而有效的评估标准,在实践中评估效果也不尽如人意,对于政府开放数据质量的评估可以从评估指标、评估效度及用户满意度等方面继续深入展开研究。