亚洲国家开放政府数据平台数据组织和利用研究
2018-12-14伍诗瑜
伍诗瑜
(中山大学资讯管理学院 广州 510006)
1 引言
自2009年美国Data.gov启动以来,开放数据运动在世界范围内迅速兴起,我国上海、武汉、浙江和广东等省市从2012年起陆续建立起开放政府数据平台,加入全球开放数据的浪潮,推动政府数据的开放和利用。而数据组织的统一化问题已经成为目前我国开放政府数据平台存在的主要问题之一[1]。如何更好地组织开放政府数据,进而推动政府数据的再利用,这也是我国建设国家政府数据统一开放平台需要解决的关键性问题。本文重点考察了开放数据水平较高的5个亚洲国家的开放政府数据平台,分别是韩国、日本、菲律宾、新加坡和印度,其中既有发达国家,也有发展中国家。主要从数据收集、数据分类、数据描述、数据检索4个角度分析5个国家开放政府数据平台的数据组织内容和方式,同时也对5个平台提供的数据利用方式进行了对比分析,最后基于我国上海、北京、武汉、广州的开放政府数据平台的发展现状提出对我国的启示,希望在进一步了解亚洲主要国家开放政府数据发展情况的同时,也能为我国开放政府数据平台的数据组织和数据利用提供借鉴和参考。
2 国内外研究现状
目前国内外对韩国、日本、菲律宾、新加坡和印度这5个亚洲国家开放政府数据平台数据组织的研究多是从宏观层面,如政策法律、战略规划、发展现状等角度出发,探讨不同国家的开放政府数据建设经验。政策法律方面,高大伟对日本以及英国和美国的开放数据政策法规体系、负责机构等发展情况进行了分析[2],Jo等人探讨了政策工具对于接受和使用韩国开放政府数据平台的作用[3]。战略规划方面,魏红江等人对日本的大数据战略与开放数据战略的背景、制定与实施情况进行了研究[4];丁念等人分析了印度等发展中国家的开放政府数据战略实施背景、举措、内容和效果等[5];Chan在介绍新加坡政府的开放数据项目的基础上提出将开放政府数据平台开发成开放创新平台[6]。发展现状方面主要包括个案分析和多国对比分析。个案分析上,Ohmukai介绍了日本的开放数据案例,讨论了开放数据面临的挑战[7];陈美等人剖析了韩国的开放政府数据管理体制、管理内容和特点[8];Hyun基于开放数据晴雨表和开放数据指数分析了韩国的开放数据情况[9]。多国对比分析上,杨东谋等人从法令规范、分享方法、数据维度等方面对新加坡、美国等国家的开放数据进展进行了探究[10],Kumar基于开放数据晴雨表从数据集、准备度、执行力、影响力等方面比较了印度和日本的开放数据情况[11]。在开放政府数据的利用方面,已有研究主要是从用户角度出发,探讨用户利用数据的情况,Chattapadhyay分析了研究机构等组织获取和利用印度开放政府数据的情况[12];Hatta比较了日本、美国和英国在开放数据利用上的差异,比如利用开放数据最多的地区,单个用户利用的数据种类等[13]。本文从数据平台开发者的角度出发,调查分析开放政府数据平台提供的数据利用方式。
3 各国平台数据组织和数据利用分析
从开放数据晴雨表(第四版)[14]的排名来看,韩国、日本、菲律宾、新加坡和印度均位于前1/3,属于亚洲国家中开放数据水平较高的国家。从2016/2017全球开放数据指数[15]来看,日本、新加坡和印度的排名也比较靠前。另外,韩国、日本和菲律宾还是亚洲开放数据伙伴关系[16]的成员,这也从侧面反映了这三个国家正在积极推动本国开放政府数据的发展。下面将分别从数据收集、数据分类、数据描述、数据检索4个角度分析各国开放政府数据平台的数据组织内容和形式,并对比各国提供的数据利用方式。
表1 各国开放政府数据概况
3.1 数据收集
本文首先对各国开放政府数据平台的开放数据来源机构和数据更新时间进行了分析,其次调查了各个平台收集的数据资源数量和数据格式情况。数据调查时间为2018年2月10日。
3.1.1 数据来源和数据更新时间
从数据来源机构来看,新加坡和印度开放政府数据平台的来源机构数量最多,分别有110个和109个,新加坡的开放政府数据来源于科技和研究机构、建筑管理局、经济发展局等机构。印度开放政府数据来源于卫生和家庭福利部、艾滋病防治部、农业研究和教育部等机构,其中有84个中央机构和25个地方机构。菲律宾、日本开放政府数据的数据来源机构较少,分别有36个和22个。菲律宾的开放数据主要来自于以前的开放数据平台,以及菲律宾统计局、中央银行、国家反贫困委员会等机构。日本的开放数据主要来自国土交通省、经济产业省、厚生劳动省等部门。韩国开放政府数据的来源机构是按机构种类划分的,主要来源于自治行政组织、公共机构、国家行政机关和教育行政组织等11类机构。
数据更新方面,除了印度的开放政府数据平台外,其他4个国家的数据更新频率都记录在数据集的元数据信息中,有的按周更新,如新加坡的Registered Entities with Unique Entity Number(具有唯一实体编号的注册实体)数据集;有的是按月更新,如菲律宾的Civil Aviation Authority of the Philippines - Aircraft Movement(菲律宾民航局-飞机运动)数据集和新加坡的Index of Industrial Production(工业生产指数)数据集;有的按年更新,如日本的平成28年空港管理状況調書(2016年机场管理状况声明)数据集;也有不定期更新的,如日本的気象予報_天気予報·台風の資料(气象预报_天气预报 ·台风资料)数据集。韩国的开放政府数据不仅标明了数据更新频率,还有该数据预计更新的日期,如交通事故统计数据集的更新频率为按年更新,预计更新日期是2018年6月30日。
3.1.2 数据资源数量和数据格式
从平台的数据资源数量来看,印度的数据资源量最多,超过15万个,其次是韩国和日本,都超过了2万。其中韩国的数据平台共收集了24 832个数据资源,包括文件数据22 271个,开放API 2 503个,标准数据58个。日本除了直接在平台上提供数据资源之外,还提供了392个中央政府、地方政府、独立行政法人、非政府组织的数据库,用户可以通过点击链接跳转到数据库页面浏览数据。新加坡的数据来源机构虽然最多,但是其数据资源量却较少,只有1 265个。菲律宾开放政府数据平台上的数据资源最少,只有280个。
表2 各国开放政府数据收集现状
数据格式上,日本开放政府数据平台的数据格式种类最多也最丰富,既有常见的PDF、XLS、CSV、XLSX、DOC格式,也有图片格式JPEG、TIFF、GIF,还有MP3等多媒体格式。韩国的开放数据格式以CSV、XML、XLS、HWP和XLSX为主,也有RDF、JPG等格式的数据,但数据量较少,HWP格式是韩国特有的文件格式。菲律宾、新加坡和印度开放政府数据平台的数据格式种类都比较少,其中菲律宾的数据格式包括CSV、XLS、XLSX、JPEG、HTML和XL6种,印度的数据格式也有6种,包括XML、CSV、JSON、JSONP、XLS和PDS,新加坡的数据格式最少,只有CSV、PDF、KML、SHP4种。综合来看,CSV和XLS是各个开放政府数据平台比较常用的数据格式。
3.2 数据分类
在对比分析各国开放政府数据平台的数据分类浏览方式的基础上,进一步调研了5个平台的政府数据主题分类类目。
3.2.1 数据分类浏览方式
从数据分类浏览方式来看,韩国开放政府数据平台的数据分类浏览方式最具多样化,共有9种,除了常见的按主题、按来源机构、按数据格式、按标签4种分类方式之外,用户还可以按使用许可、按服务类型(开放API)、按核心数据、按热门搜索词进行分类浏览。其中使用许可包括作者标记、作者标记—禁止变更、作者标记—允许同一条件变更、作者标记—非盈利、作者标记—非盈利—禁止变更、作者标记—非营利—允许同一条件变更、使用许可范围无限制7种许可类型。服务类型是指提供的数据服务类型,包括网格、图、下载、链接等7种。服务类型(开放API)主要分为SOAP、REST、RSS/ATOM、LINK4种类型。核心数据是高质量的国家核心数据,用户可以选择浏览全部核心数据,也可以只浏览文件数据或开放API数据。按热搜词分类浏览为用户提供了5个最受欢迎的热搜词,点击任一热搜词就可以浏览相关的数据集。
表3 各国开放政府数据分类浏览方式
印度开放政府数据平台的分类浏览方式也比较多样,除了按主题和按来源机构对数据进行分类之外,用户也可以选择按部门名称、按邦、按机构类别、按资产管辖权浏览数据,还可以查看中央或地方的首席数据官,浏览数据集的首席数据官的相关信息,包括所在部门、姓名、联系方式等,也可以直接选择浏览API数据或可视化数据。日本和菲律宾都提供了按主题、按来源机构、按数据格式和按标签分类浏览的方式,新加坡的开放数据可以按主题、按来源机构、按数据格式3种方式进行分类浏览。
3.2.2 数据主题分类类目
从各国对政府数据的主题分类类目来看,韩国、日本、菲律宾3个国家的主题分类数量差别不大,韩国将政府数据分为了教育、领土管理、公共行政等16类;日本将政府数据分为行政财政、企业·家庭·经济、司法·安全·环境等17类;菲律宾将政府数据分为政府、社会、商业和经济等12类。新加坡开放政府数据平台将政府数据分为经济、教育、环境等9类,主题分类类目数量较少。印度开放政府数据平台比较特殊,政府数据被分为了4 232个目录,十分详细,可以依次浏览查看,涉及的主题包括犯罪、健康管理信息系统、农产品营销、社会经济、水资源、年度卫生调查等。
表4 各国开放政府数据主题分类类目
3.3 数据描述
都柏林核心元数据的15个元素分别是贡献者、覆盖范围、创建者、日期、描述、格式、标识符、语言、发布者、关联、权限、来源、主题、题名、类型[17]。以都柏林核心元数据的元素考察5个国家的数据资源描述情况,可以发现5个国家开放政府数据平台对数据的描述一般都会包括数据的创建/发布/更新日期、数据内容描述、数据格式、标识符(URL)、数据发布者、使用权限、数据主题、题名8个都柏林核心元数据元素,其他7个元素贡献者、覆盖范围、创建者、语言、关联、来源、类型则很少甚至没有平台进行描述。其中虽然新加坡开放政府数据平台对Source(s)进行了描述,但Source(s)内容却是数据所属机构,与都柏林核心元数据元素对Source的定义不符(A related resource from which the described resource is derived.)。在都柏林核心元数据元素之外,各国也描述了数据集的很多其他特征,比如更新频率、关键词、下载量等,具体情况请见表5。
表5 各国开放政府数据元数据要素
3.4 数据检索
5个国家的开放政府数据平台都提供了最普遍的关键词检索功能,韩国开放政府数据平台还提供了按来源机构进行检索的功能,印度开放政府数据平台还提供了标题检索、主体内容检索和关键词检索的精确匹配检索以及数据目录检索,在单个数据主题下还可以进行题名和格式的组合检索。在检索结果输出上,韩国、日本和印度的检索结果输出方式比较多样化,韩国开放政府数据平台的检索结果根据数据类型分成了文件数据、开放API和标准数据三大类,进入每一类数据后每页显示10条检索结果,可以按日期、题名、相关性、受欢迎程度、下载量进行升降排序输出。日本数据平台的检索结果可以按日期、题名、相关性和受欢迎程度进行升降序排列,其中日期又包含按发布日期和最近修改日期进行排列,每页可显示10/20/50条检索结果。印度开放政府数据平台在目录检索结果输出页面,可以按最近日期、最近更新日期、相关性和浏览量(受欢迎程度)进行排序,在关键词检索页面可以按10/20/30/50/100条输出检索结果。菲律宾和新加坡的检索结果输出方式则稍显单一,菲律宾的开放政府数据平台的检索结果可以按日期和题名的升降序排列,每页显示10条检索结果。新加坡的数据检索结果可以按最近修改日期、相关性排序,也可以按题名进行升降序排序,每页输出20条检索结果。
表6 各国开放政府数据平台检索结果输出方式
3.5 数据利用
从数据利用方式来看,5个平台都提供了数据下载、数据链接和API调用3种数据利用方式。API可以用于应用程序的开发,帮助用户获取及时更新的海量数据,节约开发成本和时间。其他的数据利用方式还有数据预览、数据可视化服务以及数据利用案例分享。具体来看,除了数据下载、数据链接和API调用之外,韩国开放政府数据中文件数据还允许用户发送邮件给数据提供者,用户还可以查看开放数据的利用案例以及利用开放数据创造价值的企业CEO的访谈信息。日本的开放政府数据利用方式主要是下载和链接,也可以直接下载平台数据资源的API和元数据文件,并提供了数据利用案例。菲律宾数据平台除了提供数据下载和链接之外,还提供了数据的预览功能,可以直接调用API和查看数据利用案例。新加坡数据平台为用户提供了数据的预览、下载和链接和API的调用服务。印度的开放政府数据除了可以进行下载、链接、调用API之外,还针对部分开放数据提供了可视化功能,用户可以在数据可视化界面,进行数据选择、可视化设置等操作。
表7 各国开放政府数据利用方式
4 对我国开放政府数据平台的启示
基于对韩国、日本、菲律宾、新加坡、印度开放政府数据平台的调研,结合国内上海、北京、武汉、广州的开放政府数据平台现状,文章从丰富数据来源和数据格式、增加数据分类浏览方式、规范数据描述的元数据元素、强化数据检索功能、提升数据利用服务质量5个方面提出对我国开放政府数据平台数据组织和数据利用的启示。
4.1 丰富数据来源和数据格式
开放政府数据的数量和质量同样重要。在数量上,我国开放政府数据平台还要不断丰富数据的来源机构,收集尽可能多的数据。数据来源的丰富水平一定程度上影响了数据量的多少,比如印度开放政府数据来源于109个机构,数据量达到15万,成为5个国家中开放政府数据资源量最大的国家。在质量上,不仅要丰富开放政府数据的格式,还要进行一定的规范,以日本为例,其数据格式类型多样,格式数量也最多。但如果用户缺少相应的软件支持,则无法读取数据,因此还是需要规范开放数据的格式。韩国开放政府数据平台中的标准数据的标准之一就要求将数据格式标准化,使用CSV、JSON、XML等格式进行数据的开放。
4.2 增加数据分类浏览方式
按主题和来源机构对数据进行分类是我国开放政府数据平台比较常见的数据分类浏览方式,北京市政务数据资源网和武汉市政务公开数据服务网就是按这两种方式对数据进行了分类。此外,上海市政府数据服务网还按照资源类型和综合得分进行分类,广州市政府数据统一开放平台可以按标签进行浏览。但从对5个亚洲国家开放政府数据平台的调查来看,按主题、来源机构、数据格式和标签对数据进行分类的方式是比较常见的,韩国开放政府数据平台还另外提供了按使用许可、服务类型等5种分类浏览方式。因此建议国内的开放政府数据平台还应增加其他的数据分类方式,提供多样化的数据浏览方式,满足用户不同的浏览需求。此外,在数据分类主题的命名上,各个数据平台还要尽可能的明确和清晰化,避免造成交叉重复和产生歧义,比如菲律宾开放数据平台的政府类、政府支出类和地方政府类三类数据主题,都跟政府相关,造成了类目之间的语义不清。
4.3 规范数据描述的元数据元素
仅就调查的上海、北京、武汉、广州开放政府数据平台而言,其数据描述的元数据元素均有所不同。虽然目前完全统一我国已建立的各省市开放政府数据平台的数据描述标准难度比较大,但是今后建立的开放政府数据平台应在设计之初就要规范需要描述的元数据元素。除了15个都柏林核心元数据元素之外,还应考虑其他的有价值的数据特征信息,比如数据的关键词、更新频率、文件大小、浏览量、下载量等。此外,印度开放政府数据平台还提供了数据资源的首席数据官信息,包括姓名、联系方式等;日本也提供了联系机构信息,菲律宾提供了联系人姓名;新加坡提供了管理者信息。我国开放政府数据时也应该落实数据资源的负责人或负责机构,对数据负责人或负责机构实行问责制度,以此推进数据质量的提高。
4.4 强化数据检索功能
除了最常见的关键词检索之外,上海、北京、武汉开放政府数据平台都提供了高级检索功能,调查的5个亚洲国家中只有韩国和印度提供了关键词检索之外的检索功能,这说明我国的开放政府数据平台已经比较重视对数据的检索。在检索结果输出方式上,上海市的检索结果可以按照下载次数、综合得分、更新时间、浏览次数、名称进行升降序排列;北京市的检索结果可以按相关度、文件日期、文件大小进行升降序排列;武汉和广州只可以按数据资源类型筛选检索结果。然而这4个开放政府数据平台的数据检索结果都不能选择每页显示的检索结果数量,武汉和广州的检索结果也无法按照某种标准进行排序输出。这表明在检索结果的输出显示上,我国开放政府数据平台还应该进一步强化,增加检索结果的排序方式,使用户可以在检索后迅速找到最符合自己需求的数据。
4.5 提升数据利用服务质量
促进政府数据的再利用是开放政府数据平台建设的最终目的,也是平台数据组织的目标。对此目前韩国、日本、菲律宾、新加坡、印度开放政府数据平台提供的数据预览、下载、链接、API调用4种主要的数据服务,上海、北京、武汉、广州的开放政府数据平台基本上也提供了,但数据可视化服务比较欠缺,北京和广州虽然有,也仅仅是将数据转换成不同的图形,比如折线图、柱状图、饼状图、散点图等,无法像印度开放政府数据平台的可视化功能一样进行数据筛选等更高级的操作。因此国内的开放政府数据平台还需要进一步优化服务方式,提高服务质量,鼓励用户分享利用开放政府数据的经历,激发用户的利用需求,促进开放政府数据的再利用和价值再创。
(来稿时间:2018年3月)