基于数据生命周期的政府数据开放平台框架构建研究
2019-04-25张梦君北京师范大学政府管理学院
王 卫,王 晶,张梦君(北京师范大学政府管理学院)
1 基于数据生命周期的平台框架构建
生命周期的概念源于生物学领域,其本质是描述一个生物体从诞生、成长、成熟直至衰亡的过程,后经学者们的引申和扩展,逐渐被广泛应用于经济学、管理学等各个学科领域,成为一种重要的研究方法。[1]数据生命周期是指从数据产生、经数据加工和发布,最终实现数据再利用的一个循环过程,[2]它作为一种重要的理论已被应用于众多研究领域。[1,3]
事物的发展变化具有动态性和规律性,都存在一定的生命周期。政府数据被发布到开放平台上成为政府开放数据,平台作为政府开放数据的重要载体,在建设过程中应考虑政府开放数据的生命周期过程,使平台建设符合数据发展规律,保证数据开放平台的可持续性。
目前,关于政府开放数据生命周期的阶段划分各不相同,如将政府开放数据生命周期分为创建和发布、检索和使用、反馈三个阶段,[4]或将其分为识别、准备、发布、重用和评估五个阶段等。[5]尽管国内外存在很多对政府开放数据生命周期的研究,但大多对政府数据开放过程进行了简化,许多重要步骤被省略。政府数据开放是一个完整的生命周期过程,平台建设的每个阶段都会影响平台整体效果的实现。基于此,本文根据Attard等提出的生命周期模型,[6]从数据创建、数据筛选、数据发布、数据关联、数据管理、数据检索、数据开发、数据互动八个方面提出了政府开放数据平台建设的理论框架(见下图)。
图 政府开放数据平台的理论框架
政府开放数据平台理论框架由数据层、平台层、服务层三部分组成,包括相互关联、连续迭代的八个阶段。数据层是政府开放数据平台的基础,它为平台层提供原始数据集,包括数据创建和数据筛选两个阶段。平台层为服务层提供服务支撑,包括数据发布、数据关联和数据管理三个阶段。数据发布将数据层提供的数据集发布到平台上成为开放数据;数据关联将发布的数据进行关联以发现更多潜在的有价值信息;数据管理通过更新、清理、归档和保存等方式对数据进行动态维护。服务层是用户获取资源、开发应用、反馈交流的重要渠道,包括数据检索、数据开发和数据互动三个阶段,它将更新数据等意见反馈给平台层,将请求新的数据集或对已发布数据集的评价等内容反馈给数据层,政府部门依据用户请求和评价等调整数据创建,进而又进入下一个政府开放数据生命周期的循环。
2 政府数据开放平台功能分析
2.1 数据层
数据层是政府开放数据平台提供服务的基础,该层提供的原始数据集质量将直接影响数据的再利用和再发布,同时也会影响公众使用数据集的体验。调查显示,77%的政府机构认为不准确的数据削弱了他们提供卓越用户体验的能力。[7]
2.1.1 数据创建
数据创建是指各政府部门收集公共领域或部门内部产生的数据。公共领域的数据包括气候、污染、公共运输、交通、教育等;政府部门内部的数据包括预算与支出、人口、地理数据、会议数据等。为方便下游信息处理和开发利用,数据创建过程要明确数据来源、遵循元数据描述标准、符合统一数据开放规范。
明确数据来源,对保障发布数据的质量具有重要意义。遵循元数据描述标准,有利于将不同政府部门创建的数据进行关联,便于推动跨部门、跨机构的数据整合与分析,实现公众数据发现、挖掘和重用。美国开放政府数据采用DCAT标准进行元数据描述规范,英国、澳大利亚则在借鉴DC标准的基础上,根据实际需要拟定了本国政府开放数据元数据标准草案。[8]政府数据开放离不开标准规范的引导,遵循统一的数据开放规范,有利于提高政府数据创建效率。美国高度重视数据开放标准规范的制定,其政府开放数据平台上的信息均符合联邦信息处理标准(NIST)199号文件的规定,相关政府部门提交数据资源的操作必须按照上述标准的指引进行。[9]
2.1.2 数据筛选
开放数据平台上发布的数据应剔除涉及个人隐私、知识产权和国家安全的数据,并且应符合现有的法律政策。为此,需要对创建的数据进行筛选。考虑到数据集通过整合、分析后可能会产生衍生数据,故数据筛选过程中应对开放数据进行多次审核、定期复审,实现数据本身安全和数据防护安全。[10]
法律政策是平台进行数据筛选的重要指导。美国、英国等开放数据运动的引领者,很早便建立了符合本国国情的开放数据政策法规体系。美国2009年发布的《开放政府令》,细化政府开放数据行动内容,包括在线发布信息、公开政府支出、提高信息质量、共享开放经验等;2010年发布的《13556号总统令》为敏感但非涉密信息创建开放、标准的系统,避免过度隐瞒;2012年发布的《数字政府:建设21世纪更好服务美国人民的信息平台》提出电子政府的战略目标:数据服务概念模型,以信息为中心、以用户为中心的战略举措。英国2011年发布《国家数据开放行动方案》,提出集中开放数据;2012年发布《英国政府数字化战略》,要求推动数字化服务,提高政府服务水平;2013年发布《英国数据能力发展战略规划》,强调重视数据安全和隐私保护,完善开放数据相关法律和制度。[11]
2.2 平台层
平台层对数据层所提供数据集的进一步加工,并通过数据关联、更新、清理、保存和归档等数据集维护方式为服务层提供服务。
2.2.1 数据发布
数据发布是指将数据层产生的数据集发布到平台上以供用户访问使用。政府部门持有很多能为企业发展、社会创新、科学知识增长提供动力的数据,与公众共享的数据越多,开放数据创造价值的潜力就越大。政府开放数据的发布方法有很多,包括技术途径和组织途径。[6]技术途径依赖于现有的技术水平,包括数据发布格式、数据获取方法、数据链接等。关联开放数据五星模式是目前技术方面数据发布的指南,[6]星级越高,发布的数据格式越丰富,数据越便于用户使用。目前,美国、英国和澳大利亚等国已基本达到四星模式,使用RDF、URI等格式和技术,提升数据之间的关联性。组织途径强调数据被提供给用户的方式,而不仅仅是数据的发布格式,分为直接提供和间接提供。直接提供是指平台聚集所有部门的数据进行统一发布;间接提供是指平台仅提供实际数据的目录链接。美国开放数据平台主要采用直接提供的方式,用户可以直接在平台上访问、下载各部门提供的数据集,这种方式方便用户直接访问,但存在数据更新滞后的缺点,时效性较差。英国开放数据平台主要采用间接提供的方式,平台上仅提供每条数据集的简单介绍,如标题、来源、主题、更新时间等,而原始数据集的访问获取则需要链接到数据提供者的网站,这种方式可以较好地保证数据集的时效性,但不便于用户直接访问数据集。
2.2.2 数据关联
不同政府部门发布的数据集并不是完全独立的,它们之间存在着错综复杂的关系,而且开放数据具有不涉及授权、隐私和使用限制等特点。将发布的数据进行关联,将会产生更多有价值的信息。
数据关联的目标是形成一个类似于互联网的数据网(WebofData)。理想情况下,开放数据可通过开放许可协议以结构化、非专有化的格式在线获取,并可以通过URI链接到其他数据。美国率先使用数据关联技术实现对平台数据的管理,英国也已经开始尝试把数据发布为关联数据,以便于数据之间的连接与整合。从技术角度看,应用语义网是未来开放数据平台的发展方向之一,美国、英国等国家在数据组织方面使用了RDF、URI等格式和技术,提升了数据的关联性和有效性。数据开放是一个动态过程,数据的更新、清理、补充等都可能导致已建立的关联关系失效,如断链、死链、错链等。因此,需要及时对关联关系进行维护,可以采用基于协议、基于更新通知或基于主动监测机制的动态链接维护等方法,[12]保证关联关系的有效性和准确性。
2.2.3 数据管理
数据管理包括数据更新、数据清理、数据归档与保存等,贯穿于整个开放数据生命周期,在确保发布数据的可持续方面至关重要。
政府部门和公共领域每天都会产生大量的数据,及时对平台数据进行更新、按需补充,对保证平台具有持续活力、吸引公众使用数据具有重要意义。数据清理是指剔除平台上的低质量数据。数据质量主要取决于数据的准确性、完整性、时效性等,当低质量的数据发布为开放数据时,用户需要付出额外的成本(人力、物力、财力等)来提高数据质量,这是一种资源的浪费。数据归档是指对未来可能用到的旧数据以及按法规要求必须保留的数据进行归档处理。我国目前的归档范围一般都是文件、图纸等,尚没有专门针对政府开放数据的归档管理。数据保存随着平台上开放数据数量的增多成为极其重要的问题。从全球来看,政府数据通常保存在开放数据存储仓库中,PDF是最常使用的数据集格式,但PDF文件无法修改,限制了用户的访问使用。
2.3 服务层
服务层由数据检索、数据开发和数据互动三个阶段组成,它与用户直接进行交互,并将意见建议等反馈给数据层和平台层,形成一个良性循环。数据检索关系到平台数据的可访问性,包括检索途径和检索结果的呈现;数据开发是实现数据增值利用的有效方式,具有巨大的潜在社会效益;数据互动可以提高公众对开放数据的存在性认知,对政府数据开放有促进和监督作用。
2.3.1 数据检索
现有的检索方式主要有关键词检索、分类检索、字段限制检索和可视化检索。关键词检索是最通用的检索方式,目前国内外的开放数据平台都能实现。分类检索可以更直观地对数据集进行主题浏览,分类检索效果因人而异,与用户个人的知识结构和信息素养密切相关。在字段限制检索方面,美国、英国等支持该检索方式,检索字段包括标题、组织机构、数据格式、许可id、数据创建和更新时间等。可视化检索,又叫作地图检索,是指根据地理空间区域进行检索的方式。检索结果呈现方式影响用户对数据集的使用体验,目前国内外平台的检索结果呈现方式包括数据显示字段、数据筛选字段、数据排序方式等。国内平台提供的数据显示字段与美国、英国等发达国家基本相同,包括每条检索记录的题名、简介、数据格式、发布机构等;但国外平台提供的数据筛选字段较为丰富,包括主题、标签、数据格式、发布机构、综合得分等。美国、英国和澳大利亚均提供按相关度、更新时间、浏览下载次数和热度等排序方式。国内提供的方式较为单一,不同地方政府开放数据平台之间差异较大。
2.3.2 数据开发
数据开发的最终目的是为公民生活提供便利,实现政治、经济和社会价值。如,由美国气象局、美国航空航天局和美国地质调查局提供的数据而开发的应用程序“Climate”,能够及时提供气候、田野作业以及农作物生长方面的信息,帮助农民做出最优决策,提高劳动效率并增加利润。尽管开放政府数据强调公众的参与,但大部分使用平台上原始数据的用户是专业的数据分析师或应用程序开发人员,这就需要平台提供数据集的API应用程序接口、源代码以及一些分析工具,为用户的数据利用与再开发提供技术基础。此外,通过跟踪应用程序的用户访问量、下载量等数据,可以了解公众对数据类型、质量、使用方面的偏好,调整数据开放重点和应用开发方向,提高政府执行力和透明度,真正做到以人为本,为人民服务。
2.3.3 数据互动
数据互动包括交流反馈、信息分享、信息定制等,可以有效提高用户对数据存在性的认知,激发其使用数据的积极性,从而形成良性循环,使政府数据最大限度的发挥价值。美国、英国和澳大利亚等国家的开放数据平台提供的数据互动方式具体有在线提交评论、请求数据集和网络应用、对数据集进行评价等。此外,还允许用户将信息分享到YouTube、Facebook、Twitter等网络平台,而且提供RSS定制服务。用户还可以使用常用的社交网络工具账号登录,实现平台与用户社交网络的融合。
3 上海政府数据开放平台的实例分析
伴随大数据时代的来临以及全球政府数据开放运动的推进,上海市政府数据服务网作为国内建设相对较早、较完善的政府数据开放平台,对我国地方政府数据平台建设具有重要的指导和借鉴作用。因此,笔者对上海市政府数据开放平台进行实证研究,验证本文提出的基于数据生命周期的数据开放平台构建框架。2012年上海市政府数据服务网正式投入使用,由上海市人民政府办公厅、上海市经济和信息化委员会牵头,相关政府部门共同参与建设,向社会提供政府数据的浏览、查询、下载等基本服务,以及基于政府数据开发的应用程序等增值服务,其目标是促进政府数据资源的增值利用。本研究主要通过上海市政府数据服务网、学术论文、网络、各政府部门网站等获取相关数据。
3.1 数据层
数据层是政府数据开放平台提供服务的基础,上海市政府数据服务网中的数据由发改委、公安局、食药监、法制办等43个部门创建,数据涉及经济建设、资源环境、教育科技、道路交通等12个领域,数据来源可追溯。元数据是描述数据的数据,使信息描述规范化,可以促进数据集的高效利用。上海数据开放平台上的元数据描述字段包括摘要、应用场景、关键字、数据领域、国家主题分类、部门主题分类、公开属性、更新频率、首次发布日期、更新日期、数据提供方单位、访问/下载次数12个基本字段。此外,某些记录根据需要设置有参数说明、返回值说明等可选字段。平台上开放的数据都是剔除涉及个人隐私、知识产权和国家安全的数据。由于缺乏政府数据开放方面的法律法规,因此在数据筛选过程中依据的主要是政府信息公开的政策规定,如《关于加强信息资源开发利用工作的若干意见》《关于推进公共资源配置领域政府信息公开的意见》等。
3.2 平台层
上海市政府数据开放平台上各数据集提供单位都有各自的数据集发布入口,可以登记、发布、更新、修改其数据,采用的发布方式是直接提供方式,即用户可以直接在平台上访问、下载各部门提供的数据集,而无需链接到提供数据的官方部门网站。上海市政府数据服务网尚未发布关联数据,目前发布的数据格式包括XLS、XLSX、CSV三种。在数据更新方面,平台上经济建设、机构团体、城市建设、资源环境、教育科技、道路交通、社会发展、公共安全、卫生健康、民生服务领域数据大多按年更新,信用服务和文化休闲领域的数据大多按月更新,仅有极少部分数据是按日更新。在数据归档方面,上海市数据开放平台的归档范围一般都是文件、图纸等,尚没有专门针对政府开放数据的归档管理。
3.3 服务层
服务层与用户进行直接交互,提供数据检索、移动应用、数据互动等服务。上海市政府数据服务网提供3种检索方式:关键词检索、分类检索和可视化检索。关键词检索方式可以使用布尔逻辑AND、OR、NOT检索技术;分类检索主要提供了三种分类方法,可以按照数据领域、提供机构、综合评价进行检索;可视化检索主要用于地理信息板块。检索结果呈现方式部分,上海市政府数据开放平台可以对检索结果按下载次数、综合得分、更新时间、浏览次数、名称进行升降排序;数据筛选字段包括资源类型、数据领域、数据提供单位、综合得分;数据显示字段包括查看次数、下载次数、综合评价和数据集摘要。利用平台开放数据开发的应用程序是连接政府数据与普通公众的桥梁,为公民生活提供了便利。目前,上海市政府数据开放平台上总共有38个移动应用,其中访问量排名前三的应用为“阿拉自来水”“乐行上海”“公共招聘网”,分别属于资源环境、道路交通和社会发展主题领域。上海市数据开放平台的数据互动板块包括最新消息、调查问卷、需求调查、联系我们、开放者社区、用户帮助六个,允许用户提出请求、进行评论、学习交流、意见反馈等。
4 政府数据开放平台建设的对策建议
4.1 加固数据层
首先,应加强数据资源建设。从数量上,与国外相比,我国开放数据平台存在数据量少、参与部门少等问题,政府数据开放力度有待进一步加强,另外还存在从政府视角出发盲目开放数据的现象。因此,应该更多地从用户需求出发开放数据,实现从供应驱动到需求驱动的转化。从质量上,应明确数据来源,由数据提供部门负责数据的更新维护,从源头上保证开放数据的质量,还应建立开放数据描述标准,规范开放数据的字段设置,增加可扩充字段描述,以提升元数据的规范性、完整性和可扩充性。
其次,应加快制定数据开放相关法律法规。政策缺位是导致我国政府数据开放程度不高、统一开放数据平台建设缓慢的重要因素。由于缺乏明确的政策法规,部分政府机构以保守的策略来应对国家层面的数据开放与共享,不开放或尽量少开放数据,造成数据量少、数据质量低、数据可用性不强等问题。而且,由于缺乏相关法规对政府数据归属权的明确规定,政府部门垄断数据资源,形成部门间数据壁垒,出现“信息孤岛”和“信息烟囱”等不利局面,严重制约政府效能提升。因此,国家应尽快制定与数据开放相关的法律法规,对涉及数据开放各环节的政策和法规进行系统性思考,明确各部门应开放的数据,打破部门壁垒,实现深层次数据共享。
4.2 完善平台层
(1)平台应提供丰富的资源格式。数据格式直接影响数据集的开放利用价值,美国开放数据平台上提供的数据格式包括PDF、XML、CSV、RDF等49种,而我国多数开放数据平台只提供PDF、XSL、DOC等格式。平台应提供多样化的数据格式和呈现方式,可以设置选项,提供相关数据集的多种可视化组合,以易理解的方式呈现数据,从而方便用户发现潜在的数据价值。
(2)使用直接提供和间接提供相结合的数据发布方式。直接提供和间接提供各有利弊,我国平台在建设过程中应结合实际情况,灵活使用两种数据发布方式。对时效性要求较高的数据集可以使用间接提供方式,便于数据提供部门对数据集进行及时更新;而对易用性要求较高的数据集,可以采用直接提供的方式,由统一平台负责数据集的发布,方便用户直接访问使用。
(3)尽可能发布关联数据。单一孤立的数据集,其价值是有限的。如果将数据集发布为关联数据,建立这些数据集之间的相互关系,将有助于实现平台上数据资源之间的相互参考、数据创新、综合开发和有效利用,创造更多的价值。
(4)提升数据管理水平。我国政府开放数据平台上数据集的更新存在严重的滞后性,大部分地方政府的开放数据都是不定时更新或者按需更新,因此,平台应及时更新数据,提高数据的时效性。此外,在数据归档保存方面,我国有必要研究和建立国家层面的数据归档保存政策,并设立专门的机构,利用先进的科学技术来归档保存数据。
4.3 个性化服务层
(1)完善数据检索服务。丰富数据检索方式,增加字段限制检索;在主题分类方面,国家应在调研用户主题浏览习惯的基础上,依据人们对事物分类的共同认识,设置科学合理的主题类目分类体系;借鉴国外先进经验,提供多个数据显示、筛选字段,丰富数据排序方式,为用户提供多种数据呈现方式。
(2)举办竞赛活动鼓励数据开发。通过举办不同形式的竞赛活动吸引公众了解并参与到政府开放数据的建设过程中。我们可以借鉴纽约市经济发展公司,通过主办“BigApp”挑战,鼓励公众使用、重用和传播开放数据,开发APP应用,促进原始数据的增值利用,创造社会效益。还可以举办以问题为导向的“Big Idea”挑战,鼓励公众参与城市创新,解决城市生活中的各种问题,为提高城市生活质量做出贡献。
(3)丰富互动交流方式。在政府开放数据平台建设过程中要丰富与公众互动交流的方式,如设置讨论区、论坛等,并允许用户将数据集分享至微博、微信等网络平台,用户可以利用社交工具账号登录,方便获取数据。在服务内容方面,提供信息定制服务,如RSS订阅服务等。同时,政府应该通过在平台上开设虚拟社区等方式,及时获取公众提出的数据集请求及反馈意见;在服务对象方面,政府应提供分类服务。平台上的用户不仅包括政府人员和普通公众,还包括技术人员、数据分析公司等,他们有时需要获取数据的源代码,通过分析整合等方式来提供产品或服务。因此,平台应评估不同利益相关方对数据的不同使用方式,为不同用户提供更有针对性的数据集,满足个性化需求,推动政府数据开放的可持续性。