我国地方政府开放数据的进展、问题与对策*
2018-07-10周文泓夏俊英谢玉雪
周文泓,夏俊英,谢玉雪
0 引言
政府开放数据是提升国家治理能力的重要手段。我国发布了《关于促进大数据发展的行动纲要》《政务信息资源共享管理暂行办法》《“十三五”国家信息化规划》《“十三五”国家政务信息化工程建设规划》等政策,各地的开放数据政策与数据门户都在有序建设当中。在国际领域,英国、澳大利亚、加拿大、法国、日本等国开展了卓有成效的实践,开放数据成为促进经济发展与社会创新的有效路径。由此,如何开放政府数据成为实践与理论研究的热点议题。开放数据的内涵、特征与价值已得到相对一致的认可,且在开放政府的框架下,它被视作政府数据共享与利用的结合[1],要满足完整、即时、可获取、可机读、一手、非歧视、非私有、免于授权等要求[2]。关于如何开放政府数据的研究则从不同方面展开,它的顶层设计、组织架构、法律法规、政策标准、数据门户、评估机制等均得到探讨,并基于此来明确政府开放数据的战略定位、具体内容与实施路径。我国现有研究一方面立足欧美的先进经验,从顶层设计、政策法规、数据平台、隐私保护、元数据标准等维度提出我国可参考的经验[3-5];另一方面对国内政府开放数据现状展开调查,探索适合于我国的开放数据评估体系。例如,从法律法规与政策评估开放政府数据准备度、从数据平台建设评估开放政府实施程度、从数据应用评估开放成效;提出相应策略,如制定开放数据政策法规,建立数据主管部门,提高全社会开放数据意识,完善开放数据的分类、更新、格式等方面的规范等[6-7]。然而,当前的研究存在两大问题:一是对国外政府开放数据的研究偏重介绍性总结,未充分立足我国国情提出有针对性启示;二是尽管已有部分研究对我国政府开放数据情况展开调查,但我国政府开放数据正处于快速发展时期,因而还需要更多的研究厘清我国政府开放数据进展,解析已有成效与不足,从而为我国政府开放数据的持续深化提出更系统的策略。为明晰我国政府开放数据的发展情况,明确其成效与不足,从而为政府开放数据的理论与实践提出优化策略。本文对地方政府的开放数据政策与平台进行分析,从整体视角呈现我国地方政府开放数据的具体进展,发现现存问题并提出相应对策。
1 我国地方政府开放数据进展
当前对政府开放数据进行调查所采用的框架,较有影响力的有开放数据学院与万维网基金的“开放数据晴雨表”、英国开放知识基金会的“开放数据指数”、世界银行开放政府工作组的“开放数据准备度评估”[8],以及复旦大学郑磊博士及其研究团队建立的由数据集价值、格式、数量等指标组成的评估框架[9]。本文旨在相对全面地呈现我国地方政府开放数据的现状,因而参考评估较为系统的“开放数据晴雨表”,从开放数据的准备、执行和成效展开调查[10]。鉴于本文是基于在线可获得的评估数据,并主要是以定性方式探讨现状,故本文的数据收集设计如下:准备方面的指标选取“政府准备度”,以现有可查的政策作为评估对象;实施方面主要考察数据网站的上线情况,并从问责、创新以及社会政策的角度考察开放数据的数量与质量,包括开放数据的总量、内容多样性、开放格式、可用性;成效方面主要从数据利用情况来判定。依据上述数据收集方案,笔者通过检索搜索引擎、调研各地政府信息公开网站与已上线数据网站,于2017年10月对除港澳台地区外的32个省级行政区、相应的省会与地方城市展开调查。
1.1 开放数据政策制定
在我国,各地的开放数据运动经历从战略和意识层面到实践层面的深化,尤其是随着《政务信息资源共享管理暂行办法》《“十三五”国家信息化规划》《政务信息系统整合共享实施方案》等出台,近两年各地政府也陆续发布了一系列开放数据政策。截至2017年10月,有39个地方政府制定56项针对开放数据的政策,用以对政府的数据资源建设与开放作出有效指导。依据内容可将其划分为两种政策。
(1)政务数据资源共享管理办法。在这类政策中,一方面强调数据资源的建设与管理,以利于为数据开放提供资源建设基础。例如,各地的数据管理办法对数据共享的原则、数据资源目录的制订、数据采集、数据共享使用、数据共享的安全保障与监督检查等方面提出要求;另一方面,明确提出政府的数据需要开放。例如,贵州、浙江、福建等省级政府和贵阳、福州、南昌等市级政府在政策中将数据开放作为数据资源共享管理的重要环节,说明开放的必要性、合规性以及基本要求。
(2)为推动各地政府政务信息系统整合与共享所提供的具体方案,包括提出其主要的工作目标、规划需优先完成的任务、深化与完善政府数据资源构建等,为开放奠定重要的准备基础。各地发布的这一类政策主要是遵从国务院发布《政务信息系统整合共享实施方案》,内容上较为一致,即围绕2017至2018建设“大平台”、融通“大数据”、构建“大系统”的目标,提出政务信息系统整合的原则、目标与工作内容。
1.2 开放数据门户建设
我国已上线20个左右的地方政府开放数据门户,多数为针对开放数据设立的独立门户,例如上海、北京;亦有部分是嵌在政务服务网之中,例如梅州、肇庆。
1.2.1开放数据资源建设概览
数据集、数据接口以及数据应用是政府开放数据的主要形式,数据资源情况表现为:
(1)在数量方面,各地情况不一。上海42个部门开放920个数据集、84个应用、259个数据接口;浙江39个部门开放282个数据集、135个数据接口、8个应用;广州58个部门开放406个数据集和7个应用。
(2)在主题方面,除民生服务、经济建设、道路交通、环境资源、医疗卫生、环境能源、教育科技为通用类别外,地方政府开放的数据在主题数量与内容上也各有特色。在数量上,各地开放的主题8到22个不等。例如,青岛数据资源覆盖22个主题,贵州与浙江为8个主题,北京为18个主题,上海与广东有12个,哈尔滨为14个。在内容上,不同地方也各有侧重。例如,北京、广州、哈尔滨较为关注农业农村数据,青岛的审计监督数据和法律服务数据凸显,广东的信用服务数据较为亮眼。
(3)在格式方面,各地提供的数据格式较为多元,既有CSV、XML等开放格式,也有XLS、XLSX、DOCX一类的非开放格式。同时,各个地方的开放数据在格式的开放度方面不尽相同。例如,北京与长沙的开放数据均为CSV等开放格式;浙江省与武汉则主要提供DOC、XLS、PDF等非开放格式的数据。
1.2.2开放数据资源可用情况
用户对数据的下载与使用权利主要在网站的服务政策、免责声明或网站协议中体现,主要分为三类。(1)合法合规的前提下用户无条件免费下载与利用已开放数据,以贵阳与东莞为代表。例如,贵阳的政策为“通过平台成功注册的用户享有免费访问、获取、使用、传播分享和利用及再利用数据资源的权利”。(2)在一定条件下,用户能免费下载与利用已开放数据,可细分为三类:①较普遍的是在政策中声明现阶段免费,但保留收费的权利,包括北京、广东、贵州、青岛、武汉等地。②认证用户有免费下载与利用的权利,代表地方为上海与佛山南海区。上海只有通过DataShanghai成功注册并完成认证的用户,才对现有已开放数据(依申请类除外)享有免费访问、获取、传播和增值利用的权利。③用户需发布机构授权才能使用其开放数据,主要代表地是浙江省,其政策中明确指出“只有在获得浙江政务服务网或其他相关权利人的授权之后才能使用上述内容”。(3)未说明数据可否免费下载与使用。例如,长沙和深圳未明确申明;梅州与肇庆只是将开放数据作为政务网中的嵌入模块,网站声明中未说明相关事项。
总的来说,我国当前都通过其开放数据门户发布了一定的数据资源,但数量与质量还有待提升。较为突出的问题是数据资源的内容没有充分考虑社会需求,例如浙江省统计局发布的反映社会发展的简明统计资料都是一些经济建设的新闻,在数据层面对经济建设价值有限。此外,数据的开放程度与更新频率也存在一定问题,使得数据的价值在开放度与及时度方面受损,这将在下一节具体论述。
1.3 开放数据基本成效
随着各地数据门户上线,政府开放数据得以发布,并得到多个领域用户的关注、下载和利用。除了无锡由于网站故障无法获取信息外,各地的开放数据下载或调用情况见表1。
从下载量可看出,在数据集的使用方面,各地均较为频繁,上海属第一梯队,有840,789次的下载量,贵阳上线9个月即达到14万次之多;在数据接口方面,深圳的调用次数较高,接近15万次;在数据应用方面,北京市得到了最高的关注量,接近39万次。总体上,其他地区的数据集、数据接口以及数据应用的使用相对偏少,部分原因在于一些网站开通时间较晚,例如,济南就处于试运行阶段。另外,浙江省由于公布的数据集有2/3左右没有直接的下载端口,所以也影响了数据集的下载。
此外,以北京和上海为代表的地方政府也积极开展各类数据的应用竞赛来推动社会对开放数据的关注与利用,激发数据利用创新,拓展数据应用领域,以利于解决民生、交通、经济等多方面的问题。例如,北京向“中国研究生智慧城市技术与创意设计大赛”定向开放数百项数据集。再如,上海市举办的“上海开放数据创新应用大赛”形成了2,035名参赛者的505份作品,包括导航、规划时间或路线、打车或拼车、停车、人流或拥堵的预测与规避、交通事故规避或风险预测、天气或空气质量服务、应急管理或方案制定等类型。值得说明的是,参赛者往往也使用了大量自带数据,尤其是地理位置类的数据,极大地补充了我国的开放数据资源[11]。此外,北京还鼓励用户上传基于开放数据开发的APP。当前用户共上传了16个自主开发的应用,涉及交通、文化、教育、医疗卫生等领域。例如,一款名为“E上学”的应用就是根据政府数据开发出的一款收录了最近一年部分小学与中学入学关系的应用,并且将该学区内的学区房的名称与价格对应展示。该应用根据用户的需求与自身条件,智能的筛选并匹配用户的入学购房需求,极大地解决了家长的择校困惑。
表1 各地数据资源下载或调用情况概览
2 我国地方政府开放数据的主要问题
随着开放数据进程的深入,我国开放数据的地方政府数量持续增多,从制度构建到门户建设都不断深化。总的来说,越来越多的地方政府意识到开放数据的必要性,积极遵循国家的开放数据框架,并形成了各有特色的行动,现已颇具规模。然而,我国政府的开放数据综合实力与发达国家仍有较大差距。依据2017年发布的《开放数据晴雨表》,我国在115个国家中位列第71名,总体上表现为准备不足、实施不充分、成效有限[12]。这样的评估结果也能在我国学者的研究中得到印证。例如,根据徐慧、郑磊等的政策分析,我国尚需进一步明确政府数据的分级规范标准、优化数据质量、重视数据归档等[13]。据笔者调查,我国地方政府开放数据有三点需重点关注。
2.1 缺乏系统的制度支持
2016年至2017年,在《政务信息资源管理办法》与《政务系统整合实施方案》等国家战略的驱动与指导下,地方政府的开放数据政策从大数据、云计算、电子政务等相关主题政策的组成模块拓展为有针对性的专项政策,这在一定程度上充实了开放数据制度。然而,政策主要是围绕政务数据资源的共享展开,缺乏对开放数据的全面指导。
(1)布局与规划有限。没有相应政策明确开放数据的总体要求、工作任务、关键内容、工作目标,仅是围绕数据资源整合与管理将开放数据列为其中的环节提出基本规定,更没有政策来部署具体行动、阶段性目标与工作内容、实施主体等。除上海、贵州与福建有一定的开放数据行动规划,其他地方的开放数据政策并没有具体的规划来指导与协调政府不同部门的开放数据行动,导致开放数据的实施者即掌握各类数据的部门不能充分明确开放哪些数据以及何时开放,更不能解决各部门在开放数据过程中进度不一致、不愿意共享数据以及数据资源冲突等问题。
(2)指导性规范缺失。当前的政策主要解决了政府数据应不应该开放以及政府开放数据是什么的问题,但未充分解决政府数据如何开放的问题。政务数据资源的管理办法与政务系统整合的实施方案一定程度上从资源储备、深化开放意识以及提供基本工作方向方面对开放数据作指导,但还欠缺精细化的规范与流程说明。从当前发布的政策来看,多数地方尚未有可公开获取的用以指导开放数据的制度。尽管政策对数据采集与共享都有相关规定,也对数据安全等事项有一定提示,但并没有更加具体的可操作性的规范帮助指导开放数据的一系列流程,例如数据门户网站如何使用、开放数据有哪些准备工作、数据有哪些质量要求、元数据方面有哪些注意事项等。由于政府部门并不是专业的数据管理机构,只有充分的规范性指南才能确保有效地开放数据,当前的规范缺失意味着两方面的问题:一是即使政府部门有意识地开放数据,也会因为缺乏指导而影响进度;二是即使开放了数据,也可能无法在质量上满足专业要求。
(3)标准体系建设不足。当前各地的政策进展不一,主要是针对自身的政务数据资源的共享与开放进行宏观层面的制度建设。然而开放数据的目标是要实现社会范围内数据的集成与整合性应用,若无相对一致的标准体系,难以在同一管理与技术框架内实现数据的联动与利用,也难以建成政务数据大平台。当前并无统一的数据描述规范、元数据互操作及其标准、发布数据的标准、开放许可的标准协议等。例如,各地方开放数据门户中的数据描述各不相同,以上海与北京对比为例,上海的数据描述项主要包括访问或者下载次数、摘要、应用场景、数据标签、关键字、数据领域、国家主题分类、部门主题分类、公开属性、首次发布日期、更新日期、数据提供方单位、附件下载;北京的则为资源名称、资源出版日期、资源分类、资源摘要、资源所有权单位、关键字说明、资源类型、资源记录数。两个地方的数据描述项不尽一致,即便是一样的数据项描述方法也不相同。
2.2 开放数据门户建设不充分
(1)数据门户建设滞后。从政策看,多数省、自治区、直辖市以及部分省会城市已着手开放政府数据,且数据门户建设都作为政务系统整合的重点任务,然而仅有20个开放数据门户。现存两大问题:一是多数地区尽管有开放数据相关政策,但还未上线开放数据门户,从已发布开放数据政策的地区来看,上线了开放数据门户的不到半数。二是目前上线的20个数据门户的地区亦不到半数有专门的开放数据政策提供全面指导与支持。开放数据门户的滞后直接影响开放数据的进程,而政策的缺失则直接影响开放数据门户以及数据资源的质量,如数据资源目录规范的缺失会影响数据资源的分类、元数据的标准。
(2)数据门户现有功能需拓展。当前各地的开放数据门户的主要功能是发布与共享各类数据资源、接口以及应用供用户浏览与下载,满足了开放数据门户建设的基本要求。然而,当前各地的开放数据门户功能仅限于此,与英国、美国、加拿大等开放数据指数位列世界前沿的国家相比,我国各地的开放数据门户功能单一,表现为:①缺乏政策法规的公布与查询模块,在一定程度上限制了用户对开放数据及其政府行动的认识。②缺乏开放数据指南与工具模块,除北京市政务数据资源网提供了部分与数据处理相关的工具介绍外,其他地方均未提供相关的指南、规范或自动化工具,不利于开放数据技能的构建。③缺失用户共享数据应用的通道,当前各地开放数据门户主要是单向共享政府基于数据开发的各类应用,未提供足够的通道供用户分享,以便于用户利用开放数据开发各类产品。
(3)数据资源有待充实与优化。具体表现为:①部分地方开放数量不足。数量上各地的开放程度不一,较为充分有上海、贵州、深圳等,开放1,000个数据集左右且主题类别多元;广东开放的数据集不到200个,数据量达到123,289,555条,但类别有限;相比之下,浙江、长沙等地的开放数据集较少,浙江仅100个数据集可供下载,长沙则只有57个;部分地方没有提供数据接口。②除上海对数据资源发布有明确时间安排外,我国的开放数据没有充分地考虑与布局其发布的优先级,已发布的数据相当一部分价值较低(如工作人员名单等),没有凸显出高价值数据,因而在数据构成上不能充分对应社会的需求。③采用开放格式的数据比例有待提升。当前还有诸多地方的部分数据仅提供XLS、XLSX、PDF、DOC等非开放格式的数据集,造成开放数据的利用受限。④数据更新需优化。一方面,数据更新周期过长,多数地方以年度更新为主;另一方面,数据更新不及时,多个地方在统计中发现尽管到了更新日期仍未发布最新数据。这些均极大地影响了开放数据的及时性与价值。
2.3 开放数据的社会关注与利用有限
(1)社会关注不足。总体上,除上海在数据资源整体的下载量与北京数据应用的关注量较为亮眼外,其他地方的政府数据集、数据接口与数据应用从其下载量、调用次数以及使用次数等方面都可看出其社会关注较为有限,尤其是对比2016年的统计数据也没有显著的增加。例如,浙江省对比2016年底的统计数据,数据集的下载量仅增加不到15,000次[14]。这意味着开放数据未得到社会的全面关注,且尚未充分应用于社会的各类活动中。
(2)数据利用程度有待提升。开放数据网站提供的应用除北京是用户开发之外,其他地区主要为政府开发。一方面,即便从政府开发的应用来看,数据的应用依旧有限。除上海与武汉有超过50个应用外,多数地方开发的应用数量有限,且多为交通类应用,对其他类型的数据开发不足。例如,青岛与广东开发的APP中,1/3以上应用是提供交通类服务。另一方面,限于当前多数门户未向用户提供共享其开发的数据产品的通道,因而无法从门户获取用户应用数据的主要信息。从北京市政务数据资源网向社会公开征集基于开放数据开发的应用的结果看,目前仅有16款APP应用由用户开发,数据利用度有待提升。
3 我国地方政府开放数据优化策略
3.1 建立与优化开放数据制度体系
(1)建立有效的布局与规划,对开放数据进行完整的统筹与设计,解答为什么开放、开放哪些数据、开放的总目标、开放的次序、开放的路径等问题。一方面,充分调查我国地方政府开放数据的现状,包括数据资源清查,开放情况,面临的织、机制、政策、技术等方面的问题,社会对开放数据的需求与反馈,据此明确政府开放数据需优先解决的问题与需重点开放的数据;另一方面,以顶层设计的方法规划政府的开放数据行动,进一步厘清开放数据的总体目标与要求,设计实现目标的模块,统筹政策、组织架构、平台、数据、基础设施等方面要提供的支持,并明确每个模块需完成的任务、实现的步骤、完成的时间以及责任者,确保每一项行动都有据可依。例如,可参考《开放政府合作伙伴的第三次两年计划(2016-2018)》,在开放政府的框架下设定开放数据的路径、目标以及具体任务,从而明确由谁开放数据、何时开放与更新数据,以及如何建立与落实相应的保障机制。
(2)以制度深化对政府部门的业务指导和监督。一方面,从制度上明确可持续的开放数据业务指导与监督机制。数据、信息、文件与档案中心等相关部门应当加强对业务机构的指导与监督,提升数据准备与发布能力。这需要从开放数据的专业角度制定与下发全面精细的指导性文件,帮助业务机构明确什么是开放数据、数据有什么质量要求、如何开放、如何使用平台与系统、需注意的隐私和知识产权的关键事项等。另一方面,制定与落实相关的培训、咨询与指导制度。通过将开放数据纳入业务机构的培训内容之中,提升个人开放数据的意识与技能,满足机构的咨询要求,并通过对机构定期调查,及时指导其存在的不足。例如,可借鉴澳大利亚围绕开放数据流程发布一系列工具性指南的做法,制定指导开放数据战略设计、开放数据百科解答、数据发布规范、数据平台使用等方面的规范性手册[15]。
(3)共建协同的标准体系。在国家号召建设数据大平台与大中心的战略下,各地开放数据的协同建设是必然趋势,亦与开放数据跨平台跨系统共建共享的本质相一致。在制度建设中则主要体现为标准体系的建设,这也是我国各地开放制度建设的短板,需要在各地协同的基础上共建。开放数据的标准体系涉及多方面,包括数据准备、数据发布、数据利用乃至评价等。例如,在数据准备中,数据的元数据标准与描述规范极为重要,是实现跨系统与跨平台应用的基础。英国的Data.gov.uk分别具有面向网站数据资源的CKAN格式记录和面向地理空间数据的GEMINI地理空间元数据标准,能更好地满足数据描述需求,也是英国开放数据长期位居世界前沿的关键原因之一。这也启示我国在数据收集或是制定数据目录规范时能够考虑数据的特点以及系统的要求,并一定程度上参考国际标准,以建设我国的元数据标准[16]。再如,数据开放通常需要开放数据许可协议的支持,在国际上,美国、澳大利亚、奥地利等国均使用CC国际通用许可协议或者CC移植版许可协议,用以明确用户使用开放数据的范围和权利,从而推动数据价值的实现[17]。为促进跨平台以及社会范围内对政府数据的使用,各地方亦可借鉴知识共享许可协议和开放数据共用许可协议,制定针对各类数据的开放数据许可协议和说明,从而使用户更加明确开放数据的条件、使用范围等,从而能够在合法合规的前提下使数据增值最大化。
3.2 建设开放数据平台
(1)优化数据资源,建设多元化的数据中心。①确保数据满足完整、即时、可获取、可机读、一手、非歧视、非私有,以及免于授权的要求。②优化数据资源结构组成,优先发布社会需求更高且高价值的数据,提升采用开放格式的数据比例,且依据数据采集情况提高数据更新频率,及时满足用户需求。③提供多种途径和形式满足用户数据获取的需求。一方面,使用户能通过不同的检索路径获得所需数据,例如数据的主题、格式、发布机构、更新频率等;另一方面,还可通过可视化技术丰富数据的呈现方式,促进用户对数据的了解和关注。
(2)拓展开放数据平台的功能,应用技术建立以用户为中心的综合站点。①将平台建设为开放数据的知识中心,增加政策、工具模块,使用户更好地了解开放数据是什么、如何开展等。②增加网站的互动功能。平台不仅需要为政府机构、公众、社会组织等发布和利用数据提供论坛、反馈模块以及社交网络等功能,还需为用户提供通道支持用户共享数据与数据产品。③增加网站的自动化功能,以智能化为目标,开发与优化开放数据的辅助工具,帮助识别、处理和发布应当共享的数据,减轻机构人员的工作负担并使开放数据流程系统化。④定期进行网站评估,适当采用现有技术更新与完善网站设计及开发。
(3)提升平台开放性,使其能够成为国家数据中心的重要组成部分。政务信息系统整合已是我国政府数据集成的必然走向,建立连接全国政府数据的平台已在信息化的规划之中,地方政府不能仅限于本地区规划与实施开放数据,更要与其他地区协同共建国家数据中心。这意味着,各个地方的开放数据平台要提升开放性,并与其他地区在管理与技术上展开协作,为未来各平台的贯通奠定基础,例如尽量达成统一的网站框架、技术规范等。
3.3 深化开放数据的社会化应用
(1)深化社会监督和参与。一方面,在政策制定与数据开放上积极收集与反馈社会的意见,达成数据发布方与利用方的协作,通过用户需求调查和互动更好地帮助发布方明确开放数据的要求。例如,开放数据的战略与规划应积极寻求专家与公众的意见,同时开放数据应做好统计与信息公开工作,包括追踪开放数据资源发布部门、数量、类别、更新等方面的具体情况,及时统计与公布数据的浏览与下载情况;另一方面,在数据开发上积极利用社会的力量,基于社会组织与公众的群体力量拓展资源并深化数据的挖掘。例如,在合法的框架下可以借鉴阿里巴巴与贵州、西安、杭州在开放数据方面的合作,积极发挥有着数据需求与技术的机构或个人的力量。
(2)加强构建公众与社会机构的“数据应用素质”,主要从开放数据利用意识与技能两方面着手。在意识层面上,应当积极提升社会的开放数据利用意识,在政府政策中积极倡导对开放数据的应用,并融合在各个领域中,使公众在社会活动中关注到开放数据的价值与必要性,从而参与开发政府数据。在技能层面上,一方面应设计多样化策略提升公众的开放数据应用技能,例如建立数据应用案例库用以示范与鼓励政府数据的开发、通过线上论坛形成开发政府数据的网上社区、开展各类数据开发竞赛推动不同领域的公众参与等。可学习新西兰建设覆盖国际、国内以及某类数据应用的开放数据社区,促进用户间的数据共享与交流[18];另一方面,由政府开放数据部门与社会专家组成专业联盟,推进对社会开放数据应用的普及化教育,为开放数据用户提供各类指南、工具、系统,帮助明确开放数据的内涵、应用的价值、途径及方法。