政府数据开放与共享模型研究
2019-03-04秦森林
秦森林
(四川大学计算机学院,成都610065)
0 引言
近年来随着互联网和大数据的快速发展,特别是移动互联网已经进入到我们生活的方方面面。人们对于数据的认识已经有了很大的提升。大数据时代的来临,数据已成为各领域最重要的生产资料,公众的数据意识和使用能力随之迅速提升[1]。一个国家绝大多数的数据都被政府所拥有,政府部门也是数据最大的生产者,所以政府数据共享可以丰富公众获取数据的渠道,数据获得后可以将政府数据的潜在价值挖掘出来并且带来巨大的效益。与此同时,政府数据的开放增强了信息民主化建设,使政府决策更加科学、精准、有效,政府工作将会更透明高效的开展。另外,政府数据的共享可以使政府部门内部相互协作,提高工作效率。然而数据的共享必然会面临一系列安全和信任问题,数据会不会遭到篡改,数据会不会泄漏这些问题亟待解决。
区块链本质上可以理解为分布式账本,是众多技术的结合体,这些技术包括点对点传输、共识算法、分布式存储与加解密算法等。区块链利用块链式结构来验证与存储数据,基于分布式共识算法来生成和更新数据,通过密码学的方式保证数据传输与访问的安全。从功能上看,区块链记录不可篡改,不需要第三方中介的介入。而且区块链具有去中心化的特点,能够减少服务器宕机造成的数据丢失以及可以降低对中心服务器管理的复杂性等问题[2]。本文的设计正是基于区块链技术特有的优势,设计了一个基于区块链的政府数据开放和共享模型。
1 政府数据开放平台
美国是数据开放的先行者,在数据的采集、处理、挖掘与管理各个方面已经相对成熟,已经拥有了一套十分成熟的运作体系。近年来,美国政府已经将数据上升至国家战略角度,并且已经将数据作为资产进行管理,目前成效显著。在美国之后就是欧盟了,在过去的几年里,欧盟关于科学数据的基础设施投资已经达到了一亿多欧元,并且欧盟已经将大数据信息化的发展作为了Horizon 2020 的有限领域之一[3]。我国国务院在2015 年9 月15 日发布的《促进大数据发展行动纲要》中提出,将在2018 年底前建成国家政府数据统一开放平台。在这一总目标下,自2011 年起,北京、上海等地区在大数据的影响下率先开启了政府数据开放的工作,建立了各自的政府数据开放平台。2018 年5月8 日,成都市公共数据开放平台(www.cddata.gov.cn)正式上线,标志着成都公共数据开放工作迈出了重要一步[4]。
2 存在的问题
现有的政府数据开放平台不管是国外的还是国内的都是基于传统方法来存储数据,将数据以文件存储、将相关信息以数据库存储,这种方式虽然简单方便但是安全性极差,极易被黑客或别有用心的不法分子利用和篡改。另外,现有的政府数据开放平台的数据都是免费的数据,政府对于开放平台的管理还处于起步阶段,对于数据的流通还没有明确的法律法规。目前,中国进入了经济发展的新阶段,大数据作为经济增长的新动力、政府科学决策的新方法,迫切需要探索一种新的政府大数据管理和使用模式,制定一定的规范,使政府大数据既可以方便群众、构建一个更高效更透明的政府,又可以创造一定的价值和收益,带来一定的经济效益,进而不断推动政府开放更多更有价值的数据出来。
数据作为一种资源和资产,只有共享才能发挥出它的潜在价值。当前由政府主导的政府数据开放平台的运行仍处于不成熟的阶段,很多有价值的数据都还没有开放,主要原因在于政府对于数据开放后数据安全的考虑。因此,如何能在确保数据安全的前提下,开放更多更有价值的政府数据,将会是今后发展的趋势。
3 区块链基础和关键技术
区块链有很多优良的特性。
(1)多中心:不同于传统应用的中心化数据管理,区块链技术基于P2P 网络,去掉了中心化服务器,也没有数据的管理机构,单个节点的鼓噪不会对整个系统造成影响,区块链网络中有多个节点相互监督,从而避免了数据造假,提高了数据的安全性。整个网络基于开源的信用算法,所有交易都发生在节点设备上,不需要任何信任中介及信用背书,大幅降低了信任成本。
(2)可信任、可溯源:区块链中的交易记录都通过Hash 算法等密码学方法与相邻区块相连,交易数据和其他数据不可篡改并且可溯源,可以很好地解决信任问题,不需要信任中介,降低了信任成本。
(3)可靠数据库:区块链中所有的节点都有全部交易数据与其他数据的备份,使数据有高度冗余的特性。理论上除非能操控51%以上的节点,否则个别节点的宕机失效甚至遭到篡改都不会对整体数据造成影响。
(4)交易透明,匿名:交易双方以及系统的参与者都是匿名的,而且交易是通过纯算法来实现,保证了交易数据透明而且也保护了个人隐私。
(5)自动化:区块链系统中的智能合约是可以自动化的执行一些预先定义好的规则和约定的一段计算机程序代码,它大大提高了价值传输与契约达成的效率。
4 政府数据开放和共享模型设计
4.1 系统总体架构
本文在区块链的技术基础上设计政府数据开放和共享的模型,如图1 所示,主要分为应用层、智能合约层、共识层、网络层与数据层。
图1 政府数据开放和共享模型架构
数据来源主要有三种形式:首先政府相关部门会手动上传一部分数据,这种方式是当前获取数据的主要方式,而各种电子政务系统如人事管理系统等也是政府数据开放共享的来源之一,另外,政府部门有很多的物联网设备,例如交管部门的电子眼等这些都可以作为数据的来源。其中后两者都是未来为本模型提供数据的主要方式,这两种方式更智能更方便,不需要手动上传,大大提高了数据上传的效率。
数据层与网络层主要提供底层技术支持,对区块链的格式进行了定义,保证数据进行安全有效地传输。数据层由加解密算法确保安全,Hash 摘要算法可以确保数据不可篡改,并且需要按照定义好的区块链格式,最后加上时间戳形成区块,然后连接成区块链。网络层主要是对节点网络接入和传输的支持,使用P2P 网络并进行身份验证之后将相应的数据存储在分布式节点中。
智能合约层与共识层主要的作用是进行节点的协同与管理,确保在多节点的情况下如何达成一致、如何自动化执行约定好的合约。在本模型中共识层使用PoS(股权证明机制)或DPoS(股权授权证明机制)的共识算法,摒弃了比特币使用的PoW(工作量证明机制)。而智能合约层主要是将相关的法律法规等内容嵌入到本模型区块链中,利用计算机程序自动执行相关的规则。
本模型的应用层主要是政府数据开放共享平台信息门户网站。该网站可以作为政府数据交易的平台。而数据的消费者可以是普通用户、政府部门还有第三方公司,例如围绕数据产业链做采集、清洗、建模、脱敏、脱密、可视化、算法的公司。
4.2 数据存储
众所周知,比特币是基于区块链的典型应用。比特币中每个区块主要包括区块头和区块体,其中区块头由上一个区块头的Hash 值、区块头Hash 值、Merkle树根的哈希值、时间戳、难度指标、Nonce 随机数等信息组成,而区块体主要是包含交易数据。而在本模型中我们除了要保存交易信息外,我们还需要保存共享的政府数据信息。在这里我们对区块的结构进行修改,我们将政府开放共享的数据进行Hash 计算后放入区块体中,并且将这块信息形成Merkle 树将Merkle 树根放入区块头中,该结构如图2 所示。
图2 政府数据开放和共享模型区块结构
4.3 门户网站
本模型设计了政府数据开放共享平台信息门户,可以作为政府数据交易的平台,也是普通消费者获取政府数据的平台,消费者可以通过搜索查看得到自己想要的政府数据。政府部门在本平台的后台可以上传相应的政府数据,未来可以使用物联网设备与各种电子政务系统自动化的介入该平台。该平台的底层使用了区块链技术,保证了数据的不可篡改。
5 结语
本文分析了目前我国的政府数据开放平台存在的问题,利用区块链技术不可篡改、去中心化与可信任的优势,设计了一个政府数据开放与共享的模型。通过本模型,更好地改进了政府数据开放平台的不足,提高了政府数据开放和共享过程中的安全性,保证了数据的不可篡改,更好地促进了政府数据的开放共享。