基于区块链的开放政府数据个人隐私保护模型及实现机理研究
2021-01-28陈兰杰河北大学管理学院
陈兰杰,闻 航(河北大学管理学院)
1 研究背景
开放政府数据拥有政治、经济和社会等多个方面的巨大价值,已引起全球众多国家的重视。然而,开放政府数据资源包含着数据所有者的个人隐私,如果不加以处理就直接上传会对数据所有者的权益造成侵害,使其对开放政府数据产生抵触心理,不利于开放政府数据工作的开展。同时,数据挖掘技术的不断发展使得有数据分析能力的数据使用者能够对多种渠道发布的政府数据进行融合挖掘处理,使匿名化的个人隐私重现,在经济上通过知识鸿沟价格歧视将消费者剩余榨干到临界值[1],而在政治上构建个人画像不仅会对数据所有者的个人隐私造成侵犯,而且会对社会稳定甚至是国家安全造成威胁。区块链是近年来新兴的技术,具有去中心自组织、分布式记录、不可篡改等特点,在开放政府数据过程中引入区块链技术,可以在发挥开放政府数据价值的同时,充分保护开放政府数据中数据所有者的个人隐私不受侵犯。
目前,国内外有关开放政府数据中个人隐私保护的研究略有不同。国内关于开放政府数据中个人隐私保护的研究主要包括:开放政府数据中个人隐私保护的利益相关者及其相关概念研究[2-6]、有关法规及政策研究[7-10]、开放政府数据中个人隐私保护机制和保护策略的研究[11-14]。国外有关开放政府数据中个人隐私保护的研究主要有:基于实践经验的研究[15-16]、与法律法规以及政策相关的研究[17-19]、有关组织机构和职位设置的研究[20-21]、隐私影响评估的研究[22-23]等。通过文献梳理发现,当前有关开放政府数据中个人隐私保护的研究主要集中在基本内涵研究、法律法规及政策研究、对策建议研究、对国外先进经验的借鉴等,大多停留在基本理论研究的层面上,仅有少数文章从技术层面进行研究,但也基本上停留在对技术的简单介绍层面上,对于如何运用这些技术在现实工作中解决实际问题没有回答。造成以上现象的原因主要有两个方面:开放政府数据中个人隐私保护近几年才受到人们的关注,刚刚成为研究的热点;运用以前的技术手段无法解决开放政府数据中个人隐私保护问题。
区块链技术的出现从技术角度为开放政府数据个人隐私保护提供了新的解决思路。本研究旨在构建区块链技术在开放政府数据个人隐私保护模型,并探讨其运行机理,以期抛砖引玉,推动区块链技术在开放政府数据中的应用。
2 区块链技术特性及其在个人隐私保护中应用的可行性
2.1 区块链的技术特性
区块链技术是指采取密码学的方法进行存储和验证的链式结构,是一种不可篡改和伪造的分布式数据库,利用节点共识算法进行生成和更新,是一种去中心化的基础架构[24]。区块链技术也被称为分布式账本技术,是一种互联网数据库技术[25]。由上述定义可以看出,区块链本质上是一种去中心化、匿名化、分布式、不可任意修改的存储技术,其对数据利用的追踪具有天然优势。
2.2 区块链基础架构模型
区块链的基础架构模型是一种栈分层模型,目前公认的模型共有6 层(见图1)。数据层包含区块链的底层技术,用来描述区块链的物理形式,通过各种技术保障数据存储的安全;网络层实现区块链中各个节点之间的通讯,确保各个节点之间平等的关系;共识层包括不同使用场景下的各种算法,达到各个节点数据一致的目的;激励层是对区块链中矿工的一种奖励机制,吸引更多的用户使用;合约层主要包括智能合约和脚本代码,从而实现机器自动化执行,减少人为干预;应用层是区块链的实际应用场景,与用户直接产生交互[26]。
图1 区块链基础架构模型
2.3 区块链技术在个人隐私保护中应用的可行性
从根本上来说,区块链是一种去中心化的数据库技术,具有去中心化、自动化、可追溯、非对称加密的特点。去中心化是指在区块链中的全部节点都储存着相同的、全部的数据信息,实现去中心化的目的,既保证了采用区块链技术进行数据存储的应用实现开放透明、安全可信的功能[27],又避免了传统数据存储中心数据库因遭受攻击而对数据所有者个人隐私造成侵犯。自动化是指在区块链系统中键入计算机程序代码,当符合代码程序后自动进行执行,不符合代码程序则进行拒绝写入的操作。该段计算机程序代码又可以称为智能合约,利用它可以提升开放政府数据对涉及数据所有者个人隐私内容的处理速度和准确度,减少间接使用所导致的个人隐私泄露问题[28]。可追溯是指利用时间戳和梅克尔树技术追踪、记录信息资源的变化和传输活动,确保数据所有者的信息真实性和完整性[29],减少因为数据污染造成的开放政府数据中个人隐私侵犯事件的发生。非对称加密是一种密钥的保密方法,其相比对称加密更加安全。加密时使用系统中所有使用者都能见到的公钥,系统中的每一位用户都可以使用这个公钥来对一段要发送的信息进行加密操作,而信息接受者需要用对应的密钥进行解密操作。密钥只有信息拥有者知道,被加密过的信息只有拥有对应密钥的人才能够解密[30]。利用非对称加密技术可以降低开放政府数据在上传下载过程中被窃取、污染、篡改等的可能性,从而对数据所有者的个人隐私进行保护。
3 开放政府数据中个人隐私泄露或侵权风险分析
3.1 数据采集与创建阶段
在开放政府数据的采集和创建过程中,不可避免地会涉及到数据所有者的个人隐私,这些原始数据一旦泄露将会对个人隐私、商业秘密乃至国家安全造成不可估量的威胁。因此,应安排具有相关资质的政府工作人员负责原始数据的采集和创建工作,这对于国家安全和社会稳定具有重要的战略意义。但是在实际的生活和工作中,由于开放政府数据的范围广、数量大,经常出现政府机构工作人员越权采集涉及个人隐私数据资源、企业单位非法创建涉及个人隐私的数据资源的情况。加之我国目前已有的法律法规和相关政策并没有对个人隐私的内涵和范围进行明确的界定,这就导致在采集和创建政府开放数据时容易出现对个人隐私信息的不当操作,从而给广大人民群众带来许多不必要的困扰。
3.2 数据加工与处理阶段
开放政府数据的资源在发布之前要进行加工和处理,对数据进行规范化的处理不仅有利于提高数据的可获取和可利用性,更重要的是能够提高对数据所有者个人隐私的保护。但是,目前我国对于数据处理的方式和程度缺乏统一的标准,尽管国家有关部门发布了不少标准,但普遍宏观笼统、缺乏可操作性,而且这些标准在内容上也存在着不统一的问题。以现在最常用的数据脱敏技术为例,因其涉及的开放政府数据信息资源众多,且各个政府部门缺乏有效的交流沟通,导致各个政府部门的处理方式不尽相同,不利于开放政府数据工作的开展。因此,数据脱敏等技术需要一个统一的标准来规范开发政府数据加工与处理阶段的工作,但是我国目前尚未出台相关标准。
3.3 数据存储与传输阶段
我国各级政府部门积极响应《促进大数据发展行动纲要》的号召,采取适合当地的措施助力开放政府数据工作的开展,且大多取得了不俗的成绩。但是我国幅员辽阔,各个政府行政单位分属不同的领导机构,加工处理好的数据资源一般都存储在各自的服务器上。又因行政级别的不同,县乡级的政府单位硬件设备与省市级政府单位有着很大的区别,且往往县乡级单位担负着原始数据存储的任务,容易受到黑客和不法分子的攻击,导致包含民众个人隐私的元数据资源被窃取。省市级政府单位拥有海量的数据存储,但传统的数据库存储技术处理数据备份会产生大量的数据冗余。为了更加便捷地进行开放政府数据工作,不同单位政府部门之间、相同政府部门的政府数据管理平台和开放政府数据平台之间的数据传输已基本实现了网络化。但是在传输的过程中极少采取密码技术来确保数据的安全,与开放数据晴雨表排名前列的国家相比,我国在数据所有者个人隐私保护方面仍然有着较大差距。
3.4 数据共享与利用阶段
政府在政府数据开放平台共享开放数据资源,有需求者可以通过政府数据开放平台自行下载,但是目前政府开放数据平台与数据需求者之间的共享数据通道采取的不是安全的协议,容易造成数据资源在获取的过程中被第三方篡改、污染,导致数据需求者得不到真实、完整的数据资源,最终使开放政府数据失去应有的价值,对民众造成不良影响。开放政府数据资源通常采用数据脱敏技术进行处理,从而避免个人隐私遭到泄露。但是随着数据挖掘技术的不断发展,许多经过数据挖掘处理的开放政府数据资源依旧可以被识别出来,导致许多不法企业和个人从公开或非公开的渠道收集民众的个人信息。
3.5 数据侵权与反馈阶段
开放政府数据可以通过对数据资源的挖掘产生经济价值,但同时如果处理不当则会产生侵权事件。然而,民众对于数据受到侵犯后如何进行维权却知之甚少。随着互联网的普及,越来越多的民众选择在网络进行维权发声,部分网络民众容易受到恶意企业或个人的利用,盲目跟风,对政府部门工作人员进行人身攻击,造成恶劣的影响。民众既是开放政府数据过程中数据的所有者,也是数据的使用者,尽管数据的开发利用需要较强的数据挖掘和数据处理能力,但是我们不能据此就将民众从数据使用者中排除出去。民众参与到数据的使用中来,开放政府数据才会在更大的范围内产生影响,才能营造良性的开放政府数据生态环境。作为数据的所有者,民众在发现开放政府数据中存在个人隐私遭到滥用的情况时,政府应当有专门的渠道用于民众反馈,并进一步要求政府部门进行相应处理。
4 基于区块链的开放政府数据个人隐私保护模型构建及实现机理
4.1 模型构建
依据信息资源生命周期理论,可将开放政府数据分为采集创建、加工处理、存储共享和开发利用四个阶段。在此基础上,笔者通过文献梳理以及总结实际工作中遇到的现实问题,增加了侵权反馈阶段。结合区块链基础架构模型和区块链的相关特性,笔者构建了开放政府数据个人隐私保护模型,并在该模型中引入在开放政府数据过程中相关利益者(见图2)。
图2 基于区块链的开放政府数据个人隐私保护模型
4.2 实现机理
(1)采集创建阶段。开放政府数据的采集和创建阶段对应区块链基础架构的数据层,是开放政府数据的基础阶段。区块链技术网络层的时间戳和梅克尔树技术可以为开放政府数据资源提供简洁的隶属证明,使得数据资源具有可追溯性,从而减少数据在采集创建阶段泄露的风险。同时,政府工作人员在进行数据采集创建时采用时间戳技术可以为完成采集的数据资源提供时间证明。一旦发生数据泄露造成个人隐私侵权的事件发生,可以利用区块链的可追溯性调查是在何时何地何人导致了数据的泄露,还可以对电子数据资源的完整性和真实性进行验证。
(2)加工处理阶段。开放政府数据的加工和处理阶段对应区块链基础框架的合约层。开放政府数据的数据资源数量庞大,处理起来十分困难。利用区块链的智能合约不但可以减少政府工作人员的工作量,同时可以提高识别的准确度和效率。智能合约改变了传统的对原始数据进行加工处理的标准和方法,打破了传统政府部门各自为政的弊端,智能合约代码根据开放政府数据中个人隐私保护的法律、法规及相关政策进行编制。使用者在区块链指定的合约中键入指定的代码后,系统将根据代码推断是否执行智能合约对数据进行处理;进行数据加工处理时,按照智能合约的统一标准对数据中涉及的隐私信息进行脱敏处理,确保涉及用户隐私的数据不会上传到网络中;利用智能合约还可进行全网监控,当发现涉及个人隐私的数据出现在网络中时,可以进行全网报警,并永久记录涉事部门的事发原因和处理措施。
(3)存储共享阶段。开放政府数据的存储和共享阶段对应区块链基础架构的网络层。传统中心化的数据存储和共享的管理模式普遍存在着成本昂贵、备份繁琐、数据易受攻击等弊病,开放政府数据过程中数据的存储和共享需要价格低廉、处理高效、安全程度高的数据库存储模式。区块链采取的是一种分布式存储的模式,提高了数据库的容错率和安全度,即使某些区块链的数据受到黑客和不法分子的攻击遭到破坏,依旧可以使用其他节点存储的完整的数据副本。采取分布式存储技术后,单个数据的修改在没有被全网认可的情况下没有任何作用,可以避免篡改、污染、虚假数据对用户个人隐私造成伤害。区块链网络是一种点对点网络,节点之间采取中继转发模式进行通信,很难实现网络监听,避免数据在共享传输的过程中被第三方截取。
(4)开发利用阶段。开放政府数据的开发和利用阶段对应区块链基础框架的应用层,是实现开放政府数据资源传递到网络的最终形式,也是开放政府数据的根本价值所在。政府部门利用区块链非对称加密技术中的公开密钥和私有密钥管理可以有效地进行开放政府数据资源的权限管理工作,对数据使用者进行监管和审计,一旦发现数据使用者在利用数据挖掘、数据融合的过程中对数据所有者的个人隐私造成损害,政府有关部门可以及时采取措施,对数据使用者的私有秘钥权限进行限定处理,并在全网进行广播。对于屡教不改者的数据使用者,有关部门可以彻底收回其私有秘钥使用权限,并将其拉入黑名单或者从区块链网络中进行删除。
(5) 侵权反馈阶段。开放政府数据的侵权和反馈阶段对应区块链基础架构的激励层,对实现开放政府数据工作有着非常重要的意义。在区块链中,每个用户都可以通过自己的主机节点将生成的数据进行全网广播,经过全网51%的用户进行核实认证后写入到区块链上。在开放政府数据过程中,数据所有者可以利用全网广播的形式将在实际工作生活中遇到的侵犯个人隐私权的事件上传到政府相关部门,这些信息经过审核确保真实无误后会被记录到区块链中,数据被全网监控,从而不会被相关利益者篡改。同时,数据所有者的反馈信息在全网广播可以避免不法之徒歪曲抹黑原反馈信息,煽动民众对政府工作人员进行人身攻击等事情发生,加强政府、数据所有者、数据使用者之间的互动反馈,从而构建良好的开放政府数据生态环境。
5 结语
在《促进大数据发展行动纲要》 的推动下,北京、上海、贵州、广东等地在开放政府数据工作中取得了不错的成效。但在开放政府数据开发利用的过程中,仍有许多企业在利益的驱使下侵犯数据所有者的个人隐私。本研究结合区块链基础架构模型和信息资源生命周期理论,构建基于区块链的开放政府数据个人隐私保护模型,并从开放政府数据全流程角度对其实现机理进行了阐述。运用区块链技术可以解决开放政府数据个人隐私保护领域的问题,但是作为新技术,区块链在扩展性、稳定性、管理模式等方面还不完善,存在着诸如数据存储量会随着时间越来越大,更新速度慢、资源损耗大等问题,如何实现开放政府数据中区块链技术优化是今后研究的重要方向。