区块链技术在高校电子档案管理中的应用研究★
2019-12-17蒋红健
蒋红健
(华南理工大学档案馆 广东广州 510006)
区块链技术是近期各界讨论的热点,但是区块链技术不是技术层面的全面创新,而是各种技术的有效融合,其存储方式为分布式存储,传输方式为P2P传输,加密方式为时间戳、共识机制、非对称加密等,激发方式为智能合约。作为区块链技术实际应用的先导者,比特币取得了极大的成功,带动了金融领域区块链技术的应用,从而催生了一系列的虚拟货币,进而引起政府部门及各行各业的极大关注。近年来许多国家和地区开始重视区块链技术在金融领域以外的信息化应用,目前处在大规模应用前的探索期。佛山市禅城区人民政府在区块链电子政务方面率先试水,在 “一门式”政务改革取得良好成效的基础上,将区块链技术应用在食品安全、政务平台及其他经济领域,借助技术力量构建政府信用体系,使得政府行政行为公开公平公正,行政信息得以准确传播。
档案部门已经注意到区块链的技术特征,开始立项研究档案区块链。最初阶段,研究主要集中于可行性研究和前景瞻望,设计、应用、实践方面的研究偏少。本文就电子档案的四性检测要求与区块链技术特点作出类比分析,推断出区块链技术在电子档案管理应用中的合理性,探索区块链技术应用的技术路线,作为区块链技术应用于档案管理的铺路石。希望更多的档案工作者加入到区块链技术的应用研究中,为电子档案管理找出更为先进的技术通路。
一、电子档案“四性”检测要求与区块链技术特点匹配比较
《电子档案移交与接收办法》要求电子档案的原始凭证作用必须以符合真实、完整、可用和安全四种性质为前提,只有具备四性,电子档案才能和纸质档案一样具备法律佐证作用。电子档案的真实性不仅要从管理层面来保障,也要从技术层面加以保障。[1]电子档案极容易被修改且难以察觉,这一点有别于纸质档案,但是可以借用现代信息科技来防范,采用电子印章、数字签名等技术手段,详尽记录电子档案的形成过程,对每一步修改可以追踪到修改人、修改时间和修改内容。电子档案的安全性主要在于防止受损或篡改,在电子档案管理全流程中都存在着盗用、篡改和攻击的风险,除了常用的权限设置方法外,还必须同时配备物理措施、数据加密技术、防病毒措施等。电子档案的可用性主要在于未来的可读性,一方面,我们要尽可能采用版式文件保存电子档案,另一方面,也要注意收藏不同版本的应用软件,使得软件升级换代后电子档案既可读、又可用。
区块链的链状结构、共识机制及非对称密钥技术有效地解决了电子档案的四性问题。在电子档案的真实性、完整性方面,由于创世区块被锁死,加上后续区块哈希值的继承,每个区块记录着时间戳、Merkel根植、随机数及区块主体信息,从而形成链式结构。如需篡改某一区块,则需修改整个区块链,而创世区块是不可变更的。同时,链状结构上的信息是可以根据时间顺序追溯的,所有数据和记录都被记录下来,可以进行跟踪和核查。此外,区块链技术包含共识机制,使得增加和修改区块需要其他对等身份众多节点的认可,单一节点的改变不影响分布式节点的共识,除非达到理论上超过算力的51%才能成功篡改区块链,而这在实践中和成本上是不可能实现的。在电子档案的安全性保障方面,区块链密钥技术包括随机生成的公钥和私钥,相应于用户身份和档案管理部门身份,档案管理部门接收用户公钥,采用私钥进行加密发送,用户用公钥进行解密和信息验证,从而在传输过程实现安全控制。在电子档案的可用性方面,为保证区块链未来可读,档案部门同样需要收集相应的应用软件,以防相关软件被淘汰后电子档案变成死档案问题的出现。
二、以联盟链构造电子档案分布式存储体系的设想
区块链可根据其布局类型细分为公共链、联盟链及私有链这几种类型。公共链中节点范围广泛,任何节点都可参与区块链的创建、存储、访问和参与共识,是完完全全的去中心化,节点拥有者可以是个人,也可以是单位或社会团体。联盟链中的节点指单位之间或行业内部局部范围内的授权节点,这些数量有限的节点参与创建、存储区块链和维护共识,这些经预选的节点需要接受认证、授权和管理,档案用户只参与区块链读取环节,不储存、更新、维护区块链,不参与共识算法的计算。私有链的节点范围更窄,仅为单一个体或组织所拥有。
根据档案馆的职能要求,我们不建议采用弱化档案管理的公共链,建议采用联盟链来构建区块链电子档案管理系统。高校档案馆作为区块链节点之一,有别于其他节点,承担着对所存档案进行业务管理的职责,并对档案各环节的安全负责。因此,在建设区块链电子档案管理系统之初,应充分考虑高校档案馆进行档案封装、鉴定、保管、授权和利用等管理职能。同时,虽然档案馆是档案管理工作的主要责任者,但档案馆不是唯一的责任单位,各机关部处、直属单位及二级学院是电子档案的产生者,同时也是创世区块的提供者和真实性、完整性保障的第一行为人,和档案馆一起共同承担着电子档案产生、管理、流转及维护职能。因此,可将二级单位和档案馆的服务器共同组建起预授权的节点群,共同运作区块链电子档案管理系统,各节点共同备份电子档案,实现电子档案多套备份,减少单一节点遭受攻击后的损害程度。将来可以打通各级各类档案馆,建立起行业性更大范围的联盟链,实现互通互联,信息共享。
分布式存储是有效解决电子档案多套储存的技术方式,联盟链中区块链电子档案不仅安全,并且高度稳定。传统的备份模式有近线备份、离线备份等中心化管理模式,操作方式较为复杂。[2]联盟链中各个服务器节点均参与电子档案的备份,各个节点的服务器硬盘均可作为备份硬盘,电子档案区块链被同步更新及存储,无需另行备份操作。电子档案经加密分散地备份于各个节点,其安全性由区块链技术全网维护的特性所保证,任一节点的损坏或维修不影响区块链电子档案的使用。档案馆及各二级单位的服务器节点具有相同的档案数据管理账本,均参与区块链的生成、更新和存储,并可验证其他节点区块链的正确性。因此,区块链电子档案容错功能非常强。
三、双层区块链铺设、智能合约触发的设计模型
电子档案管理可以设计2条区块链,分别对应电子档案本身和利用数据。电子档案区块链包含电子档案元数据和电子档案原文等内容,为保证电子档案的原始性,不允许对区块链做修改或删除。如果因为特殊原因需要修改电子档案的内容,则修改后的电子档案附加在区块链之后,成为区块链的一部分,以保证电子档案的原始性。电子档案单独建区块链就是为了档案馆加强对电子档案的集中管理,有必要将电子档案区块链独立于用户的操作数据,保证电子档案资源库的真实可靠、资料完整和网络安全。
另一条区块链包含用户授权信息和操作信息,其创世区块为档案馆的机构信息和授权信息。授权方式可采用目前档案管理系统的授权分类,包含电子档案的拥有者、管理者和使用者等类别。电子档案的拥有者具有除修改和删除区块链之外的所有权限,管理者拥有包括授权、查询电子档案区块链的权限,使用者拥有根据授权对特定文件或文件夹进行访问查询的权利,其查询信息成为新增区块。构建这条区块链的目的是验证用户身份和权限,保存数据访问信息并可实现追溯和统计。
智能合约用于连接两条区块链的脚本语言,使得用户顺利读取电子档案。智能合约审查用户的身份和授权情况,其数据读取要求触发智能合约,根据业务规则完成对电子档案区块链的访问。智能合约是连接电子档案和用户的桥梁,数据的对接、传输由逻辑关联的智能合约得以执行和实现。智能合约的设计规则可采用档案馆各类档案利用流程,并可自定义设计流程,使得电子档案利用功能可以拓展。
四、电子档案区块头和区块主体的构成分析
电子档案区块链包含区块头和区块主体,区块头包含了区块链的主要技术特征,区块主体包括档案元数据及档案内容,或者用户身份和授权信息。区块头设有时间戳、哈希值、Merkle根值和随机数,全网记录,全网维护,实现电子档案的绝对保真。时间戳用于记录当前区块数据的形成时间,区块之间通过时间戳形成链状数据结构,而且它记录了数据形成的先后顺序,可以追踪单个区块的历史记录。哈希值用于区块链数据在各个节点间的传输,各节点不需要直接验证区块数据,只需要验证哈希值,区块数据相同则映射出相同的哈希值。区块链的这种链状技术结构及不可修改删除、只能添加的特性,记录了区块数据的全生命周期,保证了区块数据的完整性,使得基于区块链技术的电子档案具有公信力。
五、区块链电子档案非对称加密技术及个人隐私保护
电子档案保存了大量的个人隐私,包括个人身份及工作信息、近亲属信息等,还包括电子档案形成人衍生出来的个人信息,如行政行为相关人的个人信息。[3]个人隐私的有效保护问题需要从管理和技术两个方面来解决,既要借助国家的法律法规,归类、鉴定哪些隐私属于个人隐私,惩戒泄露个人隐私行为;又要通过区块链技术手段来保证个人隐私不被扩散。电子档案保管的责任单位为档案馆,只有控制好档案馆这个源头,才能保护好个人隐私,才不至于因隐私泄露招致相关人员的投诉行为。
非对称加密是一种有效保护个人隐私的技术手段。作为电子档案管理单位的档案馆用私钥对电子档案进行加密,用户掌握公钥,用于解密档案馆发送的加密后电子档案。如果用户所持公钥不能解密电子档案,说明在联盟链中,档案馆已经设置了该电子档案的访问权限,而用户不具备利用该电子档案的权限。通过非对称加密技术,防范网络传输中的恶意行为,可以实现信息传送过程中的个人隐私保护目的。
六、巨链数据库BigchainDB对应于电子档案管理的技术特征
电子档案管理需要支撑大容量数据、分布式并且反应迅速的区块链数据库管理系统,巨链数据库BigChainDB具有区块链技术和分布式数据库的双重特征。[4]通过基于RethinkDB的设计,由Tendermint协议连接节点和MongoDB,电子档案信息可存储在MongoDB中,MongoDB用来索引、搜索电子档案,实现档案管理利用功能。高校档案馆电子档案容量已达数十TB,而BigChainDB可容纳的数据量高达PB级,完全可以处理电子档案数据量。BigChainDB处理速度达每秒兆次,达到亚秒级响应,并且处理速度与节点数呈线性相关。BigChainDB采用分布式存储实现去中心化,实现可控性和自制性,电子档案容纳于区块主体中,实现了电子档案绝对保真。BigChainDB还可通过NoSQL 查询语言,管理半结构化和非结构化数据。BigChainDB既可在公有链中设置权限,也可在联盟链及私有链中进行权限管理。因此,BigChainDB将是电子档案区块链数据库管理技术的重要选项。
七、电子档案信息管理系统模块化分析
区块链电子档案信息管理系统可分成三大模块:电子档案及元数据管理、用户身份管理及验证、用户利用信息管理,而这三部分的相互关联需要通过智能合约来触发。[5]用户如需利用电子档案,首先需要校验其身份信息及相应电子档案利用权限,通过审查后调取电子档案及元数据,而其利用电子档案的痕迹将被记录在区块链上,以便将来进行用户行为统计和分析。这三部分模块可以细化成各项具体功能,结合高校档案管理内容和流程以及实际利用需求,将功能展开、细化,实现多元、便捷、可控的管理目标。
八、结语
区块链技术的自我背书特性为电子档案管理提供了一个全新的技术通路。电子档案的四性要求可借助区块链技术得以实现,电子档案信息化管理可基于区块链技术来设计和开发。电子档案管理系统将更难被攻击和篡改,各节点均可实现数据的存储、传输和验证,实现各节点协同管理。可以预见,区块链技术在电子档案管理中具有应用前景。
区块链技术已经在数字货币的创建和营运中得到了较好的实践和反响,在电子政务管理中也迈出了重要的一步。随着区块链技术的不断完善,将会有更多的档案工作者研究区块链电子档案管理,并将通过借鉴区块链技术在其他领域中的成功经验,创造性地将其应用于电子档案管理之中。