APP下载

基于区块链技术的电子档案安全存储与可信验证方案

2022-11-02彭柳张淼高杰欣

关键词:区块节点档案管理

彭柳,张淼,高杰欣

(1中南民族大学 档案馆,武汉 430074;2中南民族大学 现代教育技术中心,武汉 430074)

随着信息化的发展,对档案管理提出了新要求,信息化、电子化产生了大量的电子化业务数据,其产生、流转、存储全部都是采用电子化的形式,这些电子化的文件归档后形成了海量电子档案.电子档案与传统档案的管理相比较,有立档标准规范、归档流程简单、存储成本低廉以及检索利用方便快捷等优点,可以提高档案工作人员的工作效率和档案的利用率[1].

不同于传统纸质档案与生俱来的唯一性和较强的防篡改性,电子档案存储在中心化数据库中,面临着更多网络攻击的风险,更加易于被内部管理人员或外部攻击者进行伪造和篡改[2].因此,维护电子档案的安全对于档案管理的安全保护技术提出了新的要求,需要改变现有的管理技术和模式.

目前档案界对区块链技术进行理论探索的主要是美国和加拿大等西方学者或高校档案工作者.根据国外综述类文献报道,电子档案管理尝试性应用了区块链技术.如2017年12月,韩国9所医院与Aston公司签署重要的合约,用区块链管理18万病人的病历档案,此项工作,至少每月对650万页的病例档案进行管理[3].2018年英国国家档案馆(TNA)与萨里大学、开放数据研究所合作,开展基于区块链的研究项目ARCHANGEL,尝试性应用了区块链技术[4].基本方案是由ARCHANGEL系统在接收登记数字档案时,先利用格式识别软件DRIOD自动识别出档案文件的格式,再采取与格式匹配的特定加密算法,生成哈希值,登记到区块链的分布式账本上[5-6].

从国内公开的文献来看,电子档案管理业务应用区块链方面,已经有少量机构进行了初步探索.如中国石油化工集团有限公司于2019年开始尝试通过区块链确保电子档案的真实性[7].中国科学院合肥物质科学研究所档案馆及下属多个研究所的档案部门通过应用区块链实现档案共享利用.北京互联网法院为了保障电子证据的真实性,联合了北京市高等法院、公证处、大型互联网平台和司法鉴定中心等20余家单位共同组建了联盟链,取名“天平链”[8].

综合来看,区块链是一项全新技术,大多数档案部门由于当前存储方式不清,对电子档案管理中应用区块链的成本、实施路径等缺乏了解,从而在应用区块链方面无从下手,区块链实际在电子档案管理中的应用仍旧较少.从研究方面来看,大多数文献主要是关于区块链在电子档案管理中的应用场景、所能实现的功能、适用性等方面,对技术细节、所需投入、实现路径等的研究较少[9].区块链作为最前沿的信息管理技术,在国内外档案界,区块链档案管理的应用,仍处于尝试和探索阶段.

为了进一步探索区块链技术在电子档案管理的实际应用,中南民族大学于2019年申请了国家档案局科技项目《区块链技术在电子档案管理中的应用》(项目编号为2019-X-47),探索研究区块链技术在电子文件归档和电子档案管理中的实现方案.本文将以该项目为基础,研究高校的学籍电子档案管理,提出了一种基于区块链技术实现电子档案的安全存储与可信验证技术方案,旨在解决电子档案管理中普遍存在的数据真实性、完整性、可靠性和可用性问题.

1 区块链技术的简介

区块链是在2008年,由网名为中本聪的程序员提出的作为点对点网络、密码学、共识机制、智能合约等多种技术集成的一个概念[10].区块链(Blockchain)是由节点参与的分布式数据库系统,是基于时间戳由区块有序链接起来形成的一种数据结构,其中区块是指数据的集合,相关信息和记录都包括在区块里面,是形成区块链的基本单元.区块链技术经过快速的迭代演进,如今的区块链已经形成“分布式(Decentralized)、免信任(Trustless)、时 间戳(Time Stamp)、非对称加密(Asymmetric Cryptography)和智能合约(Smart Contract)”五大技术特征,对应的特点为分散式存储、不可篡改性、可追溯性、安全性、可编程性.研究者一般根据区块链的使用范围把其分为三类:公有区块链(简称公有链)、私有区块链(简称私有链)和行业区块链(简称联盟链)[11].

公有链:世界上任何个体或者团体都可以发送交易,且交易能够获得该区块链的有效确认,任何人都可以参与其共识过程.

私有链:仅仅使用区块链的总账技术进行记账,可以是一个单位,也可以是个人,独享该区块链的写入权限,该链与其他的分布式存储方案没有太大区别.

联盟链:由某个群体内部指定多个预选的节点为记账人,每个块的生成由所有的预选节点共同决定(预选节点参与共识过程),其他接入节点可以参与交易,但不过问记账过程(本质上还是托管记账,只是变成分布式记账,预选节点的多少,如何决定每个块的记账者成为该区块链的主要风险点),其他任何人可以通过该区块链开放的平台进行限定查询.

三类区块链的主要区别是公有链对所有参与者开放,私有链仅对单独的个人或者组织内部开放,联盟链则对特定的组织团体开放[12].

2 区块链技术适用于电子档案管理

项目组研究员通过利用区块链技术在电子文件管理中的实验发现,区块链通过链式数据结构、数字签名和时间戳等技术来保证存储在链上的文件内容不被更改,因此在保护电子档案的真实性、完整性和可靠性方面具有优势.区块链技术可以解决普通网络上电子文件信息来源不可靠、信息不对称、信息存储中心化、需要异地多介质备份等档案信息管理面临的问题.

利用区块链保存数据不仅可以避免被篡改,信息价值唯一,还无需对人的信任与戒备.同时分布式无门槛技术特点,带来人员参与容易,参与成本低廉,且信息传播时效性强等特点[13].以区块链打造档案管理系统,不仅能大幅提高档案系统内的高度融合,便捷档案挖掘利用,更能使档案和其他领域职能协调管理.

3 电子档案的安全存储与可信验证解决方案

依据《中华人民共和国档案法》《中华人民共和国电子签名法》《中华人民共和国密码法》和《电子档案管理办法》等法律法规,项目组构思出一种联盟链和私有链结合的电子档案安全储存保护方案,联盟链用于存取私有链区块摘要信息,来实现对私有链上数据的保护与验证;私有链用于存取电子档案的摘要信息,来实现对电子档案的保护与验证.

该方案将高校学生录取名册、学历学位证书、毕业成绩单等重要电子档案同时存储在私有链的多个节点上,仅提取电子档案的哈希值和检索该文件必需的元数据信息打包成分布式账本并按照时间顺序依次相连,以数字签名的方式保证数据不可篡改,从而形成SCUEC区块链.当用户需要对成绩单等电子档案进行验证时,只需要在SCUEC区块链查询接口平台上导入电子文件或者其哈希值,接口程序将在后台提取区块链中的数据进行对比,若不一致则反馈该文件已被篡改,如果一致则即可证明此电子档案真实可靠.

SCUEC区块链不仅可以提供电子档案的存储和验证服务,还可以为单位各业务系统提供标准服务,各种类型的电子文件在其生命周期的不同阶段都可以利用区块链进行存储和验证保护.当业务系统涉及到重要操作时,对各项重要操作产生的数据,都可通过区块链提供审计依据.

3.1 建立SCUEC区块链安全存储平台

SCUEC区块链的数据存储采取分布式,随机存储机制,部署在多节点服务器组内,连接在负载均衡设备上.各节点的客户端通过校园局域网与服务器相连,离开校园网的终端可通过VPN或专用光纤系统与安全管理系统服务器相连,经过智能DNS,找出最优访问链路,提高访问效率、降低多地间网络开销.

SCUEC区块链是基于时间戳将区块有序链接起来形成的一种数据结构.如果仅在一个单位内部建立则属于该单位的私有链,如中南民族大学SCUEC区块链是由学校信息中心、档案管理服务器、教务管理服务器、财务管理服务器等多个节点参与形成的分布式数据库系统(图1).

图1 SCUEC区块链管理平台首页Fig.1 The home page of the SCUEC blockchain management platform

若有多家单位按相同的数据存储规则建立私有链,根据一定的网络架构,作为一个超级节点加入到SCUEC区块链中,则可形成联盟链(图2).

图2 SCUEC区块链节点配置Fig.2 SCUEC blockchain node configuration

3.2 SCUEC区块链的区块结构

区块是区块链的基本单元,每个区块均是一个数据的集合,相关电子文件的信息和记录都包括在区块里面(图3~5).

图3 SCUEC区块链的区块结构Fig.3 The block structure of the SCUEC blockchain

图4 SCUEC区块链的区块信息Fig.4 Block information for SCUEC blockchain

图5 SCUEC区块链的区块详情Fig.5 Block details for SCUEC blockchain

区块的形成采用可插拔的共识机制,支持PBFT、Raft和rPBFT共识算法,交易确认时延低、吞吐量高,并具有最终一致性.其中PBFT和rPBFT可解决拜占庭问题,安全性更高.区块和存储机制从原来的MPT存储结构转为分布式存储,避免了链上数据急剧膨胀导致性能下降的问题;引入可插拔的存储引擎,支持LevelDB、RocksDB、MySQL等多种后端存储,支持数据简便快速扩容的同时,将计算与数据隔离,降低了节点故障对节点数据的影响[14].

3.3 利用区块链实现可信归档

建立SCUEC区块链单位内部的各业务系统将各类不同格式的电子文件换成OFD或者PDF标准版式文件,同时嵌入相关的元数据,支持元数据的打包封装及XML技术描述,并可以进行文件加密或电子签名,形成安全可信的电子文件,在归档之前将此电子文件和摘要信息进行HASH运算.一定数据量的文件HASH值被打包后,加上时间戳和区块头信息,就可以成为一个区块保存在各个节点的账本中.上链后的电子文件便具有分散式存储、不可篡改性和安全性,此电子文件原文归档到档案管理系统中即为可信电子档案(图6).

图6 SCUEC区块链可信归档示意图Fig.6 Trusted archive of SCUEC Blockchain

业务系统可以在电子文件生成和流转的过程中,将电子文件的相关信息加密后上链.档案管理系统再将每份电子档案的归档元数据、鉴定记录、组卷信息、借阅记录、销毁记录等全部都进行数据打包,放在SCUEC区块链中,此电子档案的整个生命周期便均可溯源,任何阶段的文件都可以方便地提供利用.

3.4 建设可信档案的查验平台

SCUEC区块链除了为各类电子文件进行存储保护,还有一项重要的功能便是提供接口服务让用户调用,进行数据查询和比对.通过区块链对档案不同阶段数据上链,以保护电子档案的真实性,并在电子档案借阅后进行真实性验证.如学生在毕业时可以由学校颁发毕业证书的同时颁发电子成绩单,当需要查验此成绩单有无被篡改时,验证者可以在任何地点登陆此查验平台,扫描纸质成绩单或者提交整个电子成绩单,接口程序将通过后台调用SCUEC区块链相应区块上的信息进行比对,若相同,则显示此成绩单为真,否则是被篡改后的成绩单.

根据以上原则,项目组开发出了基于区块链的档案安全存储与可信查验平台(简称BASV区块链查验平台)(图7).

图7 电子档案区块链查验平台(BASV)Fig.7 Electronic archive blockchain inspection platform(BASV)

4 基于区块链技术管理电子档案的优点

4.1 去中心化管理,数据保存安全可控

普通的中心化数据库通常具有几个无限访问权限的管理员,这是一个几乎无法堵住的安全漏洞.区块链通过消除对管理员的权限来避免这种漏洞产生,可以通过以下方式提高安全性:区块链里的每个管理员都有一个私有链的副本,要求所有管理员就某些操作达成共识,拒绝所有不遵守某些协议的行为,区块链记录下完整的安全日志.

区块链因参与节点本身角色的限定性和私密性,可以有效地防止内容某个节点篡改数据.一旦发生故意隐瞒或篡改数据的情况,能够及时追踪其来源.再加上私有链中的交易数据不会全网公开,可以更好地保护节点自身的隐私.区块链提供所有存储信息的完整历史记录,并通过密码术对其进行保护.此功能有助于去中心化管理,通常在常规数据库中不可用.

与传统的仅依靠中心化管理的电子档案管理系统相比较,大大降低了来自系统内部的成员篡改档案的风险,让保存的电子档案数据更加安全可靠.

4.2 建设和使用成本不高且可控

比较起采用第三方认证的可信验证方式,区块链的建设和使用成本几乎可以忽略不计.仅仅利用各单位现有的计算机、服务器和网络,便可以搭建起私有链和联盟链.私有链是一条非公开的“链”,通常链上成员都是经过审核授权的,所以恶意攻击的可能性相对较小.具有速度快、隐私保障良好、安全性较高、使用成本低等特点.联盟链是由多个组织或机构共同参与管理的区块链,每个组织或机构管理一个或多个节点,其数据只允许节点进行读写和发送.联盟链的各个节点通常是通过授权后才能加入网络,各节点组成利益相关的联盟,共同维护区块链的健康运转.从某种程度上来说,其实联盟链也属于私有链,但它私有的程度不同,其权限设计要求更复杂,可信度更高[15].

因此本技术方案采用私有链和联盟链结合的方案节约了成本,保证了可延续性.

4.3 采用国产加密算法保证区块链的核心技术自主可控

区块链的不可篡改特性,正是通过密码学技术进行数字签名,可保障重要操作过程中数据的真实性、完整性,以及用户操作行为的不可否认性,提供事后追踪、审核手段,实现对关键操作的责任认定.国外制定的安全协议和加密算法,无法满足关键系统、设备的安全、自主、可控,如目前共识最高的区块链比特币BTC和以太坊Ethereum均使用了美国设计的SHA256哈希算法和椭圆曲线签名算法(ECDSA)来进行账户生成或数字签名.

安全形势不容乐观,因此国家加大了力度投入研究国产密码算法,目前已经有一些国家密码局认定的成熟产品,如SM1、SM2、SM3、SM4.SM2算法即SM2椭圆曲线公钥密码算法,是我国自主设计的公钥密码算法,包括SM2-1椭圆曲线数字签名算法,SM2-2椭圆曲线密钥交换协议,SM2-3椭圆曲线公钥加密算法,分别用于实现SCUEC区块链数字签名和数据加密等功能.SM3算法也称SM3杂凑算法,是我国自主设计的密码杂凑算法,适用密码应用中的数字签名和验证消息认证码的生成与验证以及随机数的生成,用于实现SCUEC区块链上具体区块中的哈希算法[16].

档案管理的核心工作是保障安全,采用国产加密算法是将安全控制牢固掌握在自己手中的根本原则.

5 结语

区块链技术仍处于十分早期的研究阶段,决定了该技术有激烈的变化和高度发展的可能,其在可扩展性、共识机制、系统安全、监管和隐私保护等方面都存在一定的瓶颈,这些关键技术问题还可能互相牵制,三元悖论一直是区块链最大的障碍.因此区块链应用于档案管理的过程将不可避免地会走一些弯路,很可能会经历一个长期迭代过程,才能最终趋于完善.

此方案虽然是以高校电子档案作为研究对象进行的研究与开发,但其基本原理和应用场景并不仅限于高校内部的档案管理,还可以扩展到其他行业组织实体的档案管理,甚至是行业成员之间的档案利用协调.

除了适用于电子档案管理的场景之外,可以据此方案设计出私有链应用在一些金融企业、审计机构和商业公司中,用来存放核心、敏感数据.同时也可以建立联盟链,用于行业协会、大型集团、行政组织等对下属单位和分管机构的管理和监管等.

猜你喜欢

区块节点档案管理
CM节点控制在船舶上的应用
如何规范档案管理
基于AutoCAD的门窗节点图快速构建
区块链:一个改变未来的幽灵
概念格的一种并行构造算法
区块链:主要角色和衍生应用
区块链将给媒体业带来什么
区块链+媒体业的N种可能
档案管理与企业内部控制关系的思考
抓住人才培养的关键节点