APP下载

联盟链视域下政务云档案数据共享利用模型研究

2022-05-30郭立鑫陈潞辉

档案管理 2022年5期

郭立鑫 陈潞辉

摘  要:本文基于电子政务平台服务,分析联盟链技术及档案数据的特点,在基于政务云档案数据共享的基础上,详细阐述了联盟链在电子政务档案数据共享中的应用策略,提出了共享模型和实施方案,这对优化传统档案数据共享模式诸多弊端,促进档案数据治理水平提升,具有积极的现实意义。

关键词:档案数据;联盟链;电子政务云;共享模型

Abstract: Based on the e-government platform service, this paper analyzes the characteristics of alliance chain technology and Archives data. On the basis of government cloud Archives data sharing, this paper expounds the application strategy of alliance chain in e-government Archives data sharing in detail, and puts forward the sharing model and implementation scheme, which has positive practical significance for optimizing many disadvantages in traditional Archives data sharing mode and promoting the improvement of Archives data governance level.

Keywords: Archival data; Alliance chain; E-government cloud; Shared model

1 引言

1.1 檔案数据的特征。档案数据是各档案机构收集保存的具有重要价值的数据记录,涵盖了档案数字化成果、业务系统数据和用户数据等,有六个特征:一是存储海量化,各地档案数据量级从GB级达到TB级,甚至PB级,特别是非结构化档案数据在快速增长;二是类型多样化,数据类型有TXT、DOC、XML、PDF、TIFF、JPEG、DFD、DBF、XLS、WAV、MP3、AVI、MP4等,不同文件格式并存;三是内容知识化,既注重档案自身知识挖掘,又在不同数据间寻找信息关联,产生数据价值之外的价值;四是结构规范化,数据结构更加遵循标准规范,档案数据管理成本和共享难度极大降低;五是界定法理化,档案法明确电子档案与传统载体档案具有同等法律效力,档案数据的真实性要求更高;六是利用迟滞化,受保管期限和封闭年限约束,数据需伴随实体档案经划控鉴定和审批后才能对外发布。当前,档案数据共享主要依托电子政务云开展,由档案部门和云服务商共同管理,面临着整合效率低、存储中心化、信任程度弱、安全性能差等问题。

1.2 档案数据与联盟链。区块链中的联盟链较适用于机构间的信息共享,是一种许可链,典型特点是:一是各节点通常有对应的实体机构;二是只有得到联盟的批准才能加入或退出系统;三是各个利益相关机构在区块链上共同维护系统。而档案数据除具有以上所述六个特征外,还要求参与共享的单位和数据都进行许可,按照发布安全和所有权要求,既不能在全网公开,也不能完全由一个机构管理,须按照某个规则或共享协议管理对应权限的数据,且不必采用代币机制来鼓励节点竞争参与记账,使共享要求与联盟链的技术特点极具耦合性。

1.3 档案数据与电子政务云。随着政务外网接入普及,云服务模式按照“以上云为常态,不上云为例外”要求,要求档案机构不能也不用再新建独立的机房、数据中心、专用网络和档案数据所依赖的服务器、存储、数据库、支撑软件、信息安全、数据备份等。这类基础设施统一归口到电子政务云来承担,极大降低数据共享成本。

同时,各地陆续出台电子政务云平台服务管理规范,明确按照统一管理、按需选择、弹性扩展、高安全性和高可靠性的原则,开展基础设施、平台、软件层服务建设,而PaaS层安全容器服务的引入也促使参与共享机构只需关注数据和应用,共享过程更加安全快捷。

2 基于政务云档案数据的共享利用

2.1 传统模型。在一体化在线政务平台与档案服务的深度融合的大背景下,档案数据上云、数据设备托管成为必然,基于政务云的档案数据共享成为主流,传统意义上包括档案数据供给侧、管理侧和需求侧三部分,而作为核心的档案数据管理侧实际由第三方机构控制。

2.2 流程分析。传统模型下档案数据共享流程是:(1)聚合数据。各立档单位依托机关数字档案室在线或离线方式向档案机构移交数据,社会档案资源数据通过征集或捐赠流向档案部门,完成档案数据的原始积累。(2)申请资源。档案机构向大数据管理部门申请计算、存储、网络等政务云资源,大数据部门协调第三方机构完成虚拟化资源分配,提供相应服务、调度和资源等管理。(3)搭建平台。档案机构依托相应层级政务云资源申请共享服务,依据电子档案信息系统建设等规范指导,搭建共享业务系统。(4)上载数据。档案机构组织档案数据开放鉴定并上传所属资源,政务云提供统一的数据服务保障体系,档案数据进入数字资源中心集中管理。(5)共享利用。面向网站、平台、自助设备、移动终端、微信APP等不同平台,在共享系统上开设通用或专题共享应用,数据需求侧通过政务云平台统一身份认证在公共云或私有云获取相应档案利用数据。

2.3 优势与弊端。政务云与档案业务的深度融合,有效促进了档案数据开放化水平,共享优势有:(1)极大节约数据共享成本,档案部门通过申请虚拟化资源,节省了基础设施建设支出。(2)档案数据管理更加专业,第三方机构采取统一管理,使用专业存储设备提供数据托管,技术保障力量相较一般档案部门更加雄厚。(3)数据容灾备份能力增强,通过虚拟机提供软硬件支撑环境,数据备份与恢复更加灵活。(4)数据安全性提高,政务云平台有较完善的信息安全保障体系,档案数据遭受外部攻击或篡改的可能性极大降低。

同时,弊端也是显然的:(1)档案数据有泄露风险,风险主要发生在数据运维人员和高权限管理人员,档案数据采取统一集中存储,虽然有相应的数据安全规范,但档案部门监督难以实施,难免出现未经授权越权访问,违规下载和使用档案数据。(2)共享数据会出现新孤岛,由于缺少统一顶层设计,各级档案数据会向所属政务云平台汇聚,以一省为例,会出现省市县层级化数据流向,不同平台不同接口会造成新的纵横分割,从而产生新的数据壁垒。(3)档案数据质量参差不齐,档案数据直接对接政务云平台,数据质量缺少统一审核,可能标准不统一,非结构化档案数据在不同业务系统共享前仍需清洗。(4)档案数据资源归属模糊,目前主要通过签订三方协议明确归属,存在有协议无措施或协议执行不够刚性,特别是在共享利用过程中会产生诸多元数据,这部分数據资产归属仍难以界定。(5)档案数据并非绝对安全,虽然国家出台有数据安全法,但法规过于笼统仅停留于指导层面,在政务云平台档案数据上下传输过程中传输保密和传输控制缺少有效手段,档案数据的安全防护定级存在双重标准,第三方机构往往仅提供基础防护,高等级安全防护仍需长期高价购买,变相增加了档案数据共享成本。

3 联盟链视域下政务云档案数据的共享利用

3.1 模型设计。在传统基于政务云档案数据共享利用基础上,引入联盟链关键技术,按照数据供应、管理、需求的关系,改进后的模型如图1所示。

3.2 模型描述。模型采用区块链技术与电子政务云相结合的逻辑架构。(1)区块链模块,数据层使用链上链下相结合的旁路数据存储模式,链下以参与单位共享目录及全文数据为主,链上以数据摘要为主,建立半中心化存储体系;网络层选用P2P点对点传输技术搭建区块链网络,网络规模根据参与节点自由扩展至固定数量,并由参与数据共享的单位共同推荐的一名信任方建立创世区块;共识层使用实用拜占庭容错算法,不依赖硬件算力和数据多少产生共识,参与共享节点按照少数服从多数策略,各节点具有公钥发布权,以签名所有通过节点的消息来验证其准确性,当可用签名数量达到要求,该操作就被认定为有效;激励层由于参与共享节点非复杂群体,无需复杂激励机制,采取赢取积分方式来体现该部门在档案数据共享中的综合贡献,积分作为基础业务评价、信息化建设等考核考评加分项;合约层采用智能合约方式进行数据源管理、数据发布检索、数据授权、数据订阅等控制;应用层由档案共享业务系统和终端APP\WEB界面等组成提供档案数据共享服务。(2)政务云模块,IAAS层提供档案数据共享的场外服务器、存储和网络硬件,PaaS层提供档案数据共享的虚拟服务器和操作系统,SAAS层使用档案行业联盟自建共享业务应用,数据以上载的共享数据为主。

3.3 模型流程。(1)获取云服务。档案联盟成员向政务云平台申请或租用PaaS 层服务,政务云平台根据档案联盟数据要求,完成网络、计算、存储资源分配,完成操作系统、数据库、中间件、交换接口、共享应用的调试安装。(2)搭建联盟链。参与单位采用P2P定制产品,由推荐单位配置创世区块文件,各节点使用创世区块文件初始化各自配置,而后启动联盟链网络并获取各参与节点地址。(3)交换数据。参与联盟单位将业务系统数据或数据库中的数据按照联盟要求推送计划共享的档案数据,通过业务适配将数据通过加密方式传递给政务云数据交换平台。(4)传输数据。政务云数据交换平台由数据采集、数据共享、数据转换、服务共享、任务调度、数据传输接口组成,对待共享的档案数据统一转换格式,根据事先确定的数据方案调度不同的数据单向传递给电子政务云PaaS层安全容器。(5)交易记账。交换平台向安全容器单向传输的操作记录在区块链上,保证记录的可溯源、不可篡改、不可伪造。同时,在各个数据方都将档案数据传送到电子政务容器服务平台后,安全容器对收到的数据进行操作,此操作过程和结果也记录在区块链上。(6)建立目录。档案数据进入安全容器后,与区块链网络服务相并列,建立数据资源目录和模板目录服务,提供数据索引、匹配及查询服务。(7)对接应用。通过数据接口服务,将安全容器中数据资源目录与数据共享业务系统对接,并与区块链网络服务连接,信息之间传递采取加解密方式。(8)共享利用。联盟单位经政务云统一身份认证后接入系统,维护系统和享受系统提供的服务,非联盟单位经批准后,通过物理隔离的数据交换接口来传递数据。所有操作过程和结果均记录在区块链上。

4 联盟链视域下政务云档案数据共享利用的技术路线

4.1 数据分布式存储。考虑到档案数据种类有文本、音视频、数据库等,类型多样,且体量大小差别较大,非结构化数据较多,而链块节点存储方式具有局限性,可拓展性较差,[1]不能满足档案数据存储要求,模型采用链上链下相结合的政务云数据旁路方式,具体是:

对于数据量小于100KB的数据,数据摘要部分可以存储档案数据原文(如现行文件),数据类型可以是链接、文本、图片或者检验视频等。档案数据大于100KB,数据摘要存储在链上分块,目录或原文数据加密后以旁路形式存储在政务平台安全容器。链上数据摘要可以对数据进行四性校验,也可以作为在数据库中查找数据的索引,作为绑定用户的唯一标识,查证用户的数据记录以及访问权限;对于某个区域,通过区块链网络对各层政务云进行分级链接后,形成多中心节点的分布式存储架构。

4.2 数据交换记账。分布式账本首要是建立共识算法,完成存储数据资源、权限控制、存储分析。模型比公链(如以太坊)结构更加简单,节点间是具有良好合作关系并寻求整体效益最大化的联盟,类似工作量或权益类等公链共识算法难以适用,更适合使用可以脱离加密代币的实用拜占庭容错算法。具体是:

交易的发起方会以接收方的公钥对交换的档案数据进行加密,并以自己的私钥进行数字签名,接收方则会以自己的私钥对交换的档案数据进行解密、并以发起方的公钥验证对方的数字签名,P2P档案数据交换完成后,数据发起方通过私钥对交易结果数字签名并向全网广播,接收到广播的各节点再以数据发起方公钥验证数字签名可信度,并再次通过私钥对该交易结果进行数字签名并向全网广播。循环若干次后,当各节点收到总节点数量一半以上的广播交易结果后,各节点便可自行更新账本,最终达到分布式数据账本同步的目的。

4.3 数据跨层级交换。对于同一个区域不同层级联盟,以上级政务云为主链,分别建立子链,并部署智能合约,解决数据共享利用问题。具体是:

通过主链在每一条子链上部署不相同的智能合约,主链定期间隔接收子链智能合约发送的数据,之后封装所有数据转存至主链对应区块。当接收到子链间的数据查询请求时,控制主链从所述区块中获取子链供应方数据,控制主链将该数据发送至子链需求方,以此解决不同层级数据链数据隔离问题。

4.4 数据安全容器服务。档案数据在权属关系上具有特殊性,安全性不宜与其他数据共用虚拟化服务资源,而容器技术类似于一个集装箱,容器与容器之间相互独立,容器内所存储的内容可以提前定制和预装,针对需要的内容提取对应的容器,允许在档案数据隔离的过程中运行相应虚拟化程序。因此,模型中运行的共享利用所需组件都会被封装为单个镜像,镜像运行在独立的环境中,与其它应用生产的元数据互相隔离,避免因为其它应用元数据节点宕机时整个系统的瘫痪。[2]具体是:

为档案数据建立索引树,能够根据索引找到每一个数据块的位置并进行访问和读取,通过在保存数据节点的主机上寻找数据存放在存储空间的那个位置,然后由数据节点将位置返回给客户端,进而达到档案数据查询目录作用。这种系统架构模式能有效避免部署环境不同,版本不兼容的问题。

4.5 数据交换接口服务。为实现各节点业务系统或数据库与政务云安全容器的对接,需按照统一规范与交换接口实现技术对接。此外,交换接口还起统一管理作用,控制接口访问权限和策略,监控和分析接口调用结果。具体是:

发送方通过业务适配将待共享档案数据包和参数信息单向上传到交换接口服务存储模块,交换接口服务完成数据的检测后,按照接口参数下载、验证和处理发送方上传的数据包,并将操作过程和结果实时记录在链上。同时,根据调度任务,将档案数据包单向传输到安全容器,安全容器通过数据交换接口或共享应用系统的方式,将档案数据传送到相关的需求侧,向联盟或公共成员提供共享。上述操作过程和结果均记录上链。

5 结语

5.1 模型价值。模型引入联盟链创造了新的档案数据交互范式,实现在政务云档案数据的共享利用,将传统的电子政务平台集中式数据交换共享模式变为不可篡改的分布式记账模式,有效提高了档案数据交换共享的安全性。同时,借助政务云计算服务,极大降低了数据共享成本,提高了运行效率,对未来数字档案馆或智慧档案馆建设都是值得探索的方向。实践中,比如“浙江政务服务网有关系统电子文件归档”试点案例中,省档案局牵头组建联盟链,有关单位以不同链节点加入档案链,实现了与归档公共组件、档案交换平台的对接,各方归档信息操作都能快速上链。该档案链与模型结构虽非完全相同,但可视为模型在电子出证文件共享的初步案例,未来随着其它档案数据上链,模型应用會更加广泛。

5.2 存在的问题。实际中,当前阶段联盟链在档案数据共享利用上的应用,并不能完全取代传统主流共享模式,将区块链技术与原有业务系统结合,将涉及网络和电子政务云计算部分系统的改造升级工作,需要充足的经费和成熟的技术支撑。同时,也会面临共享利用场景设计复杂,档案联盟机制不健全,业务终端设备跟不上等问题,进而增加共享成本。而在多馆共识形成上,如何激励节点参与热情,制定奖励机制,保证区块链的稳定性,都是当今面临的现实难题。

参考文献:

[1]贾大宇、信俊昌、王之琼.区块链的存储容量可扩展模型[J],计算机科学与探索2017第9 期.

[2]李刚健.基于虚拟化技术的云计算平台架构研究[J].吉林建筑大学学报,2011:28(01)