基于多案例的“区块链+电子文件管理”应用前景研究
2020-03-20王子鹏江苏开放大学
王子鹏/江苏开放大学
2019年10月,习近平总书记在中央政治局第十八次集体学习时强调,要把区块链作为核心技术自主创新重要突破口,加快推动区块链技术和产业创新发展[1]。在我国大力发展区块链技术创新应用的大背景下,“区块链+”必然给档案工作带来机遇和挑战。一方面,档案的根本属性是原始记录性,档案工作的内容与方式必然会根据社会的变革作出相应调整;另一方面,区块链可以实现数据记录永不被删除、不可篡改,这一特性与信息时代电子文件管理的要求高度契合。近年来,区块链成为档案学研究的热门前沿话题,同时还涌现出相应的实践探索项目,这些项目为我们理解区块链提供了较好的途径。正如刘越男教授所言,“当我们对区块链下的文件档案管理没有太多思路的时候,收集、跟踪并挖掘这些案例,分析不同方案中文件构成及其管理要点,是我们获取理论和方法的重要源头”[2]。基于这个思路,本文采用多案例研究方法,试图厘清区块链和电子文件管理的逻辑契合点,探究区块链在电子文件管理方面的应用前景。
1 档案领域基于实践探索的区块链研究概述
在档案领域结合区块链方面,国外的相关研究起步较早,且在实践探索上取得了一定成果。萨里大学联合英国国家档案馆等机构联合开展ARCHANGEL项目研究,旨在探索通过区块链技术确保公共数字档案记录的完整性[3];InterPARES Trust 欧洲团队基于“带时间戳、电子印章的数字签名可信保存模型项目”[4],开发出TrustChain模型,尝试采用区块链加密数字签名的方法长期保持电子文件的可信度[5];刘越男从数字档案长期保存视角介绍了上述两个项目相关情况[6],杨茜茜着重分析了英国ARCHANGEL项目的启示[7]。我国档案学界关于区块链的研究紧跟世界发达国家步伐,正从纯粹的理论探讨转向应用性研究。张倩提出构建高校学生档案区块链征信管理平台[8]和艺术档案管理系统[9];聂云霞分析了基于区块链的政务档案信息共享策略[10];王平借鉴OAIS模型构建基于区块链的电子文件可信保护框架[11];马仁杰设想基于联盟区块链搭建长三角档案信息资源共享模式[12]等。从现有的项目或论文中,笔者遴选了RecordKeeper项目、TrustChain模型、可信保护框架模型、ARCHANGEL项目作为研究对象。选取原则有三点:一是案例针对性强,侧重解决档案管理中突出的问题;二是案例均提出了明确的技术框架,具有很强的实践性;三是案例技术路线各异,有利于横向比较分析。
2 案例分析
2.1 RecordsKeeper项目[13]
该项目的中文名称为“记录保存和数据安全解决方案”,是一个没有档案机构参与、以电子文件管理为主题的区块链商业项目。项目拟为组织和个人提供结构化的、易于访问的、安全可靠的电子文件可信保存服务。其技术逻辑为,当用户上传一份电子文件时,RecordKeeper将文件本身存储于中心数据库,同时对文件简要记录和元数据进行加密形成哈希值,并将哈希值推送至区块链分布式账本。一旦电子文件发生变更,区块链上记录的哈希值将随之改变。用户也可以通过客户端的哈希校验功能,来检验电子文件是否被篡改。关于共识机制,本项目采用工作量证明(Proof of Work,PoW)方式进行数据验证和记账工作,各网络节点需要“挖矿”来争夺记账权。RecordKeeper的目标为盈利,其网络共识节点亦是自利的,最大化自身收益是各节点参与数据验证和记账的根本目标。所以,项目通过发行虚拟货币的方式实现自身盈利和节点激励。作为用户,需要购买虚拟货币才能享受电子文件可信保存服务。
RecordKeeper项目值得被关注的原因在于:一是项目属于纯商业性质,预示着未来可能存在非传统档案机构从事电子文件管理服务;二是项目毫无档案专业背景,只关注电子文件的真实性,其技术框架极为简洁;三是为档案机构提供了一种可能性,即面向全社会开展有偿的电子文件可信管理服务。但从档案学视角分析,该项目存在严重问题。RecordKeeper声称可以解决电子文件安全可信管理的所有问题,这恰好反映了项目人员对档案学的了解尚浅;项目目前对电子文件全生命周期管理没有概念,亦不关注电子文件的完整性、可用性、可靠性和长久保存问题,只关注电子文件的真实保存,保存期限取决于该项目在市场竞争中的生存周期。
2019年12月18日,笔者已无法访问该项目的官方网站。如果网站无法正常访问就意味着该项目的失败,那么RecordKeeper商业项目存活周期不足2年。
2.2 TrustChain模型分析[14]
数字签名是欧洲档案领域用来确保电子文件真实性、权威性、完整性的有效手段,而其长期可信保存一直是电子文件管理的重难点。原因在于,手写签名与数字签名存在明显差异,前者在不同纸质文档上表现出一致性,而后者作为二进制字符串在不同电子文件上必须相异。如果将相同字符串用于多个文档,那么任何收到电子文件的人都可以简单地复制该字符串并将其附加到另一个文档,伪造数字签名。所以,数字签名通常是加密的、非开源代码的数字格式,随着软硬件环境的变化会出现签名失败、验证失效等问题。区块链技术的出现,为解决数字签名可信保存问题提供了可靠的技术路径。InterPARES Trust“带时间戳、电子印章的数字签名可信保存模型项目”在上述背景下应运而生,该项目由克罗地亚萨格勒布大学Hrvoje Stančić教授领衔的研究团队完成,TrustChain模型为该项目主要研究成果。该模型采用联盟链的方式,拟由档案机构及相关权威组织承担区块链分布式账本的节点功能。这种方式工作效率校高,亦无需发行虚拟货币。TrustChain模型技术逻辑为:第一步,当一份含数字签名的电子文件接收入馆时,首先向数字签名颁发机构查询数字签名真伪;第二步,在数字签名为真的情况下计算数字签名和文档的哈希值,并形成由哈希值、文档链接、时间戳、元数据等组成的TrustChain记录值;第三步,所有或部分节点对TrustChain记录值进行投票,在通过的情况下将其登记入区块链账本永久保存。
TrustChain模型存在明显的逻辑冗余:数字签名确保电子文件为真,区块链再证明数字签名为真。欧盟认可数字签名的法律效力,所以TrustChain模型无法绕过数字签名这一环节。如果欧盟修法认可区块链的法律效力,则区块链可以绕开数字签名独立承担责任;反之,直接改进数字签名技术(而非叠加两个技术)将更为简洁。区块链是分布式数据存储、点对点传输、共识机制、加密算法等技术的融合体,数字签名亦可借鉴区块链技术框架、吸收融合先进技术进行自我革命,解决现存问题。否则一味用新技术去保障旧技术,这种“贪吃蛇”的模式将导致档案管理模式愈加繁琐。
2.3 可信保护框架模型[15]
武汉大学王平等提出国内目前比较完整的“区块链+电子文件管理”解决方案,本文简称为“可信保护框架模型”。该框架模型以OAIS(Open Archival Information System,开放档案信息系统)为基础,将数据区块划分为提交信息区块(Submission Information Block,SIB)、档案信息区块(Archival Information Block,AIB)、分发信息区块(Dissemination Information Block,DIB)三个部分,分别对应电子文件管理的移交和接收、存储和管理、利用与销毁三个阶段,遵循全程管理原则加强电子文件可信性的安全保护。该框架模型较好的融合了OAIS和区块链技术,针对可信电子文件信息区块封装、分布式账本存储和信息区块提取三个核心技术环节均提出了具体的技术方案。
可信保护框架模型结合OAIS改造区块链技术,理论创新性强。与其他案例相比,不仅关注电子文件管理和利用阶段的真实性管理问题,而且尝试解决电子文件全生命周期可信安全保护问题;并非简单套用区块链技术,而是基于OAIS对区块链进行细致的改造,定义了区块体、区块头等技术细节,研究了区块封装、存储和提取三个关键技术节点。不过,该模型目前停留在理论阶段,尚未研发出系统原型,对诸如共识机制等区块链实践的核心问题亦未提及。考虑到OAIS仅是参考模型和基本概念框架,而非电子文件管理强制标准,真实的电子文件管理实践并非严格遵循OAIS模型,所以可信保护框架模型的普适性还有待进一步检验。
2.4 ARCHANGEL项目[16]
ARCHANGEL项目由萨里大学联合英国国家档案馆等机构联合开展(2017年6月—2019年6月),目的为探索如何利用区块链技术确保公共数字档案记录的完整性,以及保证存档内容长期稳定、以不被篡改的形式展现,提高档案管理员和公众对数字档案的信任。英国国家档案馆既是建设方也是最终用户,其从档案专业视角评估项目的可行性、可持续性以及公众的认可度。
ARCHANGEL提供联盟链和公有链两种共识模式,方便档案机构根据实际情况灵活选择。该项目的工作模式是,当档案馆接收一份电子文件时,首先采用文件格式识别工具确定电子文件的格式(例如PDF、Word等),然后通过与格式匹配的哈希算法从文档中提取哈希值等内容证据。完成操作后,将电子文件存入档案馆中心数据库,将哈希值、全局唯一标识符(GUID)、哈希计算过程唯一标识符等内容证据一起存储在区块链分布式账本。一旦电子文件解密完成,公众便可以利用区块链验证电子文件的真伪及完整性。项目组在以太坊公共测试网上实施了ARCHANGEL原型,清晰呈现了上述过程。在实施过程中,通过英国国家档案馆开发的DROID(数字记录对象识别)应用程序来识别电子文件格式,采用经典的SHA-256哈希算法计算哈希值。用户界面主要呈现“上传(Upload)”“搜索(Search)”两项功能,前者用来上传电子文件副本,运算出哈希值;后者搜索存储在档案馆的电子文件哈希值,与前者运算出来的哈希值进行比对,如果两者一致即证明电子文件未被篡改。
ARCHANGEL项目从设计理念到原型实现,都抓住了区块链和电子文件管理的契合点,是目前最贴近档案实践的区块链项目。下一步,项目组打算研发特定算法以匹配特殊格式电子文件,比如拟采用深度神经网络(DNN)从视觉内容中提取稳健的视觉特征,该视觉内容对于该文档的外观属性(例如照明、老化)是不变的。对于这项计划,笔者持保留态度。第一,对于文档来说,现有加密完全可以解决电子文件保真需求,深度神经网络(DNN)更适合博物馆而非档案馆;第二,档案机构自行研究加密算法,用来验证自身保存的电子文件,相当于既当裁判员又做运动员,缺乏公信力。
3 应用前景
3.1 优化电子文件管理流程
确保电子文件“四性”的要求与目前信息技术手段有限的矛盾,导致了电子文件管理流程繁复,这个问题一直被档案从业者诟病,实际上也成为推进电子文件单套制、单轨制的主要瓶颈因素。区块链可以确保电子文件的真实性,而真实性又同时影响完整性。原有流程中确保电子文件真实性的技术手段,可以被区块链以某种形式替代。以元数据而例,区块链的引入可以减少元数据的种类、简化元数据封装标准,大大降低电子文件管理负担。再如,引用区块链可以减少电子文件对版式文件的依赖。以ARCHANGEL项目为例,该项目对不同格式电子文件进行类型识别,然后根据对应算法进行加密,即任何格式的电子文件都可以利用区块链来保障其真实性。
3.2 助力于档案解密和开放
在纸媒时代,档案具有载体和信息统一的特质,即物理结构和逻辑结构一致,档案解密和开放时被质疑的压力不大。而在数字时代,电子文件载体和信息可分离的特性容易导致公众质疑。区块链的技术特点可以长期有效保障电子文件的真实性,有助于档案解密与开放,ARCHANGEL项目即是最好的注解。比如,英国国家档案馆接收7/7恐怖袭击或Chilcot调查等电子文件,保密期限可能长达一个世纪。待解密开放之日,公众能够利用ARCHANGEL验证这些电子文件的真实性和来源。同时,区块链的智能合约功能,可以实现在电子档案保密期满后自动强制开放。档案解密和开放的难点在于,档案馆员需要对大量的到期档案进行二次鉴定并承担相应责任,以至于档案机构倾向于遗忘、回避档案解密和开放问题。如果在定密之时即利用技术手段明确档案开放日期,且无需二次鉴定,则档案解密与开放的矛盾将迎刃而解。当然,智能合约强行开放档案的风险需要得到恰当评估。
3.3 电子文件生成环境可能被改写
目前,关于“区块链+电子文件管理”的研究主要基于档案馆视角,忽略了区块链对电子文件生命周期上游生态产生深刻影响的可能性。比如,奥地利数据市场为了自身的可持续发展,委托奥地利理工学院开展“区块链和奥地利数据市场项目”,旨在通过区块链管理奥地利数据市场中的电子文件,确保数字记录的真实性、完整性和可靠性[17]。如果该项目付诸实践,奥地利数据市场中的电子文件本身即是在区块链系统中产生和管理。因为区块链系统本身具有档案馆属性,所以档案是否进一步归档有待实践检验。在此种情况下,档案机构的最优选择是,作为网络共识节点接入该区块链系统,并利用侧链技术接收其电子文件。
3.4 涌现商业模式的电子文件服务组织
档案机构收集管理特定范围的电子文件,无法满足全社会每个机构、每个个人的诉求。而利用区块链技术提供确保电子文件真实性、权威性的服务,将成为互联网创业的重要方向之一。而一旦法律认可区块链的凭证价值,未来各类型电子文件服务机构将应运而生。类似于图书馆领域,一方面公立图书馆仍然存在,成为社会不可缺少的公共服务机构;另一方面数字图书馆、网络搜索引擎(谷歌、百度)也成为人们生活不可缺少的一部分。