APP下载

英国国会云数字档案馆研究

2016-05-16程妍妍南京政治学院上海校区军事信息管理系

浙江档案 2016年8期
关键词:服务商国会档案馆

程妍妍 朱 强/南京政治学院上海校区军事信息管理系

近年来,各国政府都在大力推行云计算战略。2011年,英国政府制定《政府云战略》(Government Cloud Strategy),规定所有政府部门在采购新信息技术产品或是对原有系统更新换代时,都应优先评估和采用云计算服务,机构也可以选择传统的硬件采购模式,但是必须能够证明这种模式的投资回报率优于云服务。该策略的推出明显加速了英国政府和公共部门向云过渡的步伐,据数据分析统计[1],到2018年,英国政府部门比企业在云计算方面的投入每年将高出35%左右。在该战略的影响和推动下,国会档案馆成为云优先政策的首批受益者,并且成为英国国会第一个应用云来存储和管理电子档案的部门。该馆建立的云数字档案馆在基础架构、真实性维护、安全等方面都积累了宝贵的实践经验,可以为我国文件和档案机构尝试引进云服务进行档案存储和利用、提高档案保管质量、降低数字档案馆运营成本等方面提供有益思路和借鉴。

1 英国国会云数字档案馆建设背景

英国国会档案馆负责保管英国国会的历史文件并提供利用,其馆藏范围包括英国国会形成的文件和一些国际历史文献,馆藏档案来源复杂、类型多样,包括从英国国会电子文档和文件管理系统(SPIRE)中接收的数字文件、英国国会新闻发布活动中形成的数字档案和对部分传统纸质文档扫描形成的数字扫描件。档案馆同时也负责国会的Web官方网站(parliament.uk)归档,以及对第三方文件形成渠道形成的文件归档,如对社交载体上的文件归档。2010年,英国国会档案馆开始启动数字档案馆项目,该数字档案馆目前已正式运行,采用云计算服务进行档案存储和管理,截至2015年1月,云数字档案馆已经采集了超过14TB的文件,在未来4年至少要重点采集80TB的数字档案,其预测采集和管理的音视频数字档案数量将迅速达到PB级。数字档案馆通过英国政府推行的G-Cloud云服务框架采购云服务,G-Cloud框架中提供的云服务形式多样,包括软件服务、平台服务、基础设施服务和专业化的数字归档服务等,以满足政府部门云服务的不同需求。

2 英国国会云数字档案馆基础架构

英国国会云数字档案馆基础架构主要包括三个部分:核心区、利用区和涉密存储区(见图1)。(1)核心区:数字档案馆核心架构是位于国会内部网络的数字档案馆主系统,使用Preservica公司提供的商业软件Preservica Enterprise Edition,其前身是Safety Deposit Box。数字档案馆主系统从各种内部系统(文件、文档管理系统等)和数据来源中采集数字档案,采集档案的同时提取其著录元数据,元数据录入数字档案馆主目录管理系统,和传统物理馆藏的著录条目一同存储和管理。

在核心区,数字档案馆的公开内容存储在云中,所有内容采用镜像备份的方式保存在两个不同的云服务商处(云一级存储和云二级存储)。两个云存储服务在EMC Atmos、Amazon S3 Web Service不同的技术平台上运行。(2)利用区:利用区主要提供两个镜像,一是元数据镜像,核心区中主目录中的著录元数据被镜像复制到公共的、基于Web目录管理前端的Portcullis目录系统,供Web检索和查询使用;二是数字档案馆系统镜像,核心区数字档案馆主系统中的公开馆藏被镜像复制到利用区的数字档案馆系统中,公众通过Portcullis目录系统检索发现馆藏档案,然后数字档案馆系统将其定位至登录页面,告知用户内容的具体访问方式。一般情况下,登录页面可以直接访问浏览或下载数字档案,当档案复制件不提供在线利用或必须收费利用的情况下,用户会被导向至其他访问系统中。(3)涉密存储区:数字档案馆非公开、涉密内容存放于内部磁盘存储上,在两个数据中心里提供镜像,并且提供传统的备份服务。从涉密存储区可以看出,为了安全,数字档案馆将公开内容存储在云中,而涉密内容则存储在内部的存储平台上,与云隔离。在兼顾涉密信息安全性的同时,云存储服务支持国会档案馆提供灵活、可扩展和节约成本的长久保存存储能力。

图1 英国国会云数字档案馆基础架构

3 英国国会云数字档案馆建设经验

在建立云数字档案馆的过程中,英国国会档案馆清楚地证实了数字档案信息的云长久保存不仅仅是一个技术问题,而是一个涉及到法律法规、真实性、安全性、合同协议等各方面的复杂工程。

3.1 云数字档案馆建设应遵循国家法律法规要求

数字档案馆建设使用云服务,特别是一些跨国公司云服务时,服务器可能位于境外,违反本国相关法律法规要求:(1)政府文件特别是核心文件存放在境外,会违反本地文件和档案管理法规对涉密文件管理要求;(2)文件实际存放地和文件形成地区档案管理的法律法规效力并不等同,意味着存放在文件形成区域以外的文件无法受到和本国相同级别的法律保护;(3)文件存放在境外,很可能会受到存储地区法律法规的控制和约束。例如,美国的《爱国法》规定,美国政府有权对存储在美国境内的任何数据进行审查,即使信息所有权不属于美国,这就意味着如果政府部门使用的云服务商,其基础设施位于美国,那么就有可能在对云服务商进行司法调查等特殊情况下,政府电子文件有可能在不被征询甚至通知下,被美国法律要求强制公开利用。为保证和法律法规保持一致,英国国会云数字档案馆建设前期,就对相关法律法规进行调研,特别是英国信息自由法和数据保护法,明确相关法律需求,并以合同条款的形式明确写入云服务合同,强制遵照执行,即按照英国法律要求,确保云服务存储的所有数据都必须保存在欧盟经济区内,满足欧洲隐私法,不受其他管辖区法律,如不受美国《爱国法》的影响。

3.2 云数字档案馆信息安全策略

档案馆采用云存储和本地系统存储,都需要面临同样的安全问题,例如非法侵入、恶意篡改、非法利用等。目前,云服务存在特殊的安全问题:第一,档案馆系统可能会间接受到安全风险攻击的影响,例如,云服务器遭受拒绝服务攻击,使用同一个云服务器的多个客户都会受到影响;第二,数据隔离的风险,即由于使用同一个云服务的可能有多个租户,其他租户可能具备访问档案馆数据的能力。

针对这些安全风险,国会数字档案馆采用了三种方法解决。第一,只采用云存储公开档案,而涉密档案存储在单独的内部系统中。第二,通过合同明确定义安全需求,例如,要求对安全威胁进行监督并及时报告任务,对云服务商员工实行安全审查、设置访问权限、进行监督、下发安全违例通知、依法公开云数据接收司法调查等,避免出现安全职责不清、出事互相推诿的现象。第三,在需求分析阶段对云服务商进行审查,引入通过英国政府信息安全标准认证的云服务商。事实上,通过G-Cloud框架采购的云服务都已经通过英国政府安全认证,达到一定的安全等级标准。如有些云服务商被赋予存储低安全等级,而有些云服务商被赋予存储更为敏感涉密等级信息的资质,这样可以给G-Cloud用户更多的选择,并且简化了国会数字档案馆的采购过程。国会数字档案馆在未来,很有可能会选择那些具备存储更高等级信息资质的云服务商,实现在云中存储涉密数据。

3.3 云数字档案馆应长久维护数字档案完整性

长久维护数字档案的完整性是数字档案馆的基本任务之一。实现数据完整性意味着数据要在长久保存过程中不被篡改,并且具备在遭受灾难、云服务失效和变更的情况下仍然保持完整性的能力。对大量数据完整性的长期管理一直是云存储难题之一,LOCKSS公司创始人David Rosenthal曾经指出云端数字信息完整性的长久保存问题“在某种程度上是无解的,你永远不知道问题是否真正解决”[2],并且他以一个最简单的案例说明了长久保存的难度:一个包含一个Petabyte数据的黑盒,要在100年后仍然保持数据的完整性,并能够提供用户检索,实现这个目标所需要的云服务能力远远超过Amazon S3云服务现有的数据保管能力,而Amazon S3是目前使用最为广泛的云存储平台。根据Rosenthal计算得出的结论是,在100年的时间里,这种量级的数据一定会有一定程度的损失。正如他所说的:“我们正在丢失数据。数据丢失的程度取决于我们对数据存储的投入。我们投入的越多,数据越安全。但很不幸的是,这种投入也存在边际递减效应。”[3]所谓边际递减效应指的是,即使我们对数据的长久保存加大投入,不断提升数据的完整性,但是投入到了一定程度,数据的完整性就不会再随着投入而继续提升,因此要确保数据在较长时间内保持百分之百的完整,几乎是不可能实现的任务。

进一步说,云存储系统本身的耐久性也难以确定。尽管云存储服务商会对系统提供耐久性等级分类,例如Amazon S3声称提供99.999999999%的持久性,即每存储的10000个对象中每一千万年仅丢失一个对象,但是这样的声明基本没有任何的科学依据,并且在合同条款中云服务商一般也不会承诺这样的耐久性,所以这种声明的真实性是具争议的。另外,云中也存在一些非技术性因素影响数据完整性,例如,当云服务商停止运营,或是发生合同争端造成合同终止的时候,都有可能发生数据丢失的风险。

当然,这些影响数据长期完整性的问题也不仅仅是云特有的,数据以任何方式长期存储,都会碰到类似问题。任何需要长久保存的档案都会遭受丢失或损毁,无论是在纸质档案时代,还是在云计算时代。档案工作者的角色定位之一就是为减少档案信息丢失、维护档案信息长久完整性的档案保管员。

在维护数字档案长久保存完整性方面,英国国会数字档案馆采取了一些实用性的方法降低风险。第一,同时使用两种云服务:数字档案馆采购了两个云存储服务商提供的产品,馆藏内容同时复制存储在两家云服务中,每一个云服务商保管所有内容的多个备份,且至少在两个处于不同地理位置的数据中心进行备份,还要使用纠删码技术对数据提供额外保护。两个云服务商使用完全不同的技术,可以避免使用某一种技术带来的风险和威胁。考虑到许多云服务商的服务是转包的,多个竞争的服务商经常使用同一个数据中心,因此选择云服务商时仔细考虑,确保两个服务商在技术、地理和组织上都不相同。使用两个云服务商提高了国会数据存储的持久性,并且有效防范了被一家云服务商孤立而导致数据丢失的风险。第二,对馆藏档案定期进行完整性检查:使用云存储对内部馆藏软件提出了如何执行存储内容完整性检查的问题,尽管Preservica提供完整性检查工具,但考虑到技术、成本和性能的因素,国会数字档案馆决定不使用该工具对云存储进行检查。其一,每一个云服务商会存储每一个对象的多个拷贝,这些拷贝对终端用户是隐藏的,因此无法采用Preservica检查云存储上每一份拷贝的完整性,只有通过云服务商对整个数据集提供的校验值来检查完整性;其二,为了执行完整性检查,Preservica自带工具必须从存储中检索出每一份文件进行检查,而云服务商对每一次检索和下载都会进行收费,因此国会数字档案馆需要为每一次完整性检查下载的文件进行付费,这其中的成本相当高昂。另外,定期下载档案馆的全部内容也是不现实的,档案馆的数据量已经超过上百个TB级,而通过互联网连接,也是相当花费时间的。为了进行完整性检查,数字档案馆选择在采集时使用Preservica进行完整性检查,以及当数据从存储中检索时进行检查,而不是当数据采集后存储在云端进行检查。云服务商对其内部拷贝执行定期完整性检查,经过实践,这些方法具有较强的实用性。另外,采用两个独立的云服务商存储拷贝、使用不同的平台,降低了影响同一个对象无法恢复的几率。

对于内部涉密存储对象,数字档案馆使用Preservica自带的完整性检查工具,为了避免网络过载,每次检查1000个文件,每一个文件每30天检查一次,通过系统可以轻松配置完成完整性检查任务。

3.4 云数字档案馆的弹性和可移动性

在数据量以无法预知的速度不断增加的情况下,云服务提供的灵活性非常吸引人。云服务的初期配置简单迅速,可以弹性扩展满足实际需求,这也是促使国会数字档案馆采用云服务存储公开内容的主要驱动力之一。由于大部分机构馆藏量不断增长,这种根据需求弹性扩展的功能对于长久保存来说非常重要。

在云的背景中,可移动主要指数据从一个云服务商向另外一个云服务商移动。尽管每个云服务商都提供数据的导入和导出功能,但应当强调的是,由于数据在云服务商之间移动非常费时和困难,合同中应清楚地明确在这方面云服务商的职责条款。采用现有带宽,国会数字档案馆很难通过互联网进行移动和传输,因此,使用物理存储载体将是唯一的选择。但在现有技术条件下,移动双方的完整性校验过程非常费时,要消耗数周甚至是数月的时间。云的主要优势之一就是灵活性,即在云服务商之间轻松移动,确保满足机构需求。但是,除非数据移动正好处于服务变更约定的时间,否则机构被云服务商锁定的风险机率就会增大。短期来说,国会数字档案馆通过使用两个云服务商来解决这个难题,故意在合同条款中错开时间,确保数据从一个服务商向另外服务商移动有充足的时间。长期来说,最好是数据移动技术能够发展,无论是在线传输还是离线传输技术,都能够跟上数据量的发展速度,或者是出现竞争力的市场推动云服务商提供更好的数据移动解决方案。

3.5 云数字档案馆的成本模型

云服务商通常按照资源使用收费,客户一般根据存储数据量按月付费,以及数据量的上传和下载流量进行付费。这和传统的基础设施成本模型非常不同,传统基础设施成本主要包括先期的资本投资以及每年的运行维护费用。云成本模型明显的优势是不需要大量的初始投资,费用和使用率直接相关,避免对未使用的资源付费。但从载体和长期成本来说,很难明确云服务的费用问题,因为在云环境中,机构很难准确预测未来数据存储量和采集率等。由于国会档案馆大部分采集的档案来自数字化项目,对传统档案的数字化部分产生的数据量是可以估计的;作为机构档案馆,对未来接收的档案量也是可以预测的。但是,向云存储环境移动仍然需要采用新的财政计划方法和成本估算模型。

国会数字档案馆在评估云服务成本时采取了一种成本建模方法,得出在未来八年,云服务将比传统的数字档案馆建设成本显著降低的结论。但是,这种建模方法不可避免地包括了一些内部和外部的假设性因素,建模的结果会根据这些因素而变化,因此结论还有待实践验证。部分研究人员对此结论持有异议,提出从长期来看,云服务成本可能会对档案数据传统存储更高,但是这些研究结论都需要进一步验证和分析,并且需要结合数字档案长久保存的经济来源进行分析。

3.6 云数字档案馆和现有基础设施的集成

云存储和国会档案馆现有基础设施的集成遇到了很多实践问题,例如网络使用代理服务器,这就需要修改云存储适配器去适应应用代理。一些云服务商管理IP地址段的方法不符合现有国会网络政策,需要对国会网络基础设施进行根本修改。另外要对体系架构修改,确保对大数据量的临时采集,而不会影响国会网络的其他系统,这就需要使用专门的服务器和互联网连接。尽管和现有组织机构IT基础设施集成的技术问题不容忽视,但从实践来看都是可控的。国会数字档案馆系统Preservica采用“存储适配器”概念,即不同存储环境的接口解决基础设施集成问题,在Amazon存储适配器基础上,国会档案馆又开发了EMC Atmos适配器。Preservica可以轻松配置,决定各类内容存储的适配器类型,并且提供在适配器间移动内容的方法。

4 结论

国会云数字档案馆建设经验证明了在数字馆藏环境下运用云是可行的,云的出现可以降低档案馆数字长久保存工作的门槛,且基础设施强健、可扩展。和任何方法一样,档案馆必须充分理解实施这种方法伴随的风险和应对措施,云的风险和其他存储技术风险相类似,其他技术的风险规划战略也可以受益于云计算,从长期来说,经济成本和数据的移动性问题会一直存在,但都不是拒绝使用云的理由。从国会数字档案馆的建设模式来看,国会云数字档案馆并不是完整意义上的全云化运行,只是将档案存储功能的一部分交给了云,而那种全云化运行,专门为云打造的数字档案馆系统,例如新一代的PreservicaCloud系统和DuraCloud系统面临的各种问题会更多、更富挑战性。国会数字档案馆使用云作为数字馆藏基础设施的特殊部分,在很多方面和传统系统模式并无不同。但是,使用云却将很多一直就存在的风险和问题带到了前端,并且扩大化。可能使用云产生最根本的变化就是将档案馆的一部分责任交给了第三方,这就需要在合同中明确定义信任和透明度方面的问题,避免在档案馆期望和服务商责任之间产生疑问。因此,明确、实践和适用的合同及服务等级协议是非常重要的。

另外,文化遗产机构面临长期保管数字资源的任务,但现有很多云服务实施目标针对的都是短期效益,这两者之间是否会产生冲突?当然,在数字领域这种问题一直存在,不仅数字内容本身存在短暂性,就连管理数字内容的基础设施都是短暂的,因此这种挑战是长期存在的,而云的出现只是再一次强调了这个问题。数字长久保存需要不断的、积极的、主动的管理,而无论其是否处于云环境或是其他环境中。

注释与参考文献:

[1]Adrian Brown, Christopher Fryer.Parliamentary Archives, United Kingdom achieving Sustainable Digital Preservation In The Cloud[EB/OL].2016-5-22.http://www.dlib.org/dlib/march15/oliver/03oliver.html.

[2][3]Rosenthal,EverCloud workshop[EB/OL].2016-5-22.http://blog.dshr.org/2014/04/evercloudworkshop.

猜你喜欢

服务商国会档案馆
航天卫星领域专业服务商
论IaaS云服务商的著作权侵权责任
云南省档案局办公室关于表彰2018年度《云南档案》优秀通联组及发行先进单位的通报
“机构强似人”:资政院对清季国会请愿运动的推进
全省部分档案馆新馆掠影
when与while档案馆
期刊展示宣传服务商
“娘子军”
2014中国金服务·十大杰出服务商
科隆档案馆突然坍塌