美国密歇根州档案馆电子文件云存储研究与启示
2016-02-03
云计算技术是近年来兴起的一项热门新技术,它在成本、效率和数据处理能力方面的优越性使其很快受到各专业领域的关注,并在众多领域得到积极应用。但随着2013年以来大数据概念的强势介入,云计算在档案学界的讨论热度有所降低。本文对美国密歇根州档案馆电子文件云存储实践进行研究,有助于更为理性地看待云计算在档案管理工作中的实际应用,避免对热点的盲从和曲解。
1 密歇根州档案馆电子文件管理历程与现状
美国密歇根州档案馆成立于1913年,其主要职能是保存密歇根州政府及其他公共机构的文件,也接收部分私人机构和个人的文件。密歇根州档案馆最早的馆藏可追溯至1792年,目前拥有超过八千万件来自州及地方政府或私人机构的文件、三十万份照片、五十万份地图和大量视频音像档案[1]。随着电子文件的出现和大量产生,密歇根州档案馆意识到对电子文件保存的重要性,于1977年开始对电子文件管理进行探索,于1986年至1994年间完成相关咨询报告,1996年开始设立电子文件档案管理员(ER Archivist)职位。之后数年间,密歇根州档案馆相继开展了一系列针对电子文件管理的研究计划,以应对电子文件对档案管理工作带来的全新挑战。这些计划分别为1999年的文件管理领航计划(Records Management Application Pilot Project, RMA)、2001年的电子文件保存计划(Preserving Electronic Records Stored in a RMA, PERM)、2003年的持久档案测试项目(Persistent Archives Testbed, PAT),以及2008年的分布式保管的档案保存环境项目(Distributed Custodial Archival Preservation Environments, DCAPE)[2]。密歇根州档案馆于2012年与英国的Tessella公司合作,选择该公司的Preservica服务进行电子文件云存储。
Preservica是一项由Tessella公司提供的云产品,能够确保数字内容的长期安全和可用。Preservica是Tessella公司“保险箱”技术(Safety Deposit Box,SDB)与亚马逊网络服务(Amazon Web Services)相结合的产物[3],且在标准上遵从OAIS模型与ISO标准。这一项目的部署使密歇根州档案馆成为美国第一个实践OAIS与ISO标准下云服务的州档案馆[4]。因此,密歇根州的电子文件云存储实践也成为档案管理史上一次具有里程碑意义的探索。
2 密歇根州档案馆电子文件云存储实践经验
2.1 准确的需求定位
密歇根州档案馆电子文件云存储实践的成功得益于多方面因素,其中最重要的莫过于对自身电子文件管理需求的准确定位以及档案工作者和相关部门的反复探索与长期研究。密歇根州文件档案管理员Caryn Wojcik指出:“正是由于我们在需求和目标定位方面付出了大量精力,我们在发现Preservica之初,就坚信它就是我们想要的”[5]。Caryn Wojcik一上任,就面临来自硬件和技术方面的两大难题。“首先是既缺少能够支持文件存储需求的电脑系统或数据中心,也没有足够的预算来实现它们;其次是州政府不打算雇佣专门的程序员来定制一个昂贵的解决方案。”[6]经过长时间的研究和探索,密歇根州档案馆最终将其功能需求概括为:一是遵从ISO标准;二是可负担得起;三是可以在没有内部IT支持下运行和维护,且工作人员操作不需要专业技术;四是具有安全的备份和灾难恢复手段;五是拥有自动化的摄取(ingestion)、保存(preservation)和传播(dissemination)过程;最后是拥有针对文件和元数据的退出策略(Exit Strategy)[7]。
而Tessella公司针对“小型”机构(“Smaller”Institutions)给出的电子文件管理解决方案Preservica,恰好满足了密歇根州档案馆的功能需求。它不仅拥有自动化的工作流,遵从OAIS与ISO标准,其基于云端的系统设计也满足了密歇根州档案馆“不需要购买软硬件,不需要专业IT人员,减少开支”的需求,两者可谓是一拍即合。
2.2 开放的商业合作
预算有限也许是密歇根州档案馆选择云存储的一大决定因素,而以低廉的价格提供优质高效的服务正是云存储相较于其他存储选择的一大优势,因此密歇根州档案馆没有选择自行研发,而是直接选择了成熟的商业化云产品,进行开放的商业合作。密歇根州档案馆选择的Tessella公司是一家在数字保存方案、技术、咨询和研究方面具有世界领先水平的国际化大公司,公司的客户遍及三大洲九大国家,包括英国国家档案馆、荷兰国家档案馆、澳大利亚国家图书馆等公共文化机构。公司能够针对不同类型和不同需求的机构,量体裁衣地制定出不同的数字保存方案,而这些方案背后则是Tessella公司专业的技术支持。
通过与Tessella公司合作,密歇根州档案馆不仅节约了在电子文件管理和保存方面的硬件和人力投入,削减了开支,同时在云技术的支持下,档案馆可以将存储在云端的大量电子文件投至线上直接提供利用,方便档案利用者利用档案。更为重要的是,在Tessella公司专业技术的支持下,电子文件管理中最令人头疼的迁移问题将迎刃而解,存储在云端的电子文件也将不再担心载体和格式失效的问题,Tessella公司会以专门技术保障云端文件不会因格式和技术问题失效,并定期对其进行维护和更新。进一步而言,“使用云也给了行政人员在存储数据格式上更灵活的选择,因为目前州政府大多数电子文件的格式都与归档数据要求相悖”[8]。可以说实现这样的商业化合作是非常明智的选择。
2.3 积极的配合措施
云存储虽然帮助密歇根州解决了电子文件管理过程中的不少问题,但并非所有问题都能得到解决。一方面,正如Wojcik所言“我们仍未处于一个万物电子化的时代”[9],大量的档案文件,特别是开放的历史档案文件仍处于非数字化状态。因此档案馆指出,除了现存云端可供利用的电子文件以外,“在研究者需要的情况下,档案工作者将会对立法会议的核式录音进行数字转化,以便提供利用”[10]。而选择合适的传统文件进行转化并存储于云端开放的在线环境,是档案馆责无旁贷的重任,必须谨慎对待。对此,密歇根档案馆实行逐件分析的方法确保工作质量。
另一方面,云计算为密歇根州档案馆带来的不仅仅是强大的存储功能和价廉物美的技术支持,更重要的是其作为一个全新的电子文件管理系统,是内嵌于档案馆整个电子文件管理工作过程中的一个环节。因此,围绕云技术重新构建一个工作流以配合技术应用也是必不可少的。为此密歇根州档案馆构建了多达十五个环节,细节完善的电子文件保存工作流程,确保新技术能够顺利与实践工作相融合。
3 密歇根州档案馆电子文件云存储的启示
3.1 云计算是手段不是目的
云计算作为一种“价廉物美”且高效优质的新技术,与档案工作结合,应用于档案与电子文件的日常管理和利用工作中,是顺理成章的事。但或许是云计算过于出色的效率和过于强大的能力吸引了研究者太多的注意,使得研究的思路往往从云计算本身出发,关注云计算“能干什么”“能实现什么”“能改变什么”,围绕云计算的强大功能,构建起档案工作在云环境下的全新模式和方法。在这样的思路中,组织机构本身的需求和目标往往最易被忽略。不同类型、不同规模的机构和组织,面对电子文件管理等数字时代的新挑战,产生的需求和欲实现的目标不尽相同。那些抛开了对机构本身的需求和目标进行详细分析,而直接从云计算本身的功能出发凭空构建出的云方案,其在实践工作中的适应性不得而知。
密歇根州档案馆云存储实践的成功之处,正是其从自身需求和目标出发寻求方案的解决之道。实践云计算并不是密歇根州档案馆的目标,云计算只是其解决当前问题的一种有效手段,是众多方案中一个最优而非必须的选择。密歇根州档案馆的选择是建立在其对自身的长期需求与目标定位的研究之上的,与其一直以来的电子文件管理实践探索一脉相承。无论云计算技术的功能如何强大,能实现怎样的工作,其本质仍然只是解决问题的一种手段。因而只有先分析自身的问题和需求,才能对手段进行选择和应用,反之则无法充分发挥云计算本身的强大能力。
3.2 云计算是技术更是服务
云计算作为一个全新的概念,对其含义的认知五花八门,其中技术层面的含义更为人们关注和熟知。从技术角度出发,可以将云计算定义为:“利用大量计算节点构成的可动态调整的虚拟化计算资源,通过并行化和分布式计算技术,实现业务质量可控的大数据处理的计算模式。”[11]这些充斥着专业术语的云计算定义,往往令没有计算机学科背景的研究者望而生畏。一方面,艰涩的技术难题似乎层出不穷,如“云存储的安全问题”“资源的调度问题”等等一系列问题摆在眼前;另一方面,专业的技术名词常常被误读和曲解。从该角度看待云计算,它所带来的问题似乎要比它能解决的问题还要多。
密歇根州档案馆实践云存储的过程,带给我们研究问题的新的角度,即云计算作为一个概念,并不仅仅只是技术上的革新,更是一种全新的服务理念。云计算概念的诞生与IT界传统的“电厂模式”密不可分,“电厂模式是利用电厂的规模效应来降低电力的价格,并让用户使用起来更方便,且无需维护和购买任何发电设备”[12]。“按需服务”是云计算最大的特色之一,其本意就是要让云计算的用户像使用水、电、煤气那样以按需付费的方式使用计算资源,直接享受服务,无需对每一个技术环节都亲力亲为。
密歇根州档案馆选择Tessella公司,充分发挥了其专业的技术优势,将传统的技术难题如电子文件的迁移备份等等都直接交由对方解决和支持。而Preservica本身即是由Tessella公司提供的一款“软件即服务”(Softwareas-a-Service)的服务产品。
3.3 云计算是希望而非神话
通过对云计算的应用,密歇根档案馆成功解决了其在电子文件和数字资源管理过程中遇到的棘手问题。可见,云计算的确是一款优良的问题解决工具,它的出现为解决当前电子文件管理工作中的顽症带来了希望。尽管如此,密歇根州档案馆在实践云存储过程中积极的配合措施提醒我们,云计算虽然拥有强大的功能和效率,但并非万能。
云计算为许多问题的解决带来希望,但它不是神话,无法解决所有的疑难杂症。作为一种技术和服务模式,云计算功能的发挥依赖于其运行的环境、组织和应用者。只有如密歇根州档案馆一样,清醒地认识到云计算的局限性,在应用新技术的同时辅以积极的配合措施,才能真正使其发挥云计算应有的作用。而我们在现有研究中对云计算进行的种种设想,实际上都不是单单依靠云计算就能够完成的,仍然需要一定的前提条件和配合措施。云计算能够实现资源的整合与共享,前提是现有档案管理体制能够打破藩篱,允许不同系统和地区的资源实现共享互通;云计算能够实现资源的海量存储和在线的大规模利用,前提是档案资源的解密、开放和数字化工作能够大规模地开展;云计算能够帮助实现电子文件的高效管控,前提是拥有配套的工作流程和明确的职责分工。
技术的变革并非仅仅只改变技术,同时也期待着思维与方法的变革。如何借鉴密歇根州档案馆的成功案例,在部署云计算方案的同时对现有的工作和体制做出相应的改变,是未来研究云计算应用的过程中必须思考的问题。
4 结语
面对信息技术飞速发展所带来的电子文件管理挑战,密歇根州档案馆大胆地尝试采用云计算技术进行应对,并取得不错的效果。但是,密歇根州档案馆的成功并非偶然,而是建立在其对自身需求的准确把握和对云计算技术清醒认识之上的。随着对云计算研究的不断深入,我们应当避免盲从热点,以更加冷静的态度和更为积极的视角看待云计算可能带来的工作变革。在对成功的国外案例进行借鉴时,不仅要看到相关机构对先进技术的大胆应用,更要关注其在技术以外做出的努力和探索。只有这样,才能冷静而理智地将云计算这一高新科技切实地运用于电子文件的管理和档案工作的日常实践中,使其真正成为推动档案工作实现信息化、智能化的有效助力。
注释与参考文献:
[1]About the Archives of Michigan[EB/OL].[2016-01-29].http://www.michigan.gov/mhc/0,4726,7-282-61083-332218--,00.html.
[2][7]Archives of Michigan.Electronic Records Preservation Solutions[EB/OL].[2016-01-29].http://nagara.org/images/downloads/2014_Michigan_E_Records_Forum/electronic_records_preservation_solutions.pdf.
[3]Preservica: Digital Preservation in the cloud[EB/OL].[2016-01-29].https://lib.stanford.edu/files/pasig-oct2012/15-Sharpe_Preservica_Digital_Preservation_in_the_cloud.pdf.
[4][5][6]John Breeden.Forever accessible archives?Michigan moves its records to the cloud[EB/OL].[2016-01-29].https://gcn.com/articles/2014/03/05/michiganarchives.aspx.
[8]Sean Shado.Michigan Moves Historical Archives into the Cloud[EB/OL].[2016-01-29].http://www.cloudwedge.com/2014-michigan-moves-historicalarchives-into-the-cloud/.
[9][10]Michigan moves digital archive records to cloud[EB/OL].[2016-02-01].http://www.battlecreekenquirer.com/story/news/2014/04/20/michigan-moves-digital-archive-records-tocloud/7946089/.
[11]刘军.Hadoop大数据处理[M].北京:人民邮电出版社,2013:30.
[12]吴朱华.云计算核心技术剖析[M].北京:人民邮电出版社,2011:5.