数字仓储可信保障研究
2022-11-25翟宛东
翟宛东
摘 要:数字信息长期保存是我国档案事业关注的重点问题,能否通过构建可信数字仓储实现数字信息的长期保存与存取,是我国档案事业在未来的发展中值得思虑的问题。Core Trust Seal Trustworthy Data Repositories Requirements(2020–2022)从组织架构、数据对象管理和技术三个维度16个角度开展可信保障工作评估。本文分析其整体框架得出,提升数字仓储可信度的准则在于确保所存储数字信息资源的真实性、完整性、安全性和可用性,数据可信是数字仓储可信的关键。在此基础上,进一步思考保障数字仓储可信度的核心问题,为数字仓储机构提升自身可信度提供参考。
关键词:数字仓储;数字信息;长期保存;可信
Abstract: Whether the long-term preservation and access of digital information can be realized by building a trustworthy data repository is a question worthy of consideration in the future development of China's archival undertaking. Core Trust Seal Trustworthy Data Repositories Requirements(2020–2022)evaluates the work of credibility assurance from 16 perspectives and three dimensions: organizational structure, data object management and technology. By analyzing its overall framework, this paper concludes that the criterion to improve the credibility of data repositories is to ensure the authenticity, integrity, security and availability of stored digital information resources, and the data credibility is the key element. On this basis, the core issues of ensuring the credibility of data repositories are further considered to provide reference for data repository institutions to enhance their credibility.
Keywords: Data repository; Digital information; Long-term preservation; Trustworthy
2020年3月30日《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》发布,将“数据”纳入与土地、劳动力、资本、技术并列的生产要素,[1]数字信息资源被视为国家重要信息资产,对知识积累、文化记忆和经济社会发展等发挥着重要作用,对数字信息资源的保存成为保护人类文明记忆、提高一国国际竞争力的重要因素。[2]可信数字仓储的构建与实施也是实现数字信息资源长期保存与存取的一项重要任务,其中可信保障又是构建数字仓储的焦点问题。
《信息与文献 数字文件第三方可信数字仓储》中将可信度保障进一步分解为,保障数字文件的真实性、可靠性、完整性和可用性。[3]Lin Dawei等作者认为,数字仓储必须提供透明、真实和可核查的实践证据,利益相关者可以确信数字仓储在约定的时间内有能力确保数据的完整性、真实性、准确性、可靠性和可访问性。[4]
数字资源是构建国家记忆的基础,资源的多寡、可获取性和可用性等影响着国家记忆的构建效果。为此,亟须建立总量丰富、存取方便的数字仓储,以更好满足国家记忆的资源需求。[5]
当前国内对可信数字仓储的研究主要集中在数字信息资源的长期保存、数字仓储构建和可信数字仓储的认证。金彤认为,在当今世界TDR的理念甚为重要,任何信息保管单位都面临保存与利用工作中的种种困难。TDR有着广阔的发展前景,但目前来看并不乐观。联合其他项目进行综合性的研究与推广,同时推进标准的国际化。有利于提升TDR的认可度。[6]
徐拥军等作者在介绍加拿大图书档案馆可信数字仓储数字保存策略的基础上,指出我国可以在协作、标准、前端控制以及数字资产摄取环节这几个方面借鉴其成功经验,探索适合我国数字资产的保存策略,构建统一集成的国家数字资产体系。[7]
王晓山认为,高校构建可信数字仓储,应围绕可信数字仓储的属性框架及责任框架,明确目标、落实责任,制定并逐步完善政策,积极争取资金支持,夯实IT基础管理,积极进行实践。[8]
杨璐认为,数字资源的管理本身就具有一定的风险性,数字仓储中保存有大量数字资源,未被认证的数字仓储不能被信任,只有“DR”转化为“TDR”时,才能够保证这一仓储值得信赖,贸然将资源存放于未被认可的数字仓储中增加了数字资源长期保存的风险。可信数字仓储认证是数字档案馆建设的必然要求。[9]
CoreTrustSeal数字仓储认证为评估数字仓储是否可信提供了基准,并有助于确定数字仓储的优缺点。《Core Trust Seal可信数字仓储指南(2020-2022)》(以下简称《指南》)是由WDS及Data Seal of Approval(DSA)组织联合推出的认证体系,[10]从组织基础架構、数据管理、技术能力等三个大的维度,对数据知识库的工作使命、专家团队、数据质量控制、工作流、硬件基础、数据安全等16个角度进行评估,致力于促进可持续发展和可信赖的数据基础架构。
《指南》旨在为可信数字仓储提供认证服务,其适用范围非常广泛,不仅包括档案馆,还包括图书馆、博物馆、机构知识库和出版物存储库等。通过获得认证,数字仓储可提供证明其可持续性和可信赖性的证据。
1 《指南》的思路及其核心
1.1 《指南》的思路。《指南》从组织架构、数据对象管理和技术3个维度、16个角度开展可信保障工作评估,见图1。
《指南》明确提出针对组织架构的要求是:数字仓储要有充足的资金支持,并且要配备较高专业素养的工作人员,通过明确的制度管理以确保所存储数据的长期保存和获取。其中使命/范围、许可/授权、访问连续性、保密/伦理、专家指导都是组织架构中密切相关的内容。
由图1以及《指南》中的详细描述分析得出其整体思路是:数字仓储需要具备完善的组织架构,有组织有计划地开展数字对象管理工作,并借助一定的信息技术来保障所存储数据的安全、真实、完整和可用,以保证用户对数据合理的访问、获取和理解。在可信数字仓储的要求中,完善的组织架构是对数据进行管理和长期存取的基础,对数据对象的管理以及采取安全技术措施是为了确保所存储数据的长期保存和利用。
1.2 《指南》的核心观点。从《指南》整体思路可以看出其核心观点,即数字仓储机构通过科学的手段管理所存储的数据,保证其真实性、完整性、安全性和可用性,达到对所存储数据的长期保存与可理解的目的,以发挥数字信息资源自身重要的价值,满足用户的合理需求。
《指南》中明确要求,数字仓储的使命是对其管理域中的数据提供长期保存和访问服务;数据对象管理的目标是确保数字仓储要保证数据的完整性和真实性;采用技术手段的目的是通过使用适合的软硬件技术,保护数据、用户等方面的安全。《指南》中“access”“reuse”等具有获取和利用含义的词,与“integrity”“authenticity”“security”具有完整、真实、安全含义的词交叉重復出现50余次,这些词汇将数字仓储的组织架构、数据对象管理和技术紧密联系起来。由此可见数字仓储的可信保障要以保障电子文件的四性为准则。
2 《指南》的主要内容
《Core Trust Seal可信数字仓储指南》对可信数字仓储提出了各项要求,希望数字仓储在达到可信数字仓储认证的各项要求的过程中,不断地提升数字仓储的可信度,实现数字仓储的可持续发展。
《指南》的主要内容包含16个方面,结合相关材料将其归为三大类进行论述。
2.1 使命目标和法规伦理。《指南》中数字仓储的使命和访问连续性要求与数字信息长期保存与存取的目标一致,能够满足人们对数字信息资源管理的要求。使命是根据应当承担的社会责任、义务以及由自身发展而规定的任务,数字仓储的使命是保证其管理范围内数据的有效访问和长期保存,为数字仓储管理目标的确立与战略的制定提供了相应的依据。使命担当在数字仓储可持续发展中起着统率作用,而目标是数字仓储开展具体工作的方向,它就像一颗引导星,为数据管理工作引导方向。
《指南》中数据完整性、评价、数据质量、数据发现和识别、数据重用以及安全,这六个方面从不同的角度描述了数字仓储在开展数据管理工作的过程中要达到的目标:保障管理域数据的真实性、完整性、可用性和安全性。
《指南》中在对许可和保密的要求中明确提出,各项相关数据管理工作的开展都要以遵守相关法律法规和道德规范为前提,并制定所有与数据访问和使用相关的使用许可,这些要求与我国电子文件安全管理的要求不谋而合。法律是国家制定或认可的行为规范,法律是最高的社会规则。伦理道德在本质上是一致的,是调整人与人之间以及个人与社会之间关系所提倡的行为规范的总和。
如图2所示,提升数字仓储可信度的关键在于保障数据可信。这就要求数字仓储在管理数据过程中,要始终遵守法律法规、伦理道德,在使命的指引下制定数字仓储可持续发展战略,与此同时,既要保证数字仓储物理环境的安全,也要采用软硬件技术手段保证管理域数据的安全,从而满足所存储数据的可信要求。
2.2 战略规划和详细计划。《指南》中组织架构维度访问连续性要求,数字仓储要制定一个连续性计划,保障所存储数据的长期访问和存取。保存计划方面的要求描述了数字仓储应该有计划地开展数据管理工作,并形成相关工作记录;记录存储程序方面要求数字仓储在进行数据的归档存储时应当采用文档化的流程,记录完整的数据管理过程;工作流方面也要求对数据获取到数据分发的工作流程中形成的相关数据进行归档。从数据对象管理要求来看,保障所存储数据的完整性和真实性是数字仓储可信的前提条件。
数字仓储的构建并不是传统的档案管理思维与计算机技术的简单堆砌,数字仓储的可信保障是一项持久且与时俱进的系统工程。这就要求数字仓储机构在构建数字仓储之前要做好长远规划,积极响应国家数字信息资源战略及各项政策的号召,顺应数字信息资源长期保存与存取的发展潮流,结合机构自身发展态势以及其业务能力找准定位,认真做好关于数字仓储未来发展的战略规划。
与此同时,数字仓储机构还要做好充分的准备,在遵守国家法律法规的前提下,结合相关信息管理和档案管理标准,制定出满足数字信息资源长期保存要求且能够适应信息技术发展的规章制度与具体工作流程等各种详尽计划。
2.3 组织基础设施——“软硬”兼施。《指南》中在组织架构维度要求,数字仓储的构建既需要合格的工作人员、足够的资金,又需要专家团队支持,并且要制定明确的管理制度,以确保数字仓储管理任务的有效执行。在技术维度的技术架构方面要求,数字仓储管理要有良好的操作系统和其他核心软硬件技术来共同保障数据管理工作的有效又安全的开展。因此在构建数字仓储时,先进的软硬件技术设施和优良的专家团队是维护数字仓储正常运转的必备条件。
数据对象的管理工作需要在安全保密场所、借助计算机等设备开展进行,数字仓储的构建同样离不开物理环境的支持。数字仓储机构在安全保密工作场所的选择、涉密计算机服务器等硬件基础设施的配备以及相关数字信息资源管理信息系统和技术的采用方面,无一不需要充足资金的投入。
此外,为了保证管理工作的有序开展,离不开专家团队的指导和支持,同时需要配备管理型人才、具备扎实计算机专业的技术型人才,以及档案学等专业信息型人才。对工作人员定期进行安全保密、专业知识技能等培训,提高他们的安全保密责任意识和专业知识素养;积极征求工作人员的意见,为工作人员提供隐性知识交流机会、促进知识共享,创造性地运用知识来提高工作人员的工作能力与数字仓储机构竞争力和服务能力。
3 数字仓储提升可信度的关键
3.1 协同合作构建。可信数字仓储的构建需要多方共同参与,协同构建是数字仓储可以考虑选择的模式之一。建议协同构建的主要原因如下:
一方面,可信数字仓储的管理具有交叉融合的特点,不仅仅需要具有档案学专业知识的人才,也同样离不开计算机技术型人才的参与;另一方面,可信数字仓储的构建需要一定的资源支撑,多方合作能够节约资源成本,发挥各方资源优势,从而达到事半功倍的效果。如高等院校能够为其输入具有档案学、计算机等专业背景的人才;信息管理方面的公司能够为其提供资金方面的支持等。
2018年成立的苏大苏航档案数据保全中心,就是一个协同构建的成功案例。苏大苏航档案数据保全有限公司采用产学研一体化模式,是由苏州大学、苏州工业园区苏航档案服务有限公司、上海泰宇信息技术服务有限公司合资成立的,专业从事档案数据保全服务的高新技术企业。
在协同构建过程中各个机构不仅能够互相支持,还能够起到互相监督的作用。此外,数字仓储可信度的提升还有赖于组织的信息公开,增加数据对象管理规范的透明度,理所当然地能够增强用户群体对数字仓储的信任感。建议可信数字仓储在管理电子档案及其元数据的同时,将其参考的电子文件与元数据方案相关的法律法规(如《电子文件归档与电子档案管理规范》(GB/T 18894-2016)、《文书类电子文件元数据方案》(DA/T 46-2009))等,详尽陈列在数据管理规范参考依据当中。
3.2 全過程管理理念。数字仓储的管理离不开切实可行的规划,也离不开全过程的管理理念的指导。这就要求数字仓储管理者要树立全过程管理思想,在数字仓储构建伊始,就要牢记保证数据长期保存与获取的使命,并在这一使命的指引下明确目标,进而形成切实可行的战略规划,将其融入具体的数据管理流程当中。
数据仓储要制定明确的数据接收制度,与其相关的元数据也要一并接收。在进行接收时要遵循严格的工作流程,并办理相关的交接手续,保证接收过程的责权明确,从源头上保证所接收数据的可靠和可信。[11]在接收数据时要对数据的真实性、完整性、安全性和可用性进行检测,之后再开展鉴定工作,对满足要求的数据及其元数据进行封装归档。归档工作结束后,并不意味着整个数据管理过程都要结束,在整个数据管理过程中仍要不定期地开展“四性”检测工作。
同时,数字仓储要制定访问连续性计划,对其所存储数据进行分析、赋予检索标识,为合理地访问和获取所存储的数据奠定基础,同时要有足够的元数据来支持数据的重用,帮助用户理解和使用数据,见图3。
此外,在开展具体的数据管理工作时,要及时记录实际的操作流程,并形成相应的文本化文件,以备日后查证考究。为了确保数据的长期可读性,既要保证所存储数据的完整,又要保证相关元数据的完整。
元数据是保障电子文件四性的有效手段,它可以跟踪和记录文件在整个生命周期中的状态、结构和完整性。因此在数据管理过程中,不仅要以文本的形式及时记录管理工作的过程,还要利用捕获等技术手段及时捕获与所存储数据相关的元数据,以达到数字信息资源长期存取与可用的目的,从而增强数字仓储的可信度。
3.3 技术。数字信息的形成依赖计算机等软硬件设备,数字仓储的构建和维护同样也需要大量软硬件技术的支撑。在信息安全层次中,安全物理环境、软硬件技术共同保障信息的安全的要环节。根据计算机发展的“摩尔定律”,计算机平台更新换代的周期平均为18个月,新设备、新的处理方法与软件以2~5年为一个周期更新换代。
随着科学的发展,计算机技术的更新换代周期甚至会更短,这就导致数字仓储在整个存储与提供利用的过程中会面临着一些安全性方面的挑战。因此在构建数字仓储时,强大的软硬件技术和安全保障措施是促进数字仓储可信不可或缺的条件。这就要求数字仓储在接收客户所提交的数据信息包时,采用高技术、新手段来实现数据的完整接收和准确读取。此外,所存储数据的安全保障,包括保证数字仓储物理环境的安全,以及采用信息加密技术、信息认证技术等技术来保证电子档案内容逻辑上的准确。
由此可见,保障所存储数据的安全也离不开信息技术的支持。在数字环境中维护信息的可存取性主要问题不在数字媒体,而是使数字信息如何随技术更新而一代一代向下流传。因此在对电子文件实施载体和信息安全保护基础上,可信数字仓储还要借助信息拷贝、迁移、仿真、再造等技术实现数字信息的长期可存取性。
最后,数字仓储机构还要积极引用适用于数字仓储管理工作的各项技术,并结合具体的数据对象管理工作进一步地进行优化和创新开发,以更好地配合数字仓储机构的实际管理工作的正常运转。
4 结语
数字仓储的可信保障分析研究可以支持规划、协助组织提高数字信息长期保管的连续性,并增加数字仓储的透明度和对社会的责任。《指南》对构建可信数字仓储具有参考价值,以期提升数字仓储的可信度,赢得社会对可信数字仓储的认可。
我国各级各类档案机构以及拥有数据信息资源的其他类型的组织,可以参照《指南》完善自身的不足,提高数字仓储的可信度。综上所述,可信数字仓储中信任原则本身并不是真正的目的,而是为了促进与所有利益相关者的沟通。数据仓储在开展可信保障具体工作时,要注意以下三个方面的问题:
4.1 数字仓储可信度依赖于透明度,透明度依赖于信息公开。因此,数字仓储要切实推进数据管理过程和数据管理参考规范和标准等相关信息的公开,把数据管理公开工作作为不断提高数字仓储透明度和公信力的重要内容,作为密切联系签约用户和潜在用户的有效途径,推动数字仓储的数据管理工作再上新台阶。
4.2 数字仓储可信度需要数据管理工作的支撑,要以保障电子文件的四性为基础对数据对象进行管理。电子文件的四性是判定可信与否的基石,数字仓储理应在电子档案数据摄入环节增添四性检测与核对工作,运用组件功能实现自动比对验证,以确保电子档案在入库时的四性。同时,四性验证工作应融入整个数据对象管理流程当中,运用一定技术手段实现四性的动态监测和实时预警。
4.3 数字仓储可信度离不开技术支持,计算机技术为可信數字仓储的构建提供了可能。如果说电子文件管理思想是可信数字仓储的灵魂,OAIS功能模型为可信数字仓储构造了躯壳,那么技术便是数字仓储生命中不可或缺的血液。因此,对于数据仓储工作者来说不能忽略和抵触新技术,而是要以积极的心态认真学习掌握新技术,钻研开发适用于数据仓储的技术,将其运用到数据仓储管理工作中,为数据仓储注入新鲜血液,助其永葆活力。
参考文献:
[1]中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见[N].人民日报,2020-04-10(001)
[2]马费成.保存中国的数字记忆[N].人民日报,2016-03-04(007)
[3]ISO/TR 17068-2017,《Information and documentation — Trusted third party repository for digital records》[S].
[4]Lin Dawei,Crabtree Jonathan,Dillo Ingrid,et al.The TRUST Principles for digital repositories.2020,7(01):144.
[5]杨文.运用数字人文构建国家记忆[EB/OL].http://www.cssn.cn/zx/bwyc/201808/t20180802_4522538.shtml,2021-5-4.
[6]金彤.可信任数字仓储(TDR)发展趋势的研究[J].数字与缩微影像,2011(01):1-4.
[7]徐拥军,张倩.加拿大图书档案馆的数字保存策略——可信数字仓储[J].档案学研究,2014(03):90-96.
[8]王晓山.高校构建可信数字仓储策略研究[J].兰台世界,2013(08):30-31.
[9]杨璐.可信数字仓储认证:必要性、标准与主体[J].北京档案,2014(05):19-22.
[10]Data Repositories Requirements[EB/OL].[2020-12-28].https://www.coretrustseal.org/why-certification/requirements/.
[11]冯惠玲,刘越男等.电子文件管理教程(第二版)[M].北京:中国人民大学出版社,2017:146-154.
(作者单位:中国社会科学院大学经济学院 来稿日期:2022-08-20)