基于CiteSpace的国内外电子文件长期保存文献综述
2023-09-27张钊伟
张钊伟
引言
在21世纪的信息化时代,电子文件和电子档案已经成为主流形式,取代了大部分纸质文件和档案。然而,电子文件数量、格式和载体的急剧增加以及多变,使得电子文件长期保存变得更加困难,这也对相关技术、政策和标准提出了更高的要求。电子文件的长期保存是整个行业、相关部门和社会关注的重点和难点。通过对国内外相关文献的整理和总结,本文从技术层面、政策框架和标准建设三个方面对电子文件的长期保存进行了探讨,旨在对当前的研究热点、成果和现状进行阐述和分析。
一、研究方法
本研究采用了关键词聚类法、内容分析法、中国知网可视化分析法以及可视化分析软件CiteSpace6.1.R2关键词共现等方法,以探索电子文件长期保存问题的发展现状和发展趋势。关键词聚类法将相关话题词汇集中展示,呈现出一个特定的研究框架;内容分析法则通过精确的阅读、总结、分析和整理,突破文献的表象特征,达到对文献准确理解,以确保文献分析的质量和深度。中国知网可视化技术则反映出期刊文献长时间内发文量的变化趋势,而CiteSpace6.1.R2是一种近年来在可视化数据统计分析领域备受关注的应用工具。
二、文献调研
本文所使用的文献数据来源于中国知网、万方数据库和维普期刊网三大数据库。采用逐条阅读的方式进行数据清理,筛选掉不相关的文献和重复的文献。检索文献的时间为2022年11月,主题检索、文献来源和发表时间均为不限,文献均为中文文献。共检索到648篇文献,去除掉重复文献后,共得到331篇文献。通过中国知网进行文献可视化处理,然后将其以Refworks格式导出,再转化为CiteSpace可用的特定格式,最终使用CiteSpace对文献进行分析,得出研究热点。详细的文献筛选过程和检索结果(表1)。
图1展示了中国知网对长期保存电子文件的发文量进行的可视化分析,该图只对前200篇文献进行了分析。根据图中的结果可以看出,第一篇相关文献于1999年发表,而在2009年之前,电子文件长期保存文献的年均文献发表数量不足5篇。这表明在当时,由于互联网的发展程度有限,电子文件处于起步阶段,学术界对于电子文件的关注程度并不高。然而,随着互联网的迅速发展,电子文件的长期保存问题逐渐引起了业内学者的关注。自2011年以来,相关文献的发表数量激增,在2021年达到了顶峰,发表了24篇文献。
根据中国知网的数据,我们可以看出电子文件长期保存期刊文献的主题分布情况。主题集中在长期保存、数字资源、数字资源长期保存、数字信息资源、开放存储、元数据、存储载体等方面。这表明,电子文件长期保存问题与技术的更新、政策制定以及标准的落实密切相关。特别是在数字资源的长期保存、开放存储、元数据和存储载体等方面,研究尤为深入,这些主题将成为未来研究电子文件长期保存的重要方向。
三、研究热点
将清洗后的关键词导入CiteSpace6.1.R2,分析年份为1999年到2022年,连接范围Links Scope为 Within Slices,得到关键词共现图谱, 网络同质性指标Silhouette=0.8324>0.7、Q=0.527表明聚类结果可信。结合中国知网的可视化结果,本文将从电子文件长期保存的技术层面、政策框架、标准建设三个方面对文献进行综述。
四、国内文献综述
(一)技术层面
1.策略层面
张艳敏、马秀峰(2009) 对合作保存策略、技术有效性策略、风险管理策略和经济策略进行了对比分析[1]。黄维莉(2009)对我国数字资源的长期保护对策进行了描述[2]。陶水龙(2012)提出了以云存储技术为基础,构建以云存储为基础的云备份方案及相应的云备份体系结构,以解决文件的長期保存与载体的不稳定问题[3]。
2.硬件层面
张智雄(2006)等将数字资源长期保存技术系统划分为保存管理模块、摄入模块、存储模块和存取模块四大功能模块,以实现数字资源长期保存[4]。杨小云(2009)等提出了数据更新、数据仿真和数据迁移等实现数字资源的长期保存技术,为数字资源长期保存提供了技术策略参考[5]。
3.软件层面
李泽锋(2010)认为,OAIS(《开放档案信息系统参考模型》,ISO14721)的六个功能模块为数字档案馆建设提供了良好的参考架构,并分析了档案室实施OAIS的策略,OAIS的六个功能模块包括了获取、鉴定、保管、描述、提取和管理六个方面[6]。肖秋会(2012) 对英国UKDA与TNA的数据资源库与OAIS进行比较分析,探讨功能和信息流方面的共性与差异[7] 。
(二)政策框架
1.法规方面
《中华人民共和国档案法》明确规定,要确保电子文件档案的“真实性、完整性、可用性、安全性”,《电子文件管理暂行办法》《电子公文归档管理暂行办法》规定了电子文档的长期保存备份的相关内容。《中华人民共和国著作权法》明确允许档案馆、图书馆为陈列、保存等目的复制馆藏文献,对于电子文档的长期保存也有相应规定。
2.政策保障方面
《企业电子文件归档和电子档案管理指南》提出了企业电子文件的四性保障要求和实现方法。《企业数字档案馆(室)建设指南》则详细介绍了数字档案馆(室)工作人员的职责、系统的运行和维护、机房和档案数字化加工场所的管理制度,以及数字档案馆(室)的安全与保密管理制度等。
3.格式载体方面
《版式电子文件长期保存格式需求》(DA/T47-2009) 基于电子文件长期保存,规定了版式电子文件的格式特征。《基于XML的电子文件封装规范》 (DA/T48-2009)规定了电子文件基于XML的封装规范。《文书类电子文件元数据方案》(DA/T46-2009)以及《文书类电子档案检测一般要求》(DA/T70-2018)共同为文书类电子文件长期保存提供可以遵循的规范。
(三)标准建设
旻苏等(2009)对数字资源的长期维护问题进行了专门探讨,并提出了建设性的意见[8]。宛玲、张晓林(2006)对数字资源的长期维护问题进行了专门探讨,并提出了建设性的意见[9]。张家德、杨爱萍(2009)认为要建立健全数字资源长期保存的法制保障制度[10]。袁丽华、包平(2009) 认为我国的数字资源要想长久地保存,要尽快制定相关的法律法规[11] 。
五、国外文献综述
(一)技术层面
1.策略层面
Priscilla Caplan(2008) 探讨了数字技术的被动和主动策略,并指出被动策略包括载体更新、迁移和维护,而主动策略则包括仿真、格式迁移、格式规范化、软硬件保存、通用虚拟机和通用虚拟计算机。佛罗里达图书馆 DAITSS提出了要依据需要的方式保存原始数据内容,并且提出了全新的保存理念。
2.硬件层面
Sangchul Song和Joseph JaJa(2009) 对数字档案的长期完整性审查与认证技术进行了探讨,并提出了建议,要确保数字档案的长期完整性,需要采用多重校验技术、定期审查、元数据的完整性保护等方法[12]。Erwin T (2009)等将仿真和元数据相结合,建立了一个三维数据的长期数字存储框架,并对其进行了评价以确保可靠性和可用性[13]。
3.软件层面
Heydegger V (2008) 对OAIS的发展历程与功能模型进行了分析,并指出OAIS标准并不是一个具体的蓝图,而是一个系统设计的概念框架[14]。BRIAN F. LAVOIE (2004) 认为,OAIS提供了一个通用的存取模型,但是它并不涉及存储器的供应、控制和存取的具体方式[15]。
(二)政策框架
1.法规方面
澳大利亚的《版权法》和英国的《版权法》以及《版权和数据库权利条例》对电子文件长期保存做出了积极的规定,并提供了合理的版权保护豁免。在《保护文学和艺术作品伯尔尼公约》的第九条第二款中,联盟成员国可以根据实际情况决定是否允许复制上述著作,并且该公约的正常使用不受影响[16]。
2.政策保障方面
澳大利亚国家审计署在其《包括电子文件的文件保管》报告中指出, 澳大利亚政府机构发布的文件保管相关的立法、标准、政策和指南不断增加。David O Stephens对英国数字资源的长期保护思想和方法进行了归纳,并认为数字存储是国家大事,政府机关、商业机构、大学、图书馆、档案馆、娱乐媒体产业、数字制造者、数据存储中心等都在积极参与[17]。
3.格式载体方面
《开放档案信息系统(OAIS)》(ISO14721-2003) 引入了表征信息的概念,并提出了“信息包”的定義,为建立可信的电子文件长期保存系统提供了基本参考和重要指南。PREMIS、《基于电子文档信息的长久保存》(ISO18492-2005)、《文档管理长期保存的电子文档格式—第一部分:PDF1.4(PDF/A-1)的应用》(ISO19005-1-2005)、《可信数字存储库的审核和认证》(ISO16363-2012) 等标准的制定形成了一系列电子文件长期保存的规范。
(三)标准建设
电子系统中文件真实性永久保障国际研究项目(The International Research on Permanent Authentic Records in Electronic Systems,InterPARES)中的项目二中的一份报告《电子文件长期保存格式选择》对开放、稳定和标准化格式的适用范围进行了详细的分析, 报告根据24个国家档案馆的档案格式要求,总结出了5个主要标准,包括广泛的应用、无专有的资源、标准的可获得性、平台的独立以及无法被压缩[18]。
六、研究述评
目前很多的国内外学者对电子档案长期保存开展了长期的关注,我国电子文件长期保存的研究热点主要集中在技术层面、政策框架和标准建设三个方面。其中,技术研究是电子文件长期保存基本前提,相关政策和标准建设则是电子文件长期保存顶层设计,这些研究推动了电子文件长期保存的发展。然而,当前我国电子文件长期保存领域存在一些问题,需加以改进。首先,研究成果主要集中在理论层面,缺乏相关的技术支持,并且缺乏跨学科、跨领域的研究成果。其次,针对电子文件长期保存的相关政策和标准落实不到位,甚至缺失。最后,电子文件长期保存系统存在不足,如部门之间的监管不到位、衔接不顺畅等,系统的功能无法满足长期保存的需求,形成的电子文件不规范。
为了解决以上问题,需要采取以下改进措施。首先,应根据现实情况,建立跨学科、跨领域的研究视角,提供技术支持,建立多领域之间的有效合作。其次,国家和政府应开发更加完善的政策和标准,并由各个主体全面贯彻落实方针政策,为电子文件长期保存提供安全的社会和政策环境,对我国电子文件的长期保存问题进行宏观调控。最后,建立我国长期保存的国家策略体系,加强各部门之间的联系,充分做好调研工作,在电子文件管理系统的设计前期明确长期保存系统需要的功能,完善文件管理系统。
参考文献:
[1]张艳敏,马秀峰.中外数字资源长期保存策略比较研究[J].图书馆学研究,2009(06):29-32.
[2]黄维莉.数字资源长期保存策略研究[J].图书馆学刊,2009,31(07):68-70.
[3]陶水龙.档案数字资源云备份策略的分析与研究[J].档案学通讯,2012(04):12-16.
[4]张智雄,林颖,吴振新,张晓林.数字信息资源长期保存技术体系研究[J].现代图书情报技术,2006(04):2-7+13+1.
[5]杨小云,魏鑫,吴玉玲.数字资源长期保存存在的问题及对策[J].农业图书情报学刊,2009,21(11):30-33.
[6]李泽锋.基于OAIS的数字档案馆功能模型研究[J].档案学通讯,2010(03):60-65.
[7]肖秋会.基于OAIS的数字档案馆功能评价研究——以英國UKDA和TNA数字资源库为例[J].档案学研究,2012(06):75-78.
[8]旻苏,李景,殷立新,潘薇.数字资源长期保存的标准与法律问题综述[J].标准科学,2009(05):53-57.
[9]宛玲,张晓林.数字资源长期保存权益管理政策研究[J].图书情报知识,2006(02):24-27.
[10]张家德,杨爱萍.浅议数字资源长期保存的瓶颈——国家政策法律的缺失[J].中国科技信息,2009(12):313+318.
[11]袁丽华,包平.国外数字资源长期保存及我国的发展策略[J].新世纪图书馆,2009(02):9-11.
[12]Oltmans E, Van Wijngaarden H. The KB e-Depot digital archiving policy[J]. Library Hi Tech,2006,24(4):604-13.
[13]Erwin T,Sweetkindsinger J,Larsgaard M L. The National Geospatial Digital Archives-Collection Development: lessons Leamed [J]. Library Trends2009,57(3):490-515.
[14]Heydegger V. Analysing the Impact of File Formats on Data Integrity[C]Archiving Conference,2008:50-55(6).
[15]BRIAN F. LAVOIE. The Open Archival Information System Reference Model: Introductory Guide[J]. Microform and imaging review,2004,33(2):68-81.
[16]姚健、高玉洁等. 图书馆信息化建设[M].天津:天津科学技术出版社,2014.
[17]谢永宪. 数字资源长期保存研究[M].北京.:世界图书出版公司,2011.
[18]冯惠玲,赵国俊等.中国电子文件管理.问题与对策[M].北京:中国人民大学出版社,2009.
作者单位:北京联合大学