国内外数字保存研究发展分析
2024-06-27张鹤扬臧国全
张鹤扬 臧国全
关键词:数字保存;数字资源;图书;档案;合作网络;知识图谱;数字保存;信息技术
1 引言
数字保存是一系列必要的确保数字资源可持续利用的管理活动。2022年6月23日国务院发布了《关于加强数字政府建设的指导意见》[1],进一步推动数字政府建设,同时也对档案部门的数字档案归档和长期保存能力提出挑战。《“十四五”全国档案事业发展规划》指出2025年要基本实现数字转型[2],数字档案资源有效保存成为一个重要问题。数字保存可确保对数字信息跨时间、技术和语义转换的长期访问,并具有诸如社会效益(政府证据)、文化效益(国家认同)和经济效益(利用与再利用、创新)等长期效益。因此,数字遗产的长期访问和可信保存已引起全球的关注。
2012年9月,在加拿大温哥华召开了旨在探讨数字遗产保存关键问题的国际会议。会上通过了《温哥华宣言》(UNESCO/UBC VANCOUVER DECLARATION),为数字遗产领域的理论与实践发展提供了指南与参考。2013年12月联合国教科文组织正式启动“全球增强信息社会可持续性发展平台”(Platform to Enhance the Sustainability ofthe Information Society Transglobally,PERSIST)项目,共同推动数字保存政策、技术、内容与最佳实践等核心主题的发展。2016年,联合国教科文组织发布《数字遗产长期保存鉴选指南》(The UNESCO/PERSIST Guidelinesfor the Selection of Digital Heritage for Long-TermPreservation)(第一版),旨在为图书馆、档案馆、博物馆和其他遗产机构制定数字遗产长期可持续性保存的鉴选政策提供重要支撑。2021年,联合国教科文组织发布了《数字遗产长期保存鉴选指南》第二版。在国际组织的推动下,各国也开展了数字保存的相关规划。例如,2017年8月,美国国家档案与文件署(National Archives and RecordsAdministration,NARA)发布了首个《数字档案资源长期保存策略》(Strategy for Preserving Digital ArchivalMaterials),专门针对数字档案资源的长期保存进行战略规划。[3]2022年6月,NARA在此基础上修订并发布了《数字保存战略2022—2026》(Digital Preservation Strategy2022-2026),提出了8项关键性战略来确保数字资产的长期保存和有效访问。加拿大国家图书档案馆于2017年11 月发布了《数字保存计划战略》,并于2022年8月对该战略进行了修订并重新发布。[4]丹麦国家档案馆发布了《数字保存战略2025》(Digital Preservation Strategy 2025),提出数字保存未来发展的重点领域及实施意见。[5]
为从整体上把握国内外数字保存领域研究的脉络与现状,本文对国内外数字保存领域研究文献进行计量分析,以期探索数字保存领域研究发展的基本脉络。
2 研究设计
2.1 数据来源。本文利用中国知网(CNKI)数据库和Webof Science作为中英文文献数据源检索平台,开展数字保存领域的文献研究。以2023年12月为截止时间,对1997年以来的文献进行检索,共获得11 85篇中文文献,见图1;1207篇外文文献(其中622篇来自Web of Science核心合集),见图2。通过人工逐篇筛查,剔除相关程度较低和非学术类文献,最终有11 21篇中文文献,1073篇英文文献(其中514篇来自Web of Science核心合集)。
2.2 研究与分析方法。本文应用Co-Occurrence14.9(后文简称COOC)[6]研究文献数量发展特征、主体特征、热点主题,综合使用CiteSpace、VOSviewer展示研究趋势发展特征。
3 国内外数字保存研究建制化过程
3.1 研究趋势分析
(1)国内数字保存研究趋势分析。国内对数字保存的研究始于20世纪90年代末,根据发文趋势,可将研究进程大致分为三个阶段。
第一阶段:1997年—2004年,即数字保存研究的起步阶段。该阶段年发文量低于20篇,主要探讨电子信息时代的新挑战,研究如何走出传统知识保存的束缚,强调利用数字图像技术开展保护与利用并轨的重要性。
第二阶段:2005年—2019年,即数字保存研究的快速发展阶段。该阶段文献发表数量增长迅速且累计发文量呈指数增长,图书馆、档案馆等信息机构也加大了在数字保存上的研究力度。研究主要包括:日益丰富和复杂的数字对象类型、长期保存关键技术问题、长期保存的可持续发展问题等。
第三阶段:2020年至今,即数字保存研究的成熟阶段。年发文量开始回落,发文速度逐渐放缓。这一阶段,云计算和大数据技术等新技术的出现为数字保存提供了高效、可持续的策略。
(2)国外数字保存研究趋势分析。国外关于数字保存的实践最早开始于1998年由欧洲国家图书馆启动的“书目记录计算机化行动NEDLIB(Networked European DepositLibrary)项目”。该项目研制了DLS(数字图书馆系统)中的编目、信息采集、DSEP(deposit system electronicpublication)等11 个模块。国外最早关于数字保存的文献出现在2000年,根据发文量趋势,可将国外研究划分为两个阶段。
第一阶段:2000年—2008年,即数字保存研究的起步阶段。该阶段,年发文量低于20篇。2001年,联机计算机图书馆中心(OCLC)和研究图书馆集团(Research LibraryGroup,RLG)联合发布了《数字对象保存元数据现状回顾》白皮书(Preservation Metadata for Digital Objects:A Review of the State of the Art)开启了数字信息资源长期保存元数据的研究。2003年开放档案信息系统(Open Archival Information System,OAIS)模型正式成为ISO标准。2004年开始举办数字资源长期保存国际会议(International Conference on Digital Preservation,iPRES)促进了该领域的研究发展。
第二阶段:2009年至今,即数字保存研究的快速发展阶段。该阶段,数字保存技术和理论的研究获得了显著进展,包括数字存储介质的演进、保存格式的多样化以及保护策略的创新。2023年的研究开始转向利用数字领域新技术解决数字保存出现的新挑战,如人工智能在保存中的应用,以及运用新技术应对不断演变的数字格式。在实践方面,自2017年开始,美国、澳大利亚、加拿大、丹麦等为防范因设备、软件过时或存储介质故障等造成的无法访问和使用的风险,实施了相应的数字保存战略,在战略中都注重风险监测和标准制定,并强调保存好数字档案资源的重要性。
对比国内外文献发文趋势可见,我国在数字保存领域文献研究早于国外,且我国先于国外进入该领域发展的成长阶段和成熟阶段。从发文数量可见,我国每年的发文数量占据了该领域全球发文量的半边天。
3.2 研究机构及其合作网络可视化分析。对研究机构及其合作关系分析可以揭示该领域的研究力量和研究网络特征。本文对文献的研究机构进行统计(仅统计第一作者所在机构,如果第一作者有多个所在机构,则仅计入第一机构),以揭示研究机构发展特征。
(1)国内研究机构统计及分析。通过对CNKI数据库中数字保存领域研究机构进行统计,发文数量最多的机构分别是郑州大学(108篇)、武汉大学(83篇)和中国科学院文献情报中心(67篇)。发文量排名前10的研究机构以及具体的发文数量如表1所示。由此可见,该领域的国内研究力量主要聚集于郑州大学、武汉大学、中国科学院文献情报中心、国家图书馆和中国人民大学等。
进一步探索该领域研究机构间的合作网络,利用CiteSpace对国内研究机构合作关系网络进行可视化,见图3。
由国内研究机构合作网络可见,目前形成了以武汉大学、中国科学院文献情报中心和中国人民大学为中心的合作网络研究集群,体现出当前对于数字保存的研究呈现出全域性合作的研究特征。此外,郑州大学、河北大学、东北师范大学等,虽然发文量较大,但较少参与研究机构间的合作。在这些研究机构中,郑州大学、武汉大学和中国科学院文献情报中心较早进入该领域进行研究,并在该领域持续深耕至今。
(2)国外研究机构统计及分析。通过对W e b o fScience核心集中的文献进行统计,总发文数量最多的机构分别是University of Maryland(11 篇)、TechnischeUniversitat Wien(10篇)和Old Dominion University(10篇),其中发文量排名前10的研究机构以及具体的发文数量如表2所示。由此可见该领域的国外研究力量主要聚集于University of Maryland、Technische Universitat Wien、Old Dominion University和University of Illinois等。
使用CiteSpace软件对国外研究机构的合作关系网络进行可视化(见图4),可见,国外合作网络整体较为松散,故将软件中的过滤方式调整为显示最大K个子网络,得出合作关系较为紧密的若干研究机构合作网络,分别是以Technische Universitat Wien为中心的研究子群,DrexelUniversity和Old Dominion University为中心构成的研究子群,以及以University System of Maryland等为中心的研究子群。这些研究子群进入数字保存领域各有先后,尚未形成在该领域长期深耕的研究机构。
3.3 核心作者合作网络可视化分析。核心作者被认为是在特定研究领域中具有较深的造诣、较高的行业影响力,并且获得行业领域认可,科研成果较多,能提出较为新颖学术思想与观点的学者。[7]通过对数字保存领域核心作者进行分析,能更好地把握该领域发展的趋势和热点。
(1)国内核心作者合作关系网络分析。为了更好地呈现作者之间的合作关系,使用CiteSpace软件对作者间的合作关系网络进行可视化,见图5。图中节点面积的大小代表其发文量,节点间的连线代表作者间的合作关系,网络密度由节点间连线的稀疏程度反映。国内数字保存领域的核心作者为臧国全、吴振新、董晓莉等,且形成了以臧国全和吴振新为核心的研究子群。
(2)国外核心作者合作关系网络分析。使用CiteSpace软件对英文文献作者间的合作关系网络进行可视化,见图6。国外核心作者合作关系呈整体分散,局部密集的特点。国外数字保存领域的核心作者为Christoph Becker,MichealL Nelson,Richard Marciano等人,且形成了以核心作者为中心的合作研究子群。
3.4 高被引论文分析。论文的影响程度和在学术交流中的地位、作用可以在一定程度上通过论文被引频次的高低所反映,引用次数高且引用周期长的论文被称为高被引论文。高被引论文在一定程度上反映了该学科领域的知识源流。[8]
(1)国内高被引论文分析。本文将从中国知网中检索到的文献按被引次数进行降序排列,其中排名前10的高被引文献如表3所示。
通过对高被引文献逐一阅读,按照内容关注点的不同,可以把论文主题分成三个方面:
一是数字保存发展过程中遇到的问题和挑战。主要观点包括区块链技术虽然具有存储、传输和数据信任方面的实用性,但对于数字档案可靠性和可用性、多节点管理等方面还存在不足和风险,以及知识产权问题[9,10]。
二是数字保存的技术策略。该项研究成果主要体现为区块链技术应用发展的可能性、非物质文化遗产数字化采集保存和开发、云存储技术应用和安全风险等[11 —13]。
三是数字保存推进的管理策略。冯惠玲[14]认为档案单轨管理制是推进数字保存的重要环节,并给出了单轨管理制实施的法律、政策和管理方面的必要条件。其他方面的相关研究包括:欧美国家在数据管护和数字资源长期保存方面的研究进展和启示[15,16],主体责任和建立数字信息归档系统和选择策略[17],非遗数字信息保护和管理的理论和知识体系[18],中欧数字资源长期保存国际研讨会关于管理和技术策略的介绍[19]和标准化等方面[20]。
(2)国外高被引论文分析。将Web of Science的检索结果按被引次数最高优先的模式排序,排名前10的高被引论文如表4所示。通过仔细研读Web of Science数据库中10篇高被引论文,按照研究主题可分成硬件和软件两个方面。
一是数字保存的硬件解决方案。Gomes等[21]提出了运用3D技术对文化遗产进行数字化保存的策略。Abel等[22]提出创建在线虚拟博物馆对数据进行保存。Bok等[23]提出利用一种创新的手持融合传感器系统,为大规模文化遗产的3D重建和数字化保存提供了一个实用且高效的解决方案。Kerne等[24]讨论了Information-Based Ideation(IBI)的框架和评估方法,并且强调了数字策展在IBI任务中的重要作用。Lemieux[25]提出了区块链技术记录保存数据存在的问题以及三种类型的解决方案。Vincent等[26]认为众包摄影测量技术(Crowd-Sourced Photogrammetric Reconstructions)能够重建失落遗产和对遗产进行记忆。Li等[27]介绍了3D数字化技术在数字档案、3D线图绘制、虚拟修复和虚拟展示等方面的作用。Blanco-Pons等[28]讨论了通过AR技术,以交互式虚拟信息展示方式解析暗淡、受损岩画和数字化长期保存的途径。
二是数字保存的软件解决方案。Malone[29]介绍了专门为生物医学领域数据分析和保存而开发的软件本体(SWO),并为其在存储、管理和分析数据等方面的应用提供了一个详细的描述框架。Uhl等[30]通过整合 Convolutional NeuralNetworks(CNNs)和弱监督学习方法,提供了一个能高效提取历史地图中人类聚居模式的方法。
4 国内外数字保存研究议题嬗变的可视化分析
通过对检索文献进行关键词共现分析、聚类分析以及突变分析后,可得到数字保存研究的关键词共现图、关键词聚类表及关键词突现图,由此可分析国内外数字保存研究领域的发展脉络、主题分布及热点前沿。
4.1 国内外数字保存领域关键词共现可视化分析
(1)国内数字保存领域文献关键词共现分析。运用COOC软件,对1 121篇中文文献进行统计,共有关键词1 652个,其中单元频次大于等于10的关键词共有34个。由于在文献检索时使用“数字保存”和“数字长期保存”作为检索词,所以在关键词分析时不对上述关键词进行分析,并排除掉同义词“长期保存”与无意义词“对策”“综述”,余下的30个高频关键词见表5。
根据关键词两两共现原则,统计出30个高频关键词共同出现的频次,形成30×30的共词矩阵,并根据共词矩阵,使用VOSviewer软件进行关键词共现知识图谱可视化(图7),发现“数字信息资源”“图书馆”“数字图书馆”“保存策略”“数字档案”等为数字保存相关研究领域的重要热点。
(2)国外数字保存领域文献关键词共现分析。由于Web of Science数据库中并非所有在库的文献都存在关键词,因此只对Web of Science核心合集中的514篇英文文献进行统计,得到关键词1588个,其中出现频次大于等于7的关键词共有22个。由于在检索文献时使用“DigitalPreservation”和“Digital Curation”作为检索词,所以在关键词分析时不对上述关键词进行分析,余下的20个高频关键词展示见表6。
根据两两共现原则,统计出20个高频关键词在514篇中共同出现的频次,形成20×20的共词矩阵,并根据共词矩阵,使用VOSviewer进行可视化(图8)。根据节点大小,可以看出“Cultural Heritage”“Digital Humanities”“Metadata”“OAIS”等关键词是国外研究数字保存领域的热点话题。可见国外主要以文化遗产为对象研究数字人文解决方案,重点关注元数据和开放档案管理系统。
4.2 国内外数字保存领域关键词聚类分析
(1)国内文献关键词聚类分析。使用VOSviewer软件将研究领域中具有高度相似特性的关键词进行聚类,在分辨率为1.00的条件下形成7个簇,见表7。
Cluster1聚焦于数字档案的管理,包括数字档案信息、数字档案馆建设以及与电子文件相关的议题,尤其探讨了美国在该方面的研究;Cluster2着重于研究数字图书馆,及数字图书馆信息资源数字化过程中的知识产权;Cluster3更关注数字资源有效保存的策略、资源以及与之相关的风险管理;Cluster4更关注于数字保存具体的技术解决方案,如OAIS、元数据在保存中的应用,以及监测数字保存风险的方法;Cluster5侧重于图书馆中的数字文献保存;Cluster6聚焦于公共图书馆的数字化进程、大数据应用以及LOCKSS的使用;Cluster7专注于云存储技术在数字保存中的应用和实践。
(2)国外文献关键词聚类分析。对Web of Science核心合集中的514篇英文文献,使用VOSviewer设置分辨率为1.00对高频关键词进行聚类,形成7个不同的簇(表8)。
Cluster1和Cluster7专注于3D技术在文化遗产数字化方面的应用,着重使用三维技术通过对文化遗产的物理形态进行扫描、建模等方式实施数字化,以便长期保存;Cluster2集中于数据的组织、管理和标准化,Metadata和Ontology作为信息的桥梁确保信息以一种标准化和互操作的方式被记录和共享;Cluster3涉及数字资料的真实性以及档案信息系统的标准(OAIS和Premis);Cluster4聚焦利用图像捕捉技术对物理实体进行记录和保护;Cluster5关注于CNNs(卷积神经网络)在数字人文领域中的应用,例如CNNs在图像识别、语音处理和自然语言理解等方面为人文学科的研究提供了新的工具;Cluster6包括数字图书馆和网络存档,着重于数字信息资源的保管、检索以及长期可用性。
4.3 国内外数字保存领域关键词突现可视化分析。为了进一步把握数字保存领域研究热点的演进趋势,并推断和预测出可能对未来研究和发展具有重大影响的新概念或前沿话题,使用COOC软件对数字保存领域中英文文献的关键词进行突发性检测,并将结果进行可视化,以清晰地展示在不同时间段内关键词的流行程度以及关注度的变化。
(1)国内文献关键词突现分析。使用COOC软件的突现检测功能,过滤掉单元频次小于5的关键词,按照顺序将前20个关键词保留并进行可视化(图9),以分析各阶段研究主题关注度的演变。
在数字保存研究的起步阶段(2000年—2004年)主要关注数字图书馆。
在数字保存研究的快速发展阶段,研究出现了三个阶段的变化。2005年—2011 年关键词突现为OAIS、LOCKSS、数字信息保存、档案馆、长期保存、数字信息资源、质量标准框架、数字保存系统。这一时期的研究者着重关注于数字信息资源保存的途径、方式以及统一的规范,表明了数字化资源管理成了研究和实践的焦点。2011 年—2015年关键词突现为知识产权、认知调查、实践调查、保存成本、数字保存项目。在这个阶段数字保存的知识产权问题开始受到重视,并且数字保存项目及其成本也受到了关注。2015年—2019年关键词突现包括美国、数字档案、电子文件、风险检测。在这4年间研究者更关注于电子文件和档案以及对于它们保存系统的风险评估,以保证这些资料的安全、可靠和完整性。
在数字保存研究的成熟阶段(2019年—2023年)产生的突现词为公共图书馆和档案数字资源。学者们更多地关注公共图书馆在提供数字保存服务方面的作用以及档案数字资源的保存。
(2)国外文献关键词突现分析。Web of Science核心合集中从2009年开始出现关键词。使用COOC软件的突现检测功能,过滤掉单元频次小于3的关键词,并按照顺序将前20个关键词保留并进行可视化(图10),以分析各阶段研究主题关注度的演变。
2009年—2011 年的突现词有Digital Libraries、Preservation。在这一阶段数字图书馆以及对文献和数字内容长期保存的方法和策略得到了广泛关注。
2012年—2015年突现的关键词包括Image Processing、Ontology、Cloud、Web Archiving,这一时期的学者着重于数字信息资源的结构化保存以及通过在线的方式将数字信息资源进行长期的存储。
2 0 1 6 年— 2 0 2 0 年产生了较多的突现词, 包括Convolution Neural Networks、Ontology、Deep Learning、Conservation、Digitization、Computational ArchivalScience、Research Data Management、Interoperability、Computational Thinking、Privacy、Virtual Reality。可以看出,这一时期数字保存领域的发展比较活跃,同时机器学习和人工智能开始在数字保存领域得到重视。
2021年—2023年随着大数据和数据科学的发展,该阶段突现词包括Data Management、Digital Humanities、Cultural Heritage,数据管理在数字保存中的作用得到重视。
5 结论与启示
基于文献计量分析和文献研究方法,本文在横向上勾勒了数字保存研究建制化过程;在纵向上梳理了数字保存研究趋势、研究主题的演进脉络。总体而言,数字保存文献研究始于20世纪90年代末,发展至今已有20余载,文献数量从年发文量个位数实现了累计发文量指数级增长。随着数字资源采购经费的大幅增加,馆藏资源结构越来越向数字资源方向倾斜,相关研究与实践愈加丰富。本文综合运用Co-Occurrence软件及其他辅助软件,直观形象地揭示了国内外数字保存领域发展脉络。
(1)国内外数字保存的发文量经历了缓慢起步和快速发展两个阶段。我国在文献研究方面起步较早,国外则在相关实践方面起步较早,我国先于国外进入成熟阶段。数字档案长期保存是一项艰巨的系统工程,文献研究的侧重点也越来越多样化,包括:日益丰富和复杂的数字对象类型、长期保存关键技术问题、长期保存可持续发展的管理策略等。
(2)从研究主体角度分析,通过对比国内外研究机构合作网络图谱可见,我国的研究机构主要集中于大学、情报中心和图书馆等研究机构,且发文量较大,而国外研究机构主要集中于大学,且发文量较小。我国在该领域形成了以核心节点为中心的较为紧密的合作网络,且核心节点在该领域持续深耕,保持了较好的研究传承;国外合作关系整体较为松散,存在规模较小的研究子群,且核心节点在该领域持续深耕现象并不明显。通过对比国内外核心作者合作网络图谱可见,在国内形成了以臧国全和吴振新为核心的较大的合作网络,且核心作者在该领域持续深耕;国外合作网络呈整体分散,局部密集的特点,形成了进入该领域早晚不一的研究子群。
(3)从研究议题角度分析,国内侧重于研究图书馆、数字档案等“数字信息资源”的“保存管理策略”,而国外则侧重于研究基于元数据的文化遗产、数字人文方面的开放档案信息系统,以及先进数字技术在数字保存应用中的研究,侧重于数字保存的技术解决方案。综合国内外文献关键词聚类分析可见,国内外均关注于数字信息资源的组织、管理和标准化;在数字保存方法上均探讨了OAIS、元数据等方式的使用。国外更多侧重于使用3D技术和图像捕捉等技术在文化遗产数字化方面的应用。综合国内外数字保存高频关键词突现分析,可见我国数字保存的文献研究从2005年开始进入了多元化研究领域,国外2012年开始多元化;我国的研究侧重于数字保存的管理方式和风险规避等方面,国外则侧重于数字保存技术的研究;OAIS、LOCKSS等图书馆数字资源长期保存新方式和新机制的研究是国内外共同的研究热点。