国内档案信息化研究知识图谱分析
2024-04-12李睿绎
□文/李睿绎
(云南大学历史与档案学院 云南·昆明)
[提要]本文利用VOSviewer软件,构建2013~2023年国内档案信息化研究领域相关知识图谱;利用NoteExpress软件导出核心主题词词频权重表与词频共现矩阵,并用Origin软件对导出的数据进行共词分析,从而探明该领域热点主题和发展趋势,以期为我国档案信息化建设工作拓展新的研究路径。
2015 年,国务院办公厅发布《国家标准化体系建设发展规划(2016-2020 年)》,提出了推进档案信息化与电子档案管理标准体系建设的部署和要求:针对档案信息化标准跨行业、跨领域、跨专业的特点,立足国内需求,兼顾国际标准体系,建立涵盖基础共性、资源建设、信息服务、信息保障和应用五部分的档案信息化标准体系,实现我国档案信息化建设全面、可持续、协调发展。由此可见,在社会信息化迅猛发展的大背景下,为扎实推进国家信息化建设,充分促进国家信息化战略的实施,我国政府早在2015 年就依据社会信息化的新形势做出科学判断,决定建立档案信息化标准体系,并做出周密部署,以助推档案管理工作向数字化和信息化方向转型升级。2020 年,我国进一步推行政府数据开放工作,决定建立“数字政府”,以适应信息技术发展的高速度,而这也将档案管理抬升到社会治理和公共服务的重要位置,档案信息化建设被赋予了极为重要的战略地位。
我国对档案信息化的研究早在1997 年就已开始,2013 年时初具规模,2017 年后臻于成熟。国内学者对该领域研究现状及趋势的总结和分析多集中于某一专题档案,较少有对档案信息化事业的综合性、全面性分析,且大多以文献概述或运用基础性图表进行统计分析的方式撰写。
基于我国在该领域的研究现状,笔者对2013~2023 年间档案信息化研究领域的热点关键词进行知识图谱可视化及共词分析,探析该领域的研究热点与发展趋势,以期为我国未来的相关研究提出创新型对策。
一、研究方法与数据来源
(一)研究方法。本文所采用的研究方法为知识图谱可视化研究与共词分析。笔者将使用VOSviewer 软件,构建相关知识图谱,探析该领域的研究热点;使用NoteExpress 软件导出核心主题词词频权重表与词频共现矩阵,并用Origin 软件对导出的数据表进行皮尔逊相关系数计算,利用相关系数矩阵进行共词分析,绘制表征关键词重合强度与聚类谱系的相关性聚类热力图,得出相关结论。
(二)数据来源。本文数据来源为CNKI 数据库,以主题=“档案信息化”或者篇关摘=“档案信息化”进行检索,文献发表时间为2013 年1 月1 日至2023 年9 月30 日,期刊类别为CSSCI、CSCD、北大核心期刊、NSSD、AMI、武大RCCSE 核心期刊等,剔除报纸、新闻报道与会议记录等无关文献,用NoteExpress 进行数据清洗去重,经过最终整合,共收集到期刊文献2,200 篇,历年文献数量与发布年度统计如图1 所示,以此为样本进行分析。(图1)
图1 档案信息化研究领域相关文献发文量分布统计图
二、研究热点分析
利用VOSviewer 软件进行关键词共现聚类分析,将关键词出现的最小频次设置为4,最终显现了图2 所示的208 个节点与1,638 条连线。每个节点代表一个关键词,节点形状大小与关键词出现频次呈正相关,节点间连线表征其间的关联程度与传承程度。由图2 可见,2005 年以来,该领域围绕着“信息化战略下的档案治理思路”“档案数字化管理模式与安全保障体系”“数字时代下企事业单位档案信息资源与法规标准建设”“应对档案信息化新挑战的创新策略”等主题进行探讨,基础理论研究与实用技术研究并重,学科建设与工作实践紧密结合。词频不低于48 次的关键词信息如表1 所示,其中“档案管理(0.48)”“信息化(0.3)”“信息化建设(0.12)”“信息化管理(0.13)”“事业单位(0.1)”“大数据(0.1)”“高校(0.1)”7 个关键词的中介中心度均不低于0.1,说明此7 者为共现网络的中心节点,具有较大的影响力,在后续的相关研究中或将成为主流。(图2、表1)
表1 档案信息化研究领域高频关键词共现信息表(不少于28次)
图2 档案信息化研究领域关键词共现聚类图谱
皮尔逊相关系数是用于度量两个变量之间线性相关程度的指标,其值介于-1 和1 之间,是最常被使用的相关系数之一,具有较好的科学性。笔者将文献题录导入NoteExpress 软件进行数据分析,导出关键词词频矩阵,筛选出频次不低于7 次的词共现次数矩阵,如表2 所示,并合并同义词,剔除无意义的主题词,之后将其导入Origin,利用Correlation Plot 插件计算出表3 所示的皮尔逊相关系数矩阵,而后使用Heat Map with Dendrogram 插件,以组间平均距离法进行系统聚类,距离类型选择Euclidean,最终得出图3 所示的相关性聚类热力图。(表2、表3、图3)
表2 档案信息化研究领域核心词共现次数矩阵(部分)
表3 档案信息化研究领域核心词皮尔逊相关系数矩阵(部分)
图3 档案信息化研究领域核心词相关性聚类热力图
高频关键词间两两组合,每个组合对应一个矩形色块,色块颜色按相关系数值的大小从浅到深过渡,色块的颜色越深,说明组合内部两关键词的相关性越小,两主题研究内容间的重合度也就越低;反之,色块越浅,相关性越大。由图3 可见,重合度较高的词簇主要有如下五组:第一,“档案管理”与“现状”“信息化”“问题”“信息化建设”“事业单位”“优化策略”等词均具有较高的关联度,说明档案管理模式与数字化、信息化方法融合发展的趋势凸显。第二,“档案事业”与“高质量发展”重合度较高,这与我国现阶段档案事业发展的政策背景紧密相关。2021 年,中共中央办公厅、国务院办公厅印发《“十四五”全国档案事业发展规划》指出:“‘十四五’时期,档案工作对党和国家各项事业的基础性、支撑性作用更加突出。随着新一代信息技术的广泛应用,档案工作环境、对象、内容发生巨大变化,迫切要求创新档案工作理念、方法、模式,加快全面数字转型和智能升级”。因此,档案事业高质量发展的相关部署被迅速提上日程。第三,“大数据背景”与“档案管理人员”“档案数据”紧密相关。第四,“区块链技术”与“应用”高度重合。第五,“智慧档案”与“数字档案馆”“档案管理系统”联系密切。这三组热点词簇的研究趋向均与智慧档案馆建设与服务紧密相关。智慧档案馆是在采用云计算、大数据、区块链等新技术的基础上,对多元档案资源实施智能化管理,并为用户提供智慧化泛在服务的新型档案馆模式。
智慧档案馆建设成为研究热点的原因在于:首先,在政策层面,国家政策的支持为智慧档案馆建设提供了坚实的制度保障。2014 年,中共中央办公厅、国务院办公厅印发的《关于加强和改进新形势下档案工作的意见》中指出,各级国家档案馆“要以实现档案信息资源社会共享为目标,统筹协调,充分利用已有的信息传输网络和平台,积极推进档案信息资源共享,开展远程利用”。由此可见,国家宏观战略要求档案馆构建全国性档案资源云存储平台,满足用户不断变化的差异性信息需求,提供智慧化服务。其次,在技术层面,数字技术的交互性使得多媒体、元数据与静态环境可以实现有机的融合。在社会数字化、智能化转型背景下,数字人文专业应运而生,其将数字技术与人文知识紧密地结合在一起,不仅提升了人文学科相关研究的工作效率,拓宽了研究空间,还为人文学科注入了智能化研究方法与多元化研究范式,突破了传统研究方法的逻辑局限与思维定式,档案文本探勘、档案信息可视化与数字化档案策展则是数字人文领域的重点研究方向,极具创新性和前沿性。此外,移动互联网、物联网等新兴技术的运用,为智慧档案馆建设提供了有力支撑,实现跨时空的档案信息资源共享和跨平台的信息服务集成,使用户可以一站式获取所需的档案信息资源。最后,在应用层面,实践成果的探索为智慧档案馆建设提供了绝佳的参考范例。例如,2012 年初中国联通初步完成了数字档案云平台的搭建;北京量子伟业信息技术有限公司研发了国内首款智慧档案管理软件——“PDE”数字档案管理系统;2014 年青岛市智慧档案馆项目一期建设完成。这些工作成果均为智慧档案馆建设研究提供了极佳的经验参考。
组间平均距离法,又称为类平均法,是用两个类别间各个数据点两两之间距离的平均来表示两个类别之间的距离,大量实验结果表明,该方法是一种较为优异和稳健的方法,在多数情况下表现最佳。由图3 可见,该领域核心词自上而下可以划分为6 个类团。类团1 包含“档案法”“高质量发展”“档案事业”3 个主题词,其主题可以归纳为新时代档案事业高质量发展的要求,该类团仅反映了法治化的要求,此外还应包括均衡化、创新化、绿色化、普惠化、智慧化等多方面的要求;类团2 包括“数字转型”“数字档案室”“数字档案馆”3 个成员,其主题可归纳为数字档案馆(室)建设;类团3 涵括了“智慧档案”“档案管理系统”“互联网时代”“数字档案”4 个主题词,其研究主题的具体性、微观性和专业性特征明显,即智慧化档案管理系统设计与开发;类团4 包含“档案治理”“档案服务”“新《档案法》”“档案馆”等8 个关键词,其聚类主题为档案事业的数字化转型进程,此处着重强调了数字化时代的档案事业包括档案信息资源管理、档案利用服务与档案安全保障体系建设等诸多重要方面;类团5 包括“大数据技术”“档案数据”“大数据背景”等6 个关键词,该类团的研究主题更为精细,专注于大数据技术在档案信息化管理中的应用;类团6 所含关键词最多,说明该主题研究的热度最高,研究成果的综合性与应用性最强,可以概括为数字化时代企事业单位档案信息化建设的实施路径与优化策略。
三、结论
综上所述,2013~2023 年间档案信息化建设已成为我国档案学界的热点研究问题,研究进度迅猛推进,发文量总体呈持续上升趋势,并逐渐趋于基数较大的稳定状态,且研究质量不断走向高质化和成熟化。新兴研究热点集中在数字档案馆建设领域、信息安全维护领域、医疗卫生系统应用领域、电子政务结合领域,具有极强的国家政策契合性。研究特征可以总结为:研究视角广博、研究方向多元、研究主体丰富、研究对象新颖、研究规模精细、研究层次深化。但是,国内档案学界对档案信息化标准体系特征与内容的研究有待进一步完善;与“互联网+”“云服务”“元宇宙”等新兴概念以及文本挖掘和知识图谱等新兴技术的融合较少,其研究边界有待进一步开拓;与“图情档”一体化趋向的融合建设也未形成规模化的研究集群,仍待进一步探讨。