大数据背景下档案信息化研究热点及演进脉络分析
——基于生命周期理论视角
2020-12-24秦芳彧
秦芳彧 张 江
(1.北京航空航天大学档案与文博馆,北京100191;2.北京航空航天大学党政办公室,北京100191)
一、前言
档案信息化是一种现代化的档案管理模式,是利用数字化技术对档案信息资源进行整合,实现档案管理的完备性、时效性、精准性、规范性、社会性与安全性〔1〕。档案管理信息化是经济与社会发展的必然趋势,大数据的时代背景为其提供了一个重要的历史发展机遇。自20 世纪90 年代我国档案信息化工作被列入“十五”期间发展规划以来,档案信息化的相关研究成为我国档案管理领域的重要研究课题。
热点主题研究是指研究一个学科领域的热点特征及其演化规律,是文献分析的重要任务之一。近年来,很多学者对档案信息化领域的热点主题进行研究,比如,陈忠海对档案信息化进行了定性分析〔2〕,具体包括软件硬件及其配套设施的管理建设、信息标准规范化管理、人力资源管理等基础建设层面的研究,没有涉及定量分析。另外一些学者基于社会网络分析方法定量研究档案信息化的学科热点,比如王凤娟利用基本统计量分别从作者分布、文献来源、发文机构角度对档案信息化进行热点分析〔3〕,但未从关键词及其之间联系的角度进行热点分析;张苏媛借助可视化图谱从研究机构、作者分布及人员合作的角度对档案信息化进行了学科热点研究〔4〕,没有关于整体网络结构特征的具体量化分析;李建等人对国内档案信息化领域年代更替、突变节点、机构合作和发展趋势进行了社会网络分析〔5〕,但其热点研究仅使用了聚类分析方法。还有学者基于生命周期视角研究学科热点问题,比如贾旭楠按照时间维度对竞争情报热点主题进行了分析〔6〕;谢姝琳对图书空间热点主题进行了分阶段研究〔7〕。本文在文献梳理与理论研究的基础上,总结目前已经取得的学术成果、跟踪学术动态,进行数据挖掘与分析处理,遵循生命周期理论,利用社会网络分析方法,深入揭示档案信息化的热点主题的分布脉络,结构特征及其演化态势。
二、研究设计
(一)理论与方法
众所周知,世间万物发展都要经历生命周期过程,任何现象或问题研究包括学术热点的演化发展都是要经过一个生命周期的过程〔8〕,包括萌芽期、发展期、成熟期、转型期。学术研究热点就是一个从形成、发展、成熟到转型的动态过程。
社会网络分析方法是近年来在各个学科领域范围广泛应用的一种社会关联性分析方法,它通过对各种网络关系进行精确的评价与分析,为学科热点主题研究提供一种量化方法〔9〕,并基于可视化结果直观揭示所研究主题热点的网络关系与结构变化。
(二)思路与数据
为了充分揭示档案信息化的研究热点分布特征并追踪其演化脉络,设计本文的研究思路。使用SATI文献计量软件提取关键词,对发文量按照时间维度进行生命周期的分期划分,并对分期的关键词进行词频统计;利用VOSviewer 可视化软件将高频词的节点分布与密度聚类图谱化〔10〕;最后借助UCINET 软件对整体网络的结构特征,按照评价指标进行分阶段的量化研究〔11〕。
数据来源是利用中国知网(CNKI)学术期刊数据库,以篇名为“档案信息化”作为条件进行检索〔12〕。考虑到本研究的学术研究意义、文献数量、年份分布情况及数据的可获得性,仅选取发表时间在1997—2019 年23 年间期刊文献作为分析对象,并剔除没有关键词的无效文献,最终得到文献6272 篇。
(三)指标与可视化
主题热点研究是通过网络评价指标以及可视化图谱进行全方位,多视角的网络剖析与透视〔13〕。在构建多维评价指标的基础上进行量化分析,借助网络分析工具可视化图谱进行直观展示。根据本研究设计的关注重点选取指标维度:网络节点指标主要是关键词的词频度统计;整体网络指标包括网络密度、网络关联度及网络中心性。
三、研究内容
(一)发文量的时间维度研究
运用生命周期理论,对文献发文量进行数据提取与分析,得到国内档案信息化主题文献时间维度的演化趋势呈现出生命周期的典型特征。如图1 可以看出档案信息化热点研究经历了三个生命周期阶段:首先是研究起步阶段即1997—2002 年间,为热点问题形成期即萌芽期,这个阶段论文数量较少,各年份间增幅很低;第二阶段是快速增长阶段即2003—2012 年间,为热点研究的扩张发展期,此阶段年发文量在百位数,比第一阶段的文章数量急剧增长;第三阶段是饱和成熟期即2013—2019 年间,此阶段发文量均在500 篇以上且各年间发文量相差不大,表明以档案信息化作为主题的研究已经趋于成熟,进入稳定阶段,另外2018 年发文量有一个小幅度下降,到2019 又回归到与2017 年基本持平,这个不太明确的趋势可能预示新热点主题的形成期或原有研究的转型分化期。
(二)关键词的热点主题分期研究
1.关键词频基本统计
文献中关键词是文章核心内容的高度概括,因此某领域中,高频率数值的关键词应该可以认为代表该领域的研究热点和前沿。按照时间维度图1 的分期划分,应用SATI 软件分别提取三个时间段样本文献的关键词,并对关键词的词频进行统计,得到高频关键词词频如表1~表3 所示。
表1 萌芽期高频关键词词频(频数≥2)
(1)由表1 可看出,萌芽期(1997—2002 年)是档案信息化研究的起步阶段。词频最高的热点关键词为“档案信息化建设”,出现32 频次,其余关键词出现频次分别13、11 和个位数,总体词频量较低,排名前几位的高频关键词在这一周期阶段的主导地位不明显,这表明这一阶段是“档案信息化”理论建设与探讨的初级阶段,为以后该领域的发展建设奠定理论基础并确定研究方向。
表2 发展期高频关键词词频(频数≥28)
(2)表2 显示的是发展期(2003—2012 年)档案信息化研究的高频关键词及词频。与表1 对比可看出,随着发文量的显著增加,高频词频陡增,最大词频“档案信息化建设”词频高达772,另外12 个关键词词频均在百位数,由此可见此时期档案信息化研究进入快速发展阶段,涉及内容更加广泛,研究领域进一步拓展,研究纵向深入。此阶段的研究印证是该领域的研究已经突破理论层面,热点研究聚焦于管理模式层面及管理技术层面,同时人力资本建设也成为该阶段研究热点。
表3 成熟期高频关键词频(频数≥31)
(3)表3 显示的是成熟期(2013—2019 年)的高频关键词及频词,和表2 的发展期对比可以看出词频略有增长,但总体增长幅度不大,说明增长逐步趋于饱和有开始分化的迹象,符合进入成熟期的特质,高频词结果显示这一阶段研究内容更加丰富广泛,研究广度进一步拓展,热点主题研究由管理规范化与数字化建设向应用开发层面深入拓展,并开始向其他热点领域进行分化扩张的态势。
由表1~表3 关键词词频分期排序表,可以看到词频量由总量较小到骤然上升,又到平稳成熟的动态演化趋势,表明“档案信息化”领域的研究由形成初期到逐渐引起广泛关注,又逐步趋于饱和平稳,开始转型分化形成新的热点研究主题的生命周期进化过程。
2.关键词聚类可视化图谱
为了进一步研究热点主题分布特征,借助VOSviewer 软件将聚类结果直观地展示出来〔14〕,使关键词在网络中各个要素之间的关系可视化,聚类网络图谱如图2~图4 所示。可视化图谱中网络节点的密度与聚类用颜色深浅来区分,节点和标签大小与节点的频次成正比,节点间连线宽度反映两者之间联系的强弱,即图谱上每一节点都会根据该点的密度来填充颜色,不同节点颜色标记节点所属的聚类类别〔15〕,图2~图4 为可视化聚类网络图。
(1)为了更好地呈现高频关键词间的关系并反映研究热度,将萌芽期词频阈值设置为2,得可视化图2。该图显示在生命周期的萌芽期,形成以“档案信息化建设”为中心的研究热点,同时也聚焦于“档案信息资源”“电子档案”“电子文件”等中心主题研究,除以上密集的聚类团以外,处于次中心位置、较为松散的关键词还包括“档案信息化”“档案”及“档案信息化管理”,另外处于较为边缘的聚类团还有“数字图书馆”“档案馆”“档案信息”等关键词。该研究正处于档案信息化建设初期,表示研究内容还比较浅显,处于初始形成期,正在逐步形成并完善以档案信息化理论建设作为核心研究热点,发散拓展出包括概念界定及服务对象与载体等方面的研究。
(2)为了更好地呈现生命周期的快速发展阶段的研究热度,将发展期的高频关键词的阈值设置为10,得可视化图3。该图显示:最大的聚类团仍然是以“档案信息化建设”为中心点,相比较小的聚类团依次以“档案信息化”“信息化”为中心,同时聚焦于“档案管理”“信息化管理”等管理层面的研究,边缘发散的研究主题包括“档案信息资源”“档案管理软件”“数字图书馆”“档案数据库”“计算机”等档案管理软件与硬件技术层面的研究主题,另外还有“档案工作者”“档案管理人员”及“人才队伍建设”等人力资源方面的热点主题。
对比萌芽期此阶段词频密度的突增,显示进入“档案信息化”建设的快速发展阶段,研究内容更加丰富多样化,研究领域更加广泛化,研究视角更加多元化,研究技术手段更加智能化,管理模式更加规范化与标准化。发展期的研究一方面聚焦于档案信息资源层面的研究,即档案信息化的资源开发建设、档案信息化管理手段与方法工具等方面的完善建设;另一方面也关注技术层面的硬件与软件等配套设施全方位的基础设施建设。即除了档案信息化内部资源开发的主题外,与外部资源相互融合、整合的管理建设也得到广泛重视,同时,处于比较边缘地位主题还包括人力资源管理,即档案信息化的人才建设也成为关注热点。这一阶段的特征和大数据时代信息技术领域的飞速发展相互呼应。
(3)为了更好地呈现成熟期的特质,对该阶段高频关键词进行热度研究,设置阈值为30,得到可视图4。该图显示这一阶段是以“信息化”与“档案信息化”作为关键热点研究中心,边缘发散研究主要包括“企业档案”“高校档案”“教学档案”“科技档案”“城建档案”“机关档案”“医院档案管理”等,预示档案信息化的研究在管理规范化与数字化建设方面的研究已经趋于成熟,并开始在众多其他应用领域横向拓展。这一阶段档案信息化研究总量趋于平稳,但是研究领域更加细化,应用范围更加广泛,这体现了生命周期的成熟期的特质。
通过对可视化图谱图2~图4 的解读〔16〕,可以发现图谱不仅直观地反映出档案信息化的研究热点及聚集状态的演化趋势,同时还反映出关键词之间的关系强度,表明大数据背景下,档案信息化的热点研究已经完成的理论层面的建设,管理层面建设也已经趋于成熟,演化发展趋于稳定饱和,正在向应用层面进行多维度横向延伸,并逐步在多领域转型分化形成自己新的研究热点。可视化图谱研究结果也表明档案信息化研究热点主题的生命周期典型特质,档案信息化的研究发展由理论层面向管理层面,再向应用层面的广泛扩张。
(三)整体网络结构特征的分期研究
为了充分揭示档案信息化研究热点的整体网络结构特点及生命分期演化规律,利用Ucinet 社会网络分析软件,基于不同指标从多维度对整体网络进行量化研究〔17〕。
1.网络密度
网络密度是用来描述整体网络中节点之间关联的紧密程度的指标。热点主题关联的紧密性越高,即网络密度数值越大,表示节点之间相互联系与影响越大,网络整体结构越紧密;反之如果密度值越小则表示热点主题之间的联系相对独立〔18-19〕。密度的标准差越大,说明网络密度与平均值之间的差异越大,即表示网络发展程度越不平衡;离散系数或称变异系数是标准差与平均值的比值,是反映网络离散程度的指标,离散系数越大表示辐射能力强。表4 为网络密度、标准差与离散系数,呈现如下演化特点:
表4 网络密度与标准差
(1)萌芽期网络密度为0.1949 较小,网络结构较为松散,集群不明显,这主要是因为此阶段该领域的研究处于起步阶段,此前的参考研究较少,刚刚开始对其相关概念进行界定并进行理论层面的探索;此阶段标准差0.3962,而变异系数值为0.4919,都相对较小,表示密度与平均值之间的差异不大,网络发展程度较平衡,反映出各个热点研究的相互影响程度较低,符合萌芽期特点。
(2)发展期网络密度为0.5855,较上个阶段陡然提升,说明这个阶段的研究热点具有很强的代表性,更能真实地反映该领域的核心主题,整体结构非常紧密,各个研究方向之间的联系也很密切;另外网络标准差也有所加大为0.4926,变异系数增至1.1886,标准差与变异系数增大说明流动性与扩散性加大,研究热点的辐射能力增强。以上结果预示经过前期阶段的探索,档案信息化领域的研究进入了快速扩张时期,档案信息化领域的核心主题已经向管理规范化建设及数字化建设方向快速发展。
(3)成熟期网络密度为0.5440,该阶段的密度值对比上一阶段差别不大、略有下降,但是整体网络同样具有较大的网络密度,表示结构联系较紧密,多个关键词在同一篇文献出现的概率很大;密度标准差进一步增加达到0.4981,但是变异系数比上一个阶段略降为1.0922,表示热点研究仍然具有极强的对环境的影响力与拓张力。说明该阶段研究主题已经处于饱和稳定状态,在上一阶段基础上又有了新的领域扩充或创新研究方向的转变,分析可知该阶段研究已经由管理层面向应用实践领域拓展。
在样本时间范围内对网络密度、标准差与离散系数进行分期研究,结果表明整体网络的结构呈现出由较为松散到紧密聚集,最后又趋于平稳的分布结构特征,显示由萌芽期、发展期再到成熟期的典型生命周期特征。
2.网络关联性
描述网络结构分布特征的另一个重要指标就是网络关联度,网络关联度表示关键词之间联系的稳健性或脆弱性〔20〕。描述整体网络关联度指标包括平均距离、凝聚力与离析度,将连接2 个任意节点之间的最短途径的平均长度定义为网络平均长度或称之为特征途径平均距离,作为描述关联度指标之一,平均距离越小,表示两个点之间的平均途径越短;另外凝聚力指数与离析力指数也都是揭示整体网络的关联度的,其中基于距离的凝聚力指数又称为紧凑度,该指数越大,表明整体网络关系越紧密,权力与信息越集中,更不容易受环境其他成员的影响,凝聚力指数与网络紧密程度成正比;同时另一个指标为基于距离的离析指数,该值与凝聚力指数之和为1,即凝聚力大,离析力就小;反之亦然。关联度如表5 所示:
表5 网络关联度、平均距离(特征途径长度均值)、凝聚力与离析力
(1)萌芽期以“档案信息化”为核心的研究热点的高频关键词网络的平均距离为2.019,即表示任意两个关键词之间的联系不存在障碍,即使它们不在同一篇文献中出现,也可以通过2.019 个关键词或步骤建立联系。基于距离的凝聚力指标为0.563,离散指数为1-0.563=0.437,说明这个阶段的凝聚力对比离散度,优势不明显。
(2)发展期以“档案信息化”为核心的热点主题,高频关键词网络的平均距离为1.414,就是说所有高频关键词之间只要通过1.414 个词或步骤就可以建立联系。基于距离的凝聚力即网络关联性程度为0.793,说明网络关键词之间的互动较为频繁。对比萌芽期,途径距离减小并且凝聚力增加,这也再次体现由整体网络结构关联程度提高的趋势,同时,发展期的离散度0.207 相比萌芽期的0.437,紧凑度明显提高。对比离散度0.207 紧凑度占明显优势。
(3)成熟期以“档案信息化”为核心的高频关键词网络的平均距离为1.456,表示平均每两个关键词之间只要通过1.456 个词或步骤就可以建立联系。基于距离的凝聚力指标为0.722,对比发展期,途径距离与凝聚力都略有减少,表明整体网络结构关联度略有下降,档案信息化研究开始从快速发展向稳定成熟并逐步分化的态势,同时凝聚力相比离散力优势也略有下降。
在样本时间范围内对关联度进行分期研究,网络途径距离指标表示“档案信息化”研究领域的关键词网络关联程度较高,基本三个时间阶段都可在2 步左右建立联系;凝聚力与离散度指标的对比揭示网络凝聚力快速提升后趋于稳定,虽有小幅下降,但呈现出由萌芽期到发展期再到成熟期的典型生命周期的分期态势。
3.网络中心性
社会网络分析是从“关系”角度出发对“权力”进行定量研究的方法,“中心性”研究是社会网络分析的重点之一。中心性包括中心度与中心势〔21〕,中心度是热点主题在社会网络中居于核心位置与权力程度的测度,中心度越高,说明核心地位即权力越大;反之则越小。中心势考察的是整个网络的协同性与整合性,揭示整个网络的中心化程度,中心势越接近1,说明网络越具有集中趋势。描述网络中心性特征的指标进一步划分为:点度中心性、中介中心性和接近中心性。
点度中心度是关键节点所处的核心位置的表征,点度中心度越高,表示其地位与权力越高;而点度中心势代表核心节点的整合能力,该值越高,说明网络关键词之间整合能力越高。中介中心度表示核心节点对其他节点的控制能力,该值越高说明核心节点对其环境的控制能力与影响能力越强;而中介中心势,代表网络整合过程中的中介传递能力的高低。接近中心性是揭示网络不受环境因素控制的测度,数值越高说明核心节点独立性与有效性越强〔21〕;接近中心势同样代表整体网络的整合能力,该值越高,说明其独立转播与扩散能力越大。表6 为中心性各指标数值。
表6 网络中心度与中心势
(1)点度中心性的分期分析。按照时间维度由萌芽期到发展期再到成熟期,点度中心度呈现增长趋势,由萌芽期12.933 到发展期的204.213 涨幅激增,由发展期至成熟期的255.174 增幅有限,这表明“档案信息化”研究的热点主题从萌芽期过渡到发展期时就已经占据了该领域的绝对核心位置,掌握了社会网络中最多资源,并且这种情况在成熟期时得到保持;点度中心势由萌芽期19.05%到发展期的15.4%再到成熟期8.66%,始终呈现出下降趋势,整体网络的核心整合能力下降预示研究主题热点的横向拓张能力有所增加,由理论层面研究、管理层面研究向其他应用领域的探索扩散的趋势增强。总之根据点度中心度的分期数值可以看到,随生命周期发展,热点主题在网络中的权力核心地位快速升高;而点度中心势的分期值表明,各研究主题热点之间集中趋势下降,说明该阶段所涉及的研究领域变得更加广泛。
(2)中介中心性的分期分析。按照时间维度由萌芽期到发展期再到成熟期,中介中心度呈现快速下降后略有回升的趋势,萌芽期中介中心度22.422 表示关键词核心节点对整体网络的控制程度较高,到发展期的9.326 降幅较大再至成熟期10.261 平稳略增表明,随着时间周期的推进,网络体现出以“档案信息化”为主题的核心节点的控制主导地位下降后略回升的变化趋势;而中介中心势由萌芽期29.82%到发展期的3.46%再到成熟期3.18%,始终呈现下降的趋势,表明核心主题作为中介节点对其周围环境节点的控制整合能力慢慢下降,拓张能力增强。总之,由中介中心度的分期研究可以看到,主题热点作为中介对其他研究热点的控制影响能力有所下降;而由中介中心势的分期值表明,核心热点对整体网络的中介整合影响能力下降,这说明随着生命周期发展,档案信息化领域涉及的研究更加广泛,横向发展向其他领域扩散拓张能力得到提升,与前面的研究结论相吻合。
(3)接近中心性的分期分析。按照时间维度该主题热点由萌芽期到发展期再到成熟期,接近中心度由萌芽期的50.605 快速增长为发展期71.677,再略有下降到成熟期的70.862,表明整体网络节点之间的独立传播与自主地位在由萌芽期过渡到发展期时有所增强,并且在成熟期时基本保持稳定;接近中心势由萌芽期57.87%到发展期49.76%再成熟期55.75%相对稳定,变化不大。由接近中心性的分期值可以看到,网络核心节点的独立发展能力增强,同样证明随着生命周期发展,档案信息化领域的横向拓张趋势提升。
在样本时间范围内对中心性进行分期研究,中心度显示其核心地位与控制地位在发展期达到高峰值,而中心势表明在成熟期其辐射能力及独立影响力较高,说明在成熟期应用领域的传播与扩散能力的提升态势。
四、研究结论
(一)时间维度呈现典型生命周期趋势
按照时间维度对文献发文量进行分析,可以得到“档案信息化”的热点主题研究及演化发展符合生命周期理论特征,具体划分为三个生命周期阶段:第一个阶段是初始形成期即萌芽期(1997-2002 年)、第二个阶段是快速扩张期即发展期(2003-2012 年)、第三个阶段是饱和平稳期即成熟期(2013-2019 年)。时间维度的分期研究显示该研究热点主题由理论探索的萌芽期,到内容多元化的快速发展期,再逐渐趋于多领域广覆盖率的稳定成熟期,同时一个不明显的转型期特征有所显现。
(二)热点主题研究的阶段性周期特征显著
通过对热点主题的各个生命周期阶段进行研究,包括基础统计分析与聚类可视化图谱分析,可以发现热点主题呈现出明显的阶段性分期特点。词频与VOSviewer 可视化图谱分析结果表明,热点主题的分布特征为由松散趋于密集再到平稳饱和,具体表现为:由萌芽期的注重基础理论建设,到发展期强调管理层面的建设,包括软件与硬件技术及人力资本等管理层面的深入快速发展,再到成熟期在实践应用领域的横向拓展,并呈现出开始在多领域形成新的研究热点的分化期趋势特点。
(三)整体网络结构的生命周期演化特点明显
通过利用不同评价指标,从多维度对整体网络的结构特点进行阶段性分期量化分析,结果显示,档案信息化领域的研究呈现出典型生命周期势态。网络密度的分期演化过程表明,从萌芽期、发展期再到成熟期,该主题研究热点越来越被重视,网络结构更加紧密;通过整体网络关联度分期分析结果表明,随着生命周期的发展,整体网络的内部结构与外部环境之间建立联系越来越简单,集聚能力和影响力都有强化提升;通过网络中心度分期分析可以看到,“档案信息化”研究热点的核心地位和控制地位由低向高的快速攀升扩张,再到逐渐平稳略降;而中心势的分期特征进一步证明,核心热点的传播与扩散能力有所提升的态势,预示该领域热点逐渐向其他应用领域拓张趋势明显。