APP下载

基于CNKII的数字档案馆研究可视化分析

2015-05-30李晓明

北京档案 2015年10期
关键词:发文档案馆图谱

摘要:为系统分析我国数字档案馆研究成果,促进数字档案馆的研究和建设,运用文献计量和可视化分析方法,对CNKI收录的1999~2014年数字档案馆研究的期刊文献,从数量、作者、机构、主题等方面进行统计,并结合知识图谱进行可视化分析,总结国内数字档案馆研究的文献分布、高产作者和机构,揭示数字档案馆研究的热点和发展趋势。

关键词:数字档案馆知识图谱可视化分析统计分析CNKI CiteSpace

Abstract:In order to analyse systematically the research findings of digital archives in our country,pro? mote the research and construction of digital ar? chives, this paper uses econometric analysis method and visualization analysis software to count the litera? ture quantity, authors, institutions, and themes of pe? riodical literatures on digital archives included in Chi? na National Knowledge Infrastructure(CNKI)pub? lished during 1999~2014, analyses the related knowl? edge maps drew by CiteSpace, summarizes the litera? ture distribution, high yield authors and institutions, reveals the hotspots and development trends of do? mestic studies on digital archives.

Keywords:Digital archives;Mapping knowledge domain;Visual analysis;Statistical analysis;CNKI;CiteSpace

一、引言

数字档案馆(Digital Archives)是伴随着电子技术、计算机技术、网络技术、通讯技术、数据库技术、多媒体技术等的发展而产生的新型档案馆,也称作电子档案馆、虚拟档案馆、无墙档案馆等。[1]虽然,国内对数字档案馆的研究时间仅有十多年,但是近年来出现的富有行业特色的数字档案馆,如数字城建档案馆、企业数字档案馆等已经引起档案界的关注,并正在成为我国档案领域研究的重点和热点之一。具体而言,从国家宏观层面来看,相关政策和管理的稳步推进,促进和推动了我国数字档案馆的研究与实践。例如,自2002年以来,国家档案局陆续发布了《全国档案信息化建设实施纲要》《档案事业发展“十二五”规划》《数字档案馆建设指南》和《数字档案室建设指南》等标准规范。从微观层面来看,经过专家学者和档案工作者的不懈努力,也取得了丰硕的成果。在国内不断建成各类数字档案馆的基础上,促进我国数字档案馆建设的研究正在进一步深入。例如,2013年10月,时任国家档案局局长杨冬权在全国数字档案馆(室)建设推进会上发表了重要讲话,明确提出“用15年左右的时间,建成以数字资源为基础、安全管理为保障、远程利用为目标的数字档案馆(室)体系”[2]的我国数字档案馆(室)建设目标。2014年2月,国家档案局成立了数字档案馆(室)建设领导小组,杨冬权主持召开领导小组第一次会议,讨论通过了领导小组工作规则和《2014年数字档案馆(室)建设重点工作》。[3]

为全面客观和系统地反映我国数字档案馆的研究历程,总结研究特点,分析研究热点,探寻研究趋势,为未来数字档案馆的研究、建设和实现我国数字档案馆建设的目标提供借鉴,笔者收集了中国知网(CNKI)收录的有关期刊文献并加以整理,借助相关软件对整理后的文献进行统计和可视化分析。可视化分析,作为一种新兴的信息处理分析方法,在档案类文献方面的研究仅有几年时间,对数字档案馆进行可视化分析的文献更少。例如,笔者在LISA数据库中未检索到相关文献,在CNKI中仅检索出相关文献2篇。

二、样本文献来源、统计与分析工具

(一)样本文献来源

本文进行统计分析时抽取的样本主要为由CNKI检索而来的文献,选取时间为1999~2014年,检索日期为2015年1月26日,共得到检索结果1472篇。为确保检索结果的全面性,笔者对检索主题进行反复调试后,确定了以“篇名”为主题的检索入口,以“TI=‘虚拟/PREV 2档案馆OR TI=‘虚拟/PREV 2档案室OR TI=‘数字/PREV 2档案馆OR TI=‘数字/PREV 2档案室OR TI=‘数字化/PREV 2档案馆OR TI=‘数字化/PREV 2档案室OR TI=‘云档案馆OR TI=‘电子/PREV 2档案馆OR TI=‘电子/PREV 2档案室OR TI=‘无墙/PREV 2档案馆OR TI=‘无墙/PREV 2档案室”为表达式的检索路径,对期刊、特色期刊、学术期刊三个数据库进行全面检索。同时,为确保样本的准确性,笔者逐一核对了题录与原文,剔除消息、广告、领导讲话、标准法规、文摘、书评等非学术研究类文献和一稿多投的重复文献,经整理,得到相关文献1339篇。

(二)统计分析工具与数据处理

进行统计分析时,主要借助两个软件工具,一是国内使用较广泛的CiteSpace(版本号3.7. R7),[4]该软件由美国学者陈超美开发,用于绘制知识图谱,计算节点的突变率、中心性等;二是作者自编的关系型数据库软件,用于机构、关键词等数据项的规范或补充,区分不同机构的同名作者,筛选分析样本,快速生成相关统计报表,并可生成用于CiteSpace处理的数据格式文件。[5]在进行数据处理时,利用自编软件完成。一是对简称、更名、合并及不同写法的机构名称进行统一;二是对部分关键词进行合并,删除CNKI自动标引的机标关键词;三是区分同名作者;四是剔除误检及不宜用作分析的非研究性文献,一稿多投文献仅保留1篇。经以上处理后,由自编软件生成可用于CiteSpace的WOS格式数据文件。

三、数字档案馆研究的可视化分析

本文研究中相关数据由CiteSpace软件和自编软件统计得出,二者有关文献年代分布、作者与机构发文数量、关键词频次等重点方面的统计结果相同。另外,文中表格由工具软件分别生成或合并而成,作者合著网络图谱、机构合著网络图谱和研究主题与热点知识图谱由CiteSpace软件绘制并经调整生成。

运用CiteSpace绘制图谱的时间范围为1999~2014年,以每2年为界进行时间分区,图谱上方由不同颜色色段连成的年度色带(自左至右由冷色至暖色),每种颜色分别代表2个年度,暖色对应的年份较近。时区阈值根据图谱效果调试设置;Pruning(剪切连线算法)选择Pathfinder(路径搜索算法)或Minimum Spanning Tree(最小生成树)及Pruning sliced networks(路径网络简化),这些设置及主要处理结果均在图谱的左上方呈现。图谱中的圆,分别代表作者、机构和关键词节点,节点内的色环及节点间的连线颜色代表的年度,与年度色带颜色表示的年度相对应。图谱中部分节点内还有红色色环,这些红色色环是突显率,反映较短时间内数量增长的快慢。

(一)文献量和作者分析:2000年以来,数字档案馆在我国得到了较快发展,虽然部分年份上研究数量有所回落,但是基本呈稳中有升的趋势,如图1所示。同时,以潘连根、程妍妍、袁红军、唐艳芳、傅荣校等为代表的档案学者是数字档案馆研究的领军人物

具体而言,独著论文占绝大多数,合著文献数量较少。经统计,1339篇文献中共包括1458个作者(含非第一作者)。其中,独著961篇,占比71.77%;两人合著287篇,占比21.43%。将数据导入CiteSpace,以节点类型选择作者(Author),运行调试后,得到文献作者的合著网络图谱,如图2所示。节点越大,表明作者的发文量越多,如潘连根、程妍妍、袁红军、唐艳芳等。同时,节点中有红色色环,表明他们在较短时间内发文较多。节点中的色环越厚,表明对应年份作者的发文越多,如潘连根、程妍妍、金更达等。节点间的连线,表明相连的作者间有合著。图中还有个别作者姓名后有大写字母,这是为了区分同名作者而添加的。值得注意的是,统计结果与图谱显示的发文数量较多的作者(按第一作者发文量排序,“+”号的数字为第二作者发文数)大体相当。但图中个别较大的节点并未出现在表中(如谢海洋、金波、姚乐野等),这是由于CiteSpace生成的图谱节点仅依据总发文量生成,而没有区分作者排序,如表1所示。

(二)发文机构分析:解放军南京政治学院上海校区、武汉大学、中国人民大学、绍兴文理学院等是数字档案馆研究的重要机构

经统计,1339篇文献中共有机构724个(含不详和非第一作者机构)。其中,第一作者机构665个,且发文超过10篇的16个机构(发文量达322篇),仅1篇的482个。将数据导入CiteSpace,以节点类型选择机构(Institution),运行调试后,得到数字档案馆研究文献的机构合著网络图谱,如图3所示。节点越大,表明机构的发文量越多,如解放军南京政治学院上海校区、武汉大学、中国人民大学、绍兴文理学院等。此外,绍兴文理学院、上海大学、郑州师范学院等带有红色色环,表明这些机构在数字档案馆研究的某个阶段有较高的发文量。同时,笔者还对第一发文机构发文量的前十名进行了统计,依次为南京政治学院上海校区、武汉大学、中国人民大学、绍兴文理学院、浙江大学、上海大学、湘潭大学、郑州师范大学和南昌大学、苏州大学。

(三)主题分析:数字化、信息化、知识管理是数字档案馆研究的热点主题;云计算、建设、档案馆、数字化和数字城建档案馆是数字档案馆研究的前沿方向

关键词是从文献的标题、摘要和正文中选取的,能够反映文献的主题,[6]研究中往往用关键词进行主题分析,从中探究研究热点和趋势。经统计,1339篇文献中关键词2385个,其中不同关键词871个,有关键词的文献706篇。将数据导入CiteSpace,以节点类型选择关键词(Keyword),运行调试后,得到研究主题与热点知识图谱,如图3所示,为清晰显示节点及节点间的关系,图中隐藏了出现频次最高的关键词“数字档案馆”。节点越大,表明关键词出现的频次越高,节点间的连线及粗细体现出节点间共现关系的强弱。将自编软件统计的关键词频与CiteSpace导出的报表整合成表2。图中出现了数字化、信息化、知识管理等12个带有紫色外环的高中心性节点(中心性>0.1),表明这些节点在主题知识图谱中占据重要位置,是数字档案馆研究的热点主题。此外,图中的云计算、建设、档案馆、数字化和数字城建档案馆带有红色内环,代表了国内数字档案馆研究的前沿方向。

运用可视化工具进行统计分析比传统的统计分析生动形象,但在同名作者及作者排序的区分、机构名称的一致、关键词的规范等方面仍存在问题,因而不能简单地以从相关数据库中获取的数据作为统计分析d依据,而要对此进行综合分析才能使结论更加客观真实。

注释及参考文献:

[1]潘连根.数字档案馆与相关概念的关系——数字档案馆研究之一[J].浙江档案,2004(3):18-20.

[2]杨冬权.在全国数字档案馆室)建设推进会上的讲话[J].中国档案,2013(11):16-21.

[3]韩冬.加强领导统筹规划狠抓落实——国家档案局数字档案馆室)建设领导小组近日成立[N].中国

[4]Chen Chaomei. CiteSpace:Visualizing Patterns and Trends in Sci? entificLiterature[CP/OL].[2014-06-15].http://cluster.cis. drexel.edu/~cchen/citespace/download/.

[5]李晓明. CAJD电子文件研究高被引文献的知识图谱分析[J].档案管理,2015(1):13-16.

[6]倪丽娟,于淑丽.档案学研究热点分析——基于2004-2008年《档案学研究》、《档案学通讯》论文关键词的词频分析[J].档案学通讯,2010(1):19-22.

作者单位:北京电子科技学院图书馆(档案馆)

猜你喜欢

发文档案馆图谱
绘一张成长图谱
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
校园拾趣
爷孙趣事
以牙还牙
补肾强身片UPLC指纹图谱
全省部分档案馆新馆掠影
主动对接你思维的知识图谱
太仓市数字档案馆成为“全国示范数字档案馆”
when与while档案馆