2001年~2013年国内档案数字化研究文献分析
2014-07-08李晓明宫启生谢静静
李晓明+宫启生+谢静静
摘 要:为客观反映我国档案数字化研究的相关情况,促进数字档案馆建设,运用文献计量和可视化分析方法,对CNKI收录的2001年以来有关档案数字化研究的期刊论文从时间、来源、作者、机构、主题和热点等角度,结合CiteSpace绘制的知识图谱进行统计及可视化分析。结果表明,档案数字化期刊论文持续增长,高发文作者数量较少,作者及机构间合作不多,档案数字化、对策、高校档案等是研究的热点。
关键词:档案数字化;计量分析;可视化分析;CiteSpace;知识图谱;CNKI;2001~2013
1 引言
档案数字化是将传统的纸质档案、图像照片、声像档案和缩微胶片等通过扫描、摄录、采集等手段转化为数字形式的计算机文件的过程。[1]档案数字化对提高档案信息利用效果、确保传统载体档案安全、节省存储空间、实现档案精细化和自动化管理、建设现代新型档案馆等具有重要意义,是档案信息化、网络化的要求,更是数字档案馆建设的首要任务。[2]
上世纪后期,我国开始了档案数字化的研究和实践,随着时代的发展和技术的进步,特别是国家相关政策、标准的陆续完善,有力地促进了档案数字化工作。国家档案局2005年发布了标准《纸质档案数字化技术规范》(DA/T 31-2005),2011年印发了《全国档案事业发展“十二五”规划》,要求“加快推进传统载体档案数字化”。[3]为加快档案数字化,推进数字档案馆建设,去年10月,国家档案局局长杨冬权在全国数字档案馆(室)建设推进会上发表了重要讲话,将“按照‘存量数字化的要求,大力推进传统载体档案数字化”作为实现未来15年我国数字档案馆(室)建设目标必须重点抓好的第一项工作。[2]
为客观总结我国档案数字化研究的情况,探析研究热点、前沿和趋势,本文以从中国知网(CNKI)收集的有关期刊文献为数据源,利用计量和可视化方法对档案数字化相关研究进行统计和知识图谱分析。
2 文献来源、数据处理与研究工具
以检索式“TI=‘档案 /AFT 0 数字化 OR KY=‘档案 /AFT 0 数字化 OR KY=‘档案*数字化”对中国知网的学术期刊网络出版总库、特色期刊、学术辑刊三个库进行专业检索,时间范围为2001年~2013年,检索时间为2014年1月15日,检索结果为1716篇。
为确保分析结果准确,作者对检索获取的所有文献的篇名、作者、机构、关键词等字段逐一进行了核对,剔除了重复文献和消息、动态、讲话、书评等非学术研究类文献,相关性不强且内容仅1页的文献。经整理后,用于分析的文献共计1369篇。
研究工具采用自编的数据统计软件和美籍华人陈超美开发的信息可视化软件CiteSpace Ⅲ(版本号3.7.R7),该软件可用于探测和分析学科研究前沿随着时间相关的变化趋势以及研究前沿与其知识基础之间的关系,辨识出学科前沿的演化路径及学科领域的经典基础文献。[4]由于CNKI的数据没有参考文献,因而无法充分利用CiteSpace的一些功能。
尽管CiteSpace可对CNKI下载的题录数据通过转换进行处理,但由于用于分析的数据量较大,难以从中剔除无效数据,同时也无法对关键词、机构、地域等进行规范处理,无法补充部分可以完善的缺项,无法区分同名作者。为此,作者利用自编的程序对数据进行了相应处理,生成了可供CiteSpace利用的数据格式文件,导入软件生成知识图谱进行分析。
3 文献相关统计和知识图谱分析
运用相关计算机软件和可视化工具,对文献分布、作者和机构发文、关键词等进行统计与分析,可以开展知识发展脉络、热点前沿等研究。为更好地促进国内档案数字化研究,对已有研究成果进行总结,这对我国加快档案数字化进程,实现数字档案馆的建设目标具有一定的参考价值。本研究中利用自编软件对机构名称、机构地域、关键词进行了统一和规范,对同名作者进行了区分,相关统计数据也由自编软件统计得出,同时利用CiteSpace软件绘制了作者合著网络图谱、机构合著网络图谱和研究热点主题图谱。
3.1 文献的时间分布与来源分布。本文中用于分析的文献年度分布如图1所示,图中清晰地显示出国内档案数字化研究的文献数量逐年增长,2007年发文数量超过100篇,近两年更是突破了200篇。
图1 分析文献数量的年度分布(单位:篇)
经统计,以上文献来源于413种期刊,表1列示了载文前20位的期刊和发文量。发文5篇及以下的刊物多达372种(其中仅1篇的280种,2篇的55种),发文超过10篇的28种期刊的发文数达746篇,占发文总数的54.5%,可见国内档案数字化的研究成果大量集中在档案及相关期刊上,档案类核心期刊的发文量都在前20位,是发文的主体。
表1 发文数量前20位期刊统计表(单位:篇)
3.2 文献的作者分布。利用自编软件区分同名作者后统计,1369篇文献由1624位作者独自或合作贡献,发文作者共计1770人次,篇均作者1.29人,其中独著文献1084篇,两人合著201篇,3人合著61篇。将处理生成的数据导入CiteSpace,选择网络节点为Author,设置相关阈值,运行后得到作者合著网络共现图谱(图2,左上角为调试后设定的参数,下同),图中作者姓名后的字母为区分同名作者的标记。
图2 作者合著网络图谱
图中圆内的色环和连线的颜色对应上方的时区色带所表示的年份(年轮,本文中时区均为1年);圆为作者节点,圆越大,表明作者发文越多,如张照余、项文新、卞咸杰等;圆中不同的色环体现的是相应年份的发文量,色环越厚,对应年份的发文越多;节点间连线的颜色对应的是作者间首次合作相关论文的时区,线条粗细与其联系紧密程度成正比。[5]从图中还可看出,整个合著网络比较零散,作者间的连线较少,表明作者多为独立研究,作者间的合作不多。
表2列示了高产作者及发文量(“+”号后为第二作者发文数),与图2基本一致。图2中个别圆环较大但未列在表2中的作者,是由于非第一作者发文数较多所致,CiteSpace不区分作者排序,只计算发文数量,如赵红颖、史江在CiteSpace中统计的发文总数为4篇,但以第一作者的发文数均为1篇。
表2 高发文作者及发文量(单位:篇)
3.3 文献的机构分布。利用自编软件对机构规范后进行统计,1369篇文献由1056个机构的作者独自或合作贡献,可见发文机构比较分散。将处理生成的数据导入CiteSpace,选择网络节点为Institution,设置相关阈值,得到机构合著网络共现图谱(图3)。
图3 机构合著网络图谱
图中圆内的不同色环对应上方时区色带所代表的年份;圆为机构节点,圆越大,表明发文越多,如苏州大学、中国人民大学、云南大学等;圆中色环呈现的是相应年份的发文量,色环越厚,对应年份发文越多。图中节点间没有连线,表明机构间没有合作(如调低阈值,有连线)。高发文机构及发文量统计如表3所示,发文量靠前的机构中高等院校比重较大。
表3 高发文机构及发文数量(单位:篇)
表4列示了第一作者机构类型及发文统计。统计文献中,高等院校及其档案馆发文量较多,加上高校图书馆,发文量占四成多;各级各类档案馆发文量也较多,表明这些档案馆都关注档案数字化工作。
表4 第一作者机构类型及发文数量(单位:篇)
3.4 主题与热点分析。关键词是从文献的标题和正文中抽取的最能够反映文献内容的词,通过分析关键词的变化可以全面把握该学科发展的动态过程、特点和规律,反映科研的研究热点和发展动向。CiteSpace不仅能进行词频统计,并能以图谱显示和体现词间的共现关系,而且还可对关键词进行中心性计算,突出显示关键点,便于辨析和进行深度分析。
选用关键词进行主题分析时,未使用机标关键词。选择网络节点为Keyword,设置相关阈值,运行CiteSpace后得到研究热点主题图谱(图4)。图中圆表示关键词节点,圆越大,说明对应主题出现的频次越高;圆内色环越厚,表明该颜色对应年份出现的频次越高;圆间连线的颜色对应关键词间首次共现的时间,连线粗细体现出关键词间共现的次数。图中部分节点出现了不同厚度的紫色外环,表明它们的突显度或中心性高,如档案数字化、对策、高校档案等。
图4 档案数字化研究热点主题图谱
表5列出了20个高频关键词及其中心性。对比表5的中心性值和词频可以发现,除管理、企业档案、城建档案、纸质档案、信息、扫描、档案信息6个关键词外,其余14个关键词的中心性均大于0.1,且除这14个关键词外,在CiteSpace导出的相关数据统计表中再无中心性大于0.1的关键词。词频和中心性高的关键词可以认为是研究的热点,根据这些热点可以归纳出档案数字化研究的主题大类包括:档案数字化、档案数字化建设的问题与对策、高校档案数字化、档案数字化与管理、档案数字化与信息化。
表5 高频关键词的中心性及词频数
值得注意的是,CiteSpace导出的数据统计表中“对策、扫描、信息资源(词频为12)”三个关键词具有突变性,突变值分别为3.73、2.82和2.92。出现频次增长率快速增加的专业术语将被确定为研究前沿术语,[6]可以据此预测,档案数字化对策、数字化扫描相关问题和数字化档案信息资源的管理与利用应当是档案数字化的研究前沿。
4 总结
档案数字化的实质是将纸质、音像等传统载体档案加工成数字形态的电子档案。档案数字化已成为当前我国各级各类档案机构的一项迫切任务。本文通过利用自编软件及CiteSpace软件对国内期刊文献进行计量分析和可视化分析,可以得出以下结论。
1.2001年以来,有关档案数字化的期刊论文发文量逐年上升,档案类期刊特别是核心期刊是发文的主体,表明档案数字化是档案研究和档案工作实践的重要内容。
2.档案数字化研究高发文作者和机构数量偏少,作者及机构间的合作次数不多,说明缺乏一批专注于档案数字化相关研究的作者或机构,自由探索式的分析与研究多。
3.具有较强科研能力的专业教育机构及其下属机构发文数量多,高校是档案数字化研究的主力;各级各类档案馆发文数量也较多,表明全国档案界对档案数字化工作高度重视,积极开展相关研究和实践。
4.从高词频和高中心性关键词看,档案数字化、高校档案、数字化建设、档案管理、高等学校、信息化、数字档案、数字化管理等关键词所涉及的研究是档案数字化的研究热点,而对策、扫描、档案信息等关键词所涉及的研究是档案数字化的研究前沿。
2013年10月全国数字档案馆(室)建设推进会的召开,无疑将更加有力地推动全国的档案数字化工作。借鉴已有的研究成果,总结档案数字化的经验,更加深入地研究档案数字化中遇到的各类问题,寻求数字化外包的安全之策、完善数字化的过程管理和数据管理、数字化扫描质量的保障、云技术等崭新的信息技术的应用将是未来几年档案数字化建设实践和研究的重点内容。加快完成各类档案的数字化,迎接大数据时代的挑战,是档案界共同的使命与责任。
*本文系中央高校基本科研业务费资助项目“档案数字化的管理与应用研究”(BESTI-JBKY-201104)成果之一。
参考文献:
[1]张照余. 档案信息化理论与实践[M]. 北京:中国档案出版社,2007:229.
[2]杨冬权.在全国数字档案馆(室)建设推进会上的讲话[N].中国档案报,2013-10-18(1).
[3]国家档案局,中央档案馆. 关于印发《全国档案事业发展“十二五”规划》的通知[EB/OL](2011-01-14)[2014-01-15]. http://61.135.203. 75/zt/2011-01/14/content_12721.htm.
[4]刘则渊,陈悦,侯海燕,等. 科学知识图谱:方法与应用[M]. 北京:人民出版社,2008:167~168.
[5]宗乾进,等. 2009年中国情报学研究热点的知识图谱分析[J]. 情报杂志,2011,30(5):33~37.
[6]陈超美. CiteSpace Ⅱ:科学文献中新趋势与新动态的识别与可视化[J].情报学报,2009(3):401~421.
(作者单位:北京电子科技学院图书馆(档案馆) 来稿日期:2014-04-07)
表2列示了高产作者及发文量(“+”号后为第二作者发文数),与图2基本一致。图2中个别圆环较大但未列在表2中的作者,是由于非第一作者发文数较多所致,CiteSpace不区分作者排序,只计算发文数量,如赵红颖、史江在CiteSpace中统计的发文总数为4篇,但以第一作者的发文数均为1篇。
表2 高发文作者及发文量(单位:篇)
3.3 文献的机构分布。利用自编软件对机构规范后进行统计,1369篇文献由1056个机构的作者独自或合作贡献,可见发文机构比较分散。将处理生成的数据导入CiteSpace,选择网络节点为Institution,设置相关阈值,得到机构合著网络共现图谱(图3)。
图3 机构合著网络图谱
图中圆内的不同色环对应上方时区色带所代表的年份;圆为机构节点,圆越大,表明发文越多,如苏州大学、中国人民大学、云南大学等;圆中色环呈现的是相应年份的发文量,色环越厚,对应年份发文越多。图中节点间没有连线,表明机构间没有合作(如调低阈值,有连线)。高发文机构及发文量统计如表3所示,发文量靠前的机构中高等院校比重较大。
表3 高发文机构及发文数量(单位:篇)
表4列示了第一作者机构类型及发文统计。统计文献中,高等院校及其档案馆发文量较多,加上高校图书馆,发文量占四成多;各级各类档案馆发文量也较多,表明这些档案馆都关注档案数字化工作。
表4 第一作者机构类型及发文数量(单位:篇)
3.4 主题与热点分析。关键词是从文献的标题和正文中抽取的最能够反映文献内容的词,通过分析关键词的变化可以全面把握该学科发展的动态过程、特点和规律,反映科研的研究热点和发展动向。CiteSpace不仅能进行词频统计,并能以图谱显示和体现词间的共现关系,而且还可对关键词进行中心性计算,突出显示关键点,便于辨析和进行深度分析。
选用关键词进行主题分析时,未使用机标关键词。选择网络节点为Keyword,设置相关阈值,运行CiteSpace后得到研究热点主题图谱(图4)。图中圆表示关键词节点,圆越大,说明对应主题出现的频次越高;圆内色环越厚,表明该颜色对应年份出现的频次越高;圆间连线的颜色对应关键词间首次共现的时间,连线粗细体现出关键词间共现的次数。图中部分节点出现了不同厚度的紫色外环,表明它们的突显度或中心性高,如档案数字化、对策、高校档案等。
图4 档案数字化研究热点主题图谱
表5列出了20个高频关键词及其中心性。对比表5的中心性值和词频可以发现,除管理、企业档案、城建档案、纸质档案、信息、扫描、档案信息6个关键词外,其余14个关键词的中心性均大于0.1,且除这14个关键词外,在CiteSpace导出的相关数据统计表中再无中心性大于0.1的关键词。词频和中心性高的关键词可以认为是研究的热点,根据这些热点可以归纳出档案数字化研究的主题大类包括:档案数字化、档案数字化建设的问题与对策、高校档案数字化、档案数字化与管理、档案数字化与信息化。
表5 高频关键词的中心性及词频数
值得注意的是,CiteSpace导出的数据统计表中“对策、扫描、信息资源(词频为12)”三个关键词具有突变性,突变值分别为3.73、2.82和2.92。出现频次增长率快速增加的专业术语将被确定为研究前沿术语,[6]可以据此预测,档案数字化对策、数字化扫描相关问题和数字化档案信息资源的管理与利用应当是档案数字化的研究前沿。
4 总结
档案数字化的实质是将纸质、音像等传统载体档案加工成数字形态的电子档案。档案数字化已成为当前我国各级各类档案机构的一项迫切任务。本文通过利用自编软件及CiteSpace软件对国内期刊文献进行计量分析和可视化分析,可以得出以下结论。
1.2001年以来,有关档案数字化的期刊论文发文量逐年上升,档案类期刊特别是核心期刊是发文的主体,表明档案数字化是档案研究和档案工作实践的重要内容。
2.档案数字化研究高发文作者和机构数量偏少,作者及机构间的合作次数不多,说明缺乏一批专注于档案数字化相关研究的作者或机构,自由探索式的分析与研究多。
3.具有较强科研能力的专业教育机构及其下属机构发文数量多,高校是档案数字化研究的主力;各级各类档案馆发文数量也较多,表明全国档案界对档案数字化工作高度重视,积极开展相关研究和实践。
4.从高词频和高中心性关键词看,档案数字化、高校档案、数字化建设、档案管理、高等学校、信息化、数字档案、数字化管理等关键词所涉及的研究是档案数字化的研究热点,而对策、扫描、档案信息等关键词所涉及的研究是档案数字化的研究前沿。
2013年10月全国数字档案馆(室)建设推进会的召开,无疑将更加有力地推动全国的档案数字化工作。借鉴已有的研究成果,总结档案数字化的经验,更加深入地研究档案数字化中遇到的各类问题,寻求数字化外包的安全之策、完善数字化的过程管理和数据管理、数字化扫描质量的保障、云技术等崭新的信息技术的应用将是未来几年档案数字化建设实践和研究的重点内容。加快完成各类档案的数字化,迎接大数据时代的挑战,是档案界共同的使命与责任。
*本文系中央高校基本科研业务费资助项目“档案数字化的管理与应用研究”(BESTI-JBKY-201104)成果之一。
参考文献:
[1]张照余. 档案信息化理论与实践[M]. 北京:中国档案出版社,2007:229.
[2]杨冬权.在全国数字档案馆(室)建设推进会上的讲话[N].中国档案报,2013-10-18(1).
[3]国家档案局,中央档案馆. 关于印发《全国档案事业发展“十二五”规划》的通知[EB/OL](2011-01-14)[2014-01-15]. http://61.135.203. 75/zt/2011-01/14/content_12721.htm.
[4]刘则渊,陈悦,侯海燕,等. 科学知识图谱:方法与应用[M]. 北京:人民出版社,2008:167~168.
[5]宗乾进,等. 2009年中国情报学研究热点的知识图谱分析[J]. 情报杂志,2011,30(5):33~37.
[6]陈超美. CiteSpace Ⅱ:科学文献中新趋势与新动态的识别与可视化[J].情报学报,2009(3):401~421.
(作者单位:北京电子科技学院图书馆(档案馆) 来稿日期:2014-04-07)
表2列示了高产作者及发文量(“+”号后为第二作者发文数),与图2基本一致。图2中个别圆环较大但未列在表2中的作者,是由于非第一作者发文数较多所致,CiteSpace不区分作者排序,只计算发文数量,如赵红颖、史江在CiteSpace中统计的发文总数为4篇,但以第一作者的发文数均为1篇。
表2 高发文作者及发文量(单位:篇)
3.3 文献的机构分布。利用自编软件对机构规范后进行统计,1369篇文献由1056个机构的作者独自或合作贡献,可见发文机构比较分散。将处理生成的数据导入CiteSpace,选择网络节点为Institution,设置相关阈值,得到机构合著网络共现图谱(图3)。
图3 机构合著网络图谱
图中圆内的不同色环对应上方时区色带所代表的年份;圆为机构节点,圆越大,表明发文越多,如苏州大学、中国人民大学、云南大学等;圆中色环呈现的是相应年份的发文量,色环越厚,对应年份发文越多。图中节点间没有连线,表明机构间没有合作(如调低阈值,有连线)。高发文机构及发文量统计如表3所示,发文量靠前的机构中高等院校比重较大。
表3 高发文机构及发文数量(单位:篇)
表4列示了第一作者机构类型及发文统计。统计文献中,高等院校及其档案馆发文量较多,加上高校图书馆,发文量占四成多;各级各类档案馆发文量也较多,表明这些档案馆都关注档案数字化工作。
表4 第一作者机构类型及发文数量(单位:篇)
3.4 主题与热点分析。关键词是从文献的标题和正文中抽取的最能够反映文献内容的词,通过分析关键词的变化可以全面把握该学科发展的动态过程、特点和规律,反映科研的研究热点和发展动向。CiteSpace不仅能进行词频统计,并能以图谱显示和体现词间的共现关系,而且还可对关键词进行中心性计算,突出显示关键点,便于辨析和进行深度分析。
选用关键词进行主题分析时,未使用机标关键词。选择网络节点为Keyword,设置相关阈值,运行CiteSpace后得到研究热点主题图谱(图4)。图中圆表示关键词节点,圆越大,说明对应主题出现的频次越高;圆内色环越厚,表明该颜色对应年份出现的频次越高;圆间连线的颜色对应关键词间首次共现的时间,连线粗细体现出关键词间共现的次数。图中部分节点出现了不同厚度的紫色外环,表明它们的突显度或中心性高,如档案数字化、对策、高校档案等。
图4 档案数字化研究热点主题图谱
表5列出了20个高频关键词及其中心性。对比表5的中心性值和词频可以发现,除管理、企业档案、城建档案、纸质档案、信息、扫描、档案信息6个关键词外,其余14个关键词的中心性均大于0.1,且除这14个关键词外,在CiteSpace导出的相关数据统计表中再无中心性大于0.1的关键词。词频和中心性高的关键词可以认为是研究的热点,根据这些热点可以归纳出档案数字化研究的主题大类包括:档案数字化、档案数字化建设的问题与对策、高校档案数字化、档案数字化与管理、档案数字化与信息化。
表5 高频关键词的中心性及词频数
值得注意的是,CiteSpace导出的数据统计表中“对策、扫描、信息资源(词频为12)”三个关键词具有突变性,突变值分别为3.73、2.82和2.92。出现频次增长率快速增加的专业术语将被确定为研究前沿术语,[6]可以据此预测,档案数字化对策、数字化扫描相关问题和数字化档案信息资源的管理与利用应当是档案数字化的研究前沿。
4 总结
档案数字化的实质是将纸质、音像等传统载体档案加工成数字形态的电子档案。档案数字化已成为当前我国各级各类档案机构的一项迫切任务。本文通过利用自编软件及CiteSpace软件对国内期刊文献进行计量分析和可视化分析,可以得出以下结论。
1.2001年以来,有关档案数字化的期刊论文发文量逐年上升,档案类期刊特别是核心期刊是发文的主体,表明档案数字化是档案研究和档案工作实践的重要内容。
2.档案数字化研究高发文作者和机构数量偏少,作者及机构间的合作次数不多,说明缺乏一批专注于档案数字化相关研究的作者或机构,自由探索式的分析与研究多。
3.具有较强科研能力的专业教育机构及其下属机构发文数量多,高校是档案数字化研究的主力;各级各类档案馆发文数量也较多,表明全国档案界对档案数字化工作高度重视,积极开展相关研究和实践。
4.从高词频和高中心性关键词看,档案数字化、高校档案、数字化建设、档案管理、高等学校、信息化、数字档案、数字化管理等关键词所涉及的研究是档案数字化的研究热点,而对策、扫描、档案信息等关键词所涉及的研究是档案数字化的研究前沿。
2013年10月全国数字档案馆(室)建设推进会的召开,无疑将更加有力地推动全国的档案数字化工作。借鉴已有的研究成果,总结档案数字化的经验,更加深入地研究档案数字化中遇到的各类问题,寻求数字化外包的安全之策、完善数字化的过程管理和数据管理、数字化扫描质量的保障、云技术等崭新的信息技术的应用将是未来几年档案数字化建设实践和研究的重点内容。加快完成各类档案的数字化,迎接大数据时代的挑战,是档案界共同的使命与责任。
*本文系中央高校基本科研业务费资助项目“档案数字化的管理与应用研究”(BESTI-JBKY-201104)成果之一。
参考文献:
[1]张照余. 档案信息化理论与实践[M]. 北京:中国档案出版社,2007:229.
[2]杨冬权.在全国数字档案馆(室)建设推进会上的讲话[N].中国档案报,2013-10-18(1).
[3]国家档案局,中央档案馆. 关于印发《全国档案事业发展“十二五”规划》的通知[EB/OL](2011-01-14)[2014-01-15]. http://61.135.203. 75/zt/2011-01/14/content_12721.htm.
[4]刘则渊,陈悦,侯海燕,等. 科学知识图谱:方法与应用[M]. 北京:人民出版社,2008:167~168.
[5]宗乾进,等. 2009年中国情报学研究热点的知识图谱分析[J]. 情报杂志,2011,30(5):33~37.
[6]陈超美. CiteSpace Ⅱ:科学文献中新趋势与新动态的识别与可视化[J].情报学报,2009(3):401~421.
(作者单位:北京电子科技学院图书馆(档案馆) 来稿日期:2014-04-07)