APP下载

基于文献计量的我国档案领域大数据研究现状分析

2016-11-22曹培培

山东档案 2016年5期
关键词:著者发文期刊

文・曹培培

基于文献计量的我国档案领域大数据研究现状分析

文・曹培培

近年来,大数据研究成为档案领域的研究热点。文章以CNKI中国学术期刊

档案;大数据;高频关键词;共词分析;聚类分析

随着移动互联网、物联网和云计算技术时代的到来,人们在日常学习、生活、工作中产生的互联网数据量正以指数形式增长,呈现“爆炸”状态,大数据问题在这样的时代背景下应运而生。那么,究竟什么是大数据呢?麦肯锡将其定义为无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合[1]。综合来看,大数据具有规模大、种类多、生成速度快、价值巨大但密度低的特点。因此,随着大数据时代的到来,如何将巨大的原始数据进行有效地利用和分析,使之转变成可以被利用的知识和价值,成为国内外国家政治领域、科研学术界和相关产业界共同关注的热门话题。在学术界,《Nature》于2008年推出大数据专刊,这应该是“大数据”一词开始得到业界肯定和接受的开端。随后,其渗透的领域不断蔓延,大数据逐步成为国内外学术界众多学科领域关注的研究热点。当然,档案领域也不例外。从2013年起,我国档案界的学者对大数据的研究关注逐年大幅度递增。随着研究的进一步深入,有必要对目前国内档案领域对大数据的研究现状进行一下梳理,分析当前的主要研究热点,为大数据在档案界实现更高层次的融合提供一些借鉴。

一、数据来源与研究方法

(一)数据来源

(二)研究方法

本文借助Excel数据透视表对我国档案领域大数据研究文献的发表时间、著者、来源、关键词进行了相关统计和分析;采用共词分析法,运用SATI3.2软件统计了高频关键词,并构建了高频关键词共现矩阵和相关矩阵,然后借助Spss19.0软件对文献的高频关键词了进行聚类分析。本文综合采用文献计量方法,以定性与定量相结合,统计分析出我国档案领域大数据研究现状与热点。

二、国内档案领域大数据研究文献计量分析

(一)文献发表时间分析

衡量某学科研究领域发展的重要指标就是研究论文数量的变化,统计文献数量并绘制相应的年度增长曲线,对于评价该研究领域所处阶段,预测其发展态势起着重要的作用。在对我国档案领域大数据研究文献进行发表时间分析时,可以通过文献年度发表数量,总结出我国档案领域大数据研究的发展趋势。将Excel表格里的414篇文献对年度发文数量利用数据透视表进行统计,得出图1趋势图。虽然大数据研究萌芽很久,但其技术优势得到广泛认可是在2012 年,2013 年大数据得到进一步普及,成为众多学科和领域的研究焦点。因此,不难解释图中2013以前我国档案领域对大数据的研究寥寥无几,而在2013年学界对它有所关注。而且,最近几年随着大数据热的进一步蔓延,档案领域对它的研究也如火如荼,呈雨后春笋般的研究增长态势,2014年相比于2013年出现4倍增长,2015年热度持续,发文数量达到250篇。通过对图1趋势图的分析可得,未来一段时间,大数据仍会是我国档案领域的研究重点与热点。

图1 我国档案领域大数据文献数量年份分布

(二)文献著者分析

通过对文献著者分析,我们可以发现此研究领域的核心带头人物,发现有代表性的研究前沿和学术水平。通过统计,我国共有562位学者进行过档案领域大数据方面的相关研究,其中发文数量不小于2 篇的有45位,有11位著者发表3篇及以上学术期刊论文,如表1所示(主要展示了发文量在3篇及以上的作者)。根据洛特卡定律的公式f(x) =f(1)/x2(其中f(x)为写了x篇论文的著者数量,f(1)为写了1 篇论文的著者数量)可知,写一篇论文的著者占全部著者总体比例的60%左右[2]。但根据我国档案领域大数据方面研究文献的统计数据(表2),只发表过一篇期刊论文的作者数高达92%,此比例远远大于洛特卡定律公式推导出来的60%。根据统计结果,我们可以发现,韩海涛、田伟等学者对大数据在档案领域的渗透兴趣显著,为推动此领域学术水平的发展做出了自己的贡献。但除此以外,我们更遗憾地是,我国档案领域对大数据方面的相关研究还远不成熟。大部分学者仅是借大数据的热背景,临时为自己的文章增添色彩,对大数据给档案带来的方方面面的影响,只是做到了浅尝辄止,研究的持续关注性有待进一步提高。当然,我们也需要反思,大数据在档案界的渗透,只是在迎合时代潮流,还是其发展确实会给档案带来全新的思维和技术方式。

表1 我国档案领域大数据研究主要著者

表2 发文篇数人数统计及所占比例

同时,在核心著者方面,根据普莱斯定律,核心作者应该完成所有专业论文总和的一半,写作m=0.749(n max)0.5篇以上论文的著者为核心著者,其中nmax为最高产著者的发文数[3]。根据表1,目前我国档案领域大数据研究的最高产著者的发文总量是12,计算得出m为4.49,取近似值5,即我国该领域核心作者最低发文量应为5篇。根据表1的统计数据可知,发文量5篇及以上的作者(即核心作者)仅有5人。这些数据表明,在我国档案领域,至今仍未形成对大数据相关研究的稳定的核心作者,研究力量相对薄弱且分散。

(三)文献期刊来源分析

相关研究领域期刊发文数量,代表了此期刊对某研究领域的关注度和研究水平。通过对414篇文献期刊来源进行统计,共发现141种期刊发表过关于档案领域大数据方面研究的文章。其中,刊载篇数仅有一篇的期刊有89种,占总期刊数的63%,载文量在10篇及以上的有7种期刊,仅占总期刊种类数量的5%。可见,档案领域对大数据的关注还不是特别集中。截取载文量在10篇及以上的来源期刊进行分析(如表3)发现,对此研究领域的刊物集中分布在档案方向,学科交叉性很弱。同时,在7个发文量为10篇以上的期刊中,有4个核心期刊,其载文量不相上下,基本都在15篇左右。但与载文量最多的期刊的相比,数量上的差距有2倍之多。

表3 我国档案领域大数据研究来源期刊

(四)关键词分析

通常一篇论文的关键词可以反映出其学科主题和关注点,而对此研究领域的众多相关文献进行关键词分析,可以发现此领域的研究热点。利用Excel对414篇文献的关键词进行统计,共得出1221个。频次为1的关键词共有970个,占全部关键词的79%;频次为2的关键词共有124个,占10%;频次在10个及10个以上的关键词有20个,占2%。由于此研究统计中频次较低的关键词数量较多,为了减少低频关键词对研究热点分析结果的干扰,仅选择高频关键词进行分析。截取前20位高频关键词,如表4所示,除去大数据和档案不能表明研究热点的两个高频关键词,可以看到,目前在档案领域对大数据的研究主要集中在档案管理、档案数字化、数字档案馆、信息技术、档案利用等方面。

表4 高频关键词(前20)

虽然高频关键词可以很好地反映目前档案领域对大数据的关注热点,但还不能反映各个关键词在文献中共现的次数,为此需要对高频关键词进行共词分析。根据共词分析的原理,利用SATI3.2构建高频关键词共现矩阵,两两统计它们在同一篇论文中出现的次数。图2为截取的档案领域大数据研究方面的高频关键词共现矩阵的部分。关键词及其自身的共现频次为主对角线的数值,而2个不同关键词间的共现频次则体现在非主对角线上,也是研究的核心对象。两个关键词共现的频率越高,说明它们之间的关系越密切。反之,则表明二者关系疏远。从图2可以看出,除去必须定义的“大数据”和“档案”,大数据与档案管理、档案信息、档案数字化、档案工作、数字档案馆、信息技术、档案利用等关系密切,由此可以得出,目前档案领域对大数据的研究热点主要集中在上述几个方面。

图2 高频关键词共现矩阵(部分)

随后,为了进一步分析高频关键词之间的亲疏远近关系,需要利用Spss19.0对高频关键词的相关矩阵进行聚类分析。聚类分析是将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果,它可以描述出学科领域的研究主题结构[4]。但是聚类分析是建立在相关矩阵的基础上,因此,需要再次使用SATI3.2构建高频关键词的相关矩阵,然后,将得到的相关矩阵导入Spss19.0,在分类中选择系统聚类,使用Ward法进行聚类分析,最终得到如图3所示的聚类树状图。纵轴文字和数字代表了表4中的高频关键词及其位次,横轴的数字代表了两个关键词间的相似距离。对聚类树状图进行分析发现,档案数字化、数字档案馆与国家档案馆关系密切,档案利用、物联网、信息技术相关性强,档案信息、档案事业、档案数据组团成为研究特点,大数据、档案和高校彼此相互联系,企业档案、信息挖掘紧紧追随大数据时代,档案管理、信息化和档案工作形成联系主体,信息管理模式和数字化合为聚类。

领域关于大数据的探讨主要集中在期刊载体上,所以,本文以CNKI的中国学术期刊网络出版总库为数据源。以“主题”为检索项,“档案”+“大数据”为检索词,进行“精确”检索。期刊范围选取“全部期刊”,以提高检全率。由于难以确认档案领域大数据研究的正式起源时间,因此检索时段没有设置起始时间。同时2016年的文章不完整,暂时不予分析,确定检索终止日期为2015年12月31日,共检出489篇相关文献。基于数据库检索的局限性及学科特点,进一步对数据进行去重、筛选等数据清洗工作,去除会议通知、重复和弱相关文献,最终保留414篇研究成果。

总库收录的档案领域大数据文献为研究对象,分别按照文章的年代、著者、来源进行统计分析,并以共词分析为基础,利用Spss19.0对文献的高频关键词进行聚类分析。由此,总结出我国档案领域大数据研究的现状与热点,以期对国内档案领域大数据的研究提供有益的参考和借鉴。

猜你喜欢

著者发文期刊
期刊更名启事
期刊简介
参考文献著录规范
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
《第二胜者法王宗喀巴传》著者考
期刊问答
参考文献著录时“等”的西文应使用“et al.”
多次引用同一著者的同一文献标注方法
期待您的加入