APP下载

近十年中外图书情报学大数据研究论文比较分析

2016-10-14刘玲玲

河北科技图苑 2016年2期
关键词:高频词情报机构词频

刘玲玲

(天津医科大学图书馆 天津 300070)



近十年中外图书情报学大数据研究论文比较分析

刘玲玲

(天津医科大学图书馆天津300070)

在大数据研究已然成为各行各业共同关注的大背景下,对近十年中外图书情报学大数据研究的学术论文展开主题分析具有现实意义。以万方数据库和EBSCO数据库为数据源,借助高频词统计软件及主题分析法,对高频词语进行系统性与综合性比较,揭示中外大数据研究的热点及发展趋势。对比分析发现,数据、技术、服务是中外共同关注的主题热点。

大数据;图书情报;词频分析

近年来,图书情报学界有关大数据的文献报道迅猛增长,这说明大数据专题研究已经成为这一学科研究的重点。在这样的背景下,从发文时间、学科发展特点及主题词分析等方面对中外大数据论文进行统计分析,有助于我们及时掌握该专题领域的研究热点与重点,了解其学科发展趋势,为该专题领域研究的深入开展和未来发展提供参考和借鉴。

1 文献来源与研究方法

1.1文献来源

以万方数据库和EBSCO数据库为数据源,学科设定为图书馆学和情报学,检索时间限定为2005年1月1日至2014年12月31日。万方数据库,以大数据为检索词,选择题名或关键词字段进行检索。EBSCO数据库,以“big data”为检索词进行主题检索,检索执行时间为2015年10月6日。通过检索数据下载,数据、文本特征提取,将相关信息进行归纳和统计分析。

1.2研究方法

本文采用基于词频统计的内容分析法。该方法是一种基于定性分析的量化研究方法,是透过词频现象探视内容本质的科学方法。它的主要原理是以具体某组词在样本文献中出现的次数为基础进行词频分析,揭示不同语词之间的相互关系,进而分析该领域研究的结构和热点。

2 研究论文统计分析

2.1论文及词频统计

2005年—2014年,万方数据库刊载大数据论文5 963篇,关键词24 423个;EBSCO数据库刊载398篇,关键词2 160个,如表1。

表1 中外大数据研究论文及词频年代分布

2.2发文量及发表时间比较

2005年—2014年间,中外大数据论文及其关键词数量均呈上升趋势,表现出不同的发展特点。

2.2.1研究特点比较

2005年-2014年间,大数据相关英文论文398篇,大数据相关中文论文5 963篇,是英文论文发文量的14.98倍。另外,EBSCO数据库大数据论文最早可追溯到1968年,万方数据库可追溯到1998年。因此,可以推断,国外大数据研究起步早,但发展平缓;国内研究虽然起步比较晚,但是发展迅速,后来者居上。

2.2.2发展阶段比较

国外2005年至2010年为起步阶段,5年发文20篇,占总发文量的5.03%,研究呈现缓慢、零散的特点;2011年至2012年为快速发展阶段,2年发文76篇,占论文总量的19.10%;2013年至2014年为高速发展阶段,2年发文302篇,占发文总量的75.88%,词频1 624次,占词频总量的75.05%。2014年达到峰值,发文171篇,词频931次。与之不同的是,国内2005年至2012年间,文献数量平稳增长,年平均发文量达575篇,2013年至2014年间,发文数量阶梯式上升,呈现高速发展势头。

3 研究内容比较分析

3.1中外高频词统计

2005年-2014年,中外文大数据相关论文共计6 361篇,关键词26 583个,总词频为12 078。由于高频关键词数量较多,受篇幅所限,故选取中外论文关键词中词频位居前20位的高频词,如表2。

表2 中外大数据相关文献高频词分布

续表2

从表2可知,大数据论文高频中文词主要有大数据、云计算、关联数据、关联规则、图书馆服务等;高频英文词主要有Big data、Database management、Data analysis、Information resources management、Data mining、Information services等。

3.2中外大数据论文共同关注热点分析

中外高频关键词频次分别为785、620,占其词频总量的7.31%、46.30%。从某个侧面,这些高频关键词可以代表中外大数据论文研究的热点与重点。

3.2.1数据是第一大研究热点

图书情报机构在长期的资源使用、存储、管理过程中,累积了大量不同类型的数据,如传统数据、电子数据、社交网络媒体交互数据等。这些数据集合构成的大数据,成为图书情报机构开展各项服务的基础。国内外学者对数据研究的热情同样高涨:中文“数据”高频词有大数据、关联数据、数据中心、数据采集器、元数据仓储、采访数据等,总频次399,占高频词总频次的50.83%;外文高频词有Big data、Data analysis、Data mining、Data libraries等,总频次293,占高频词总频次的47.26%。中外“数据”高频词分别占高频词总量的大约1/2,说明国内外大数据论文都很重视对数据相关问题的研究。

对不同数据集合进行整合处理、深层次挖掘,为图书情报机构服务模式创新及未来发展趋势提供分析与预测[1];大数据的存储及其安全技术问题;新型数据类型的互联共享等等,未来仍将是大数据专题研究领域的重点内容。

3.2.2云计算、云存储、聚类分析、算法等技术研究是第二大热点

大数据时代强调对所有数据的分析处理。海量数据的处理、运算及存储管理催生出新技术,如云计算、云存储、聚类分析等。这些新技术以及技术的不断创新,关乎大数据背后隐藏的高价值的经济价值和社会效应。中文“技术”高频词有云计算、关联规则、聚类分析、数据采集器、云存储、决策树等,总频次229,占中文高频词总量的29.18%。外文高频词有Data mining、Information technology、Cloud computing、Algorithms等,总频次147,占外文高频词总量的23.71%。

技术是大数据发挥决策及管理作用的支撑。依托大量数据,借助关联数据、语义化、本体等技术及数据挖掘分析软件等工具实现知识服务[2],未来仍将是中外大数据研究的重点和热点。因此,图书情报人员应该从图书馆的实际出发,加强对大数据技术的研发。

3.2.3服务是第三大研究热点

服务是图书馆的生命,是图书馆核心价值的体现。全数据的出现为图情机构创新服务模式和服务内容提供了新的视角与思维。服务群体的不断扩大、用户需求及需求实现途径的多样化、个性化,以及基于需求导向的服务创新,是大数据时代图情机构创新服务的重点。中文“服务”高频词有图书馆服务、服务模式、学科服务、个性化信息服务、服务创新,总频次136,占高频词总频次的17.33%;外文高频词只有Information services,频次22,占高频词总频次的3.55%。综上可以看出,国内对于服务的研究热情远远高于国外,国内更注重服务方面的理论研究。

大数据时代,不同类型资源的开发利用得到了空前深化,资源重组之后的新知识、新价值日益凸显。借助大数据的优势,创新服务方式更好地适应图书情报机构用户的个性化需求,进而创造需求将是未来中外图情界大数据研究的重要内容之一。

3.3中外大数据论文不同关注热点比较

对比中外大数据论文的前20位高频词,我们既可以发现中外学术研究共同关注的焦点问题,也能发现它们研究的不同侧重点。

3.3.1国外大数据论文更加重视对于信息的研究

信息是图书情报机构提供服务的基础。大量繁冗复杂信息的获取、存储、管理、服务及信息技术的研发等,有助于提高图书情报机构的信息服务水平。“Information”相关高频词有Information resources management、Information services、Information technology、Information retrieval、Access to information、Information storage & retrieval systems、Information resources,总频次为162,占高频词总频次的26.13%。国外学者重视对信息技术、信息存储、信息获取、信息管理、地理信息系统等的研究。国内前20位高频词中只“个性化信息服务”一词涉及信息,然而该词本身强调的是服务,并非信息。

从机构存储的角度出发,凸显大数据的特征和优势。运用大数据可视化技术,从更多维度来深度揭示信息背后的隐性关系,挖掘新知识,创造新价值,将是未来大数据研究关注的焦点,国内应该加强对于信息存储管理及技术的研发。

3.3.2国外大数据论文更加重视对于大数据本体的研究

大数据是互联网和云计算的产物。互联网、数据库、搜索引擎等是大数据存在的根本,大数据的出现,加剧了现代化图书情报机构在服务内容与服务方式对于它们的依赖。同时,借助互联网蓬勃发展的社交媒体,能够以文本、图像、音乐和视频等多种不同的形式来呈现。社交媒体传播的信息俨然成为大数据的重要部分。国外学者重视在线社交网络等网络信息资源的收集与利用。相关高频词Internet、Search engines、Social media等,而国内高频词却鲜有提及。综上,大数据的本体研究应该成为未来大数据论文研究的一个重要方向,只有这样才能让大数据更好地为图书情报机构服务。

4 结束语

大数据时代,中外大数据论文共同关注的研究重点与热点——数据、技术、服务,与图书情报机构服务用户的核心价值是一致的。大数据的理论研究与技术开发百花齐放,为图书情报机构实施和推动大数据应用,创新服务模式和服务内容具有较大的理论价值和现实指导意义。国外大数据研究起步较早,而国内学者奋力直追,到了中期,从数量上超过了国外相关研究文献。纵观国内外文献研究特点,可以断定大数据研究目前仍处于强劲发展阶段。与国外相比,国内更加侧重于理论研究,研究内容趋同,缺乏足够的实践支持。未来,国内学者应该在理论与实践相结合的基础上,加强大数据的应用与策略性研究、加强大数据各种技术的研发。图书情报机构应该积极寻找大数据应用的切入点,从用户和用户需求出发,利用大数据更好地提供服务才是根本。

[1]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012,(5):37-40.

[2]祝森生.大数据时代关于智慧图书馆的几个研究问题探讨[J].图书与情报,2013,(5):126-128.

G254

A

2015-11-12责任编辑:孙炜)

猜你喜欢

高频词情报机构词频
30份政府工作报告中的高频词
省级两会上的高频词
28份政府工作报告中的高频词
省级两会上的高频词
浅谈基层科技情报机构现状及发展对策的思考
25年来中国修辞研究的关键词词频统计*——基于国家社科与教育部社科课题立项数据
词频,一部隐秘的历史
以关键词词频法透视《大学图书馆学报》学术研究特色
汉语音节累积词频对同音字听觉词汇表征的激活作用*
西方预测伊朗18个月内拥有核武