国内图书馆大数据研究的知识图谱分析
2017-05-31李素梅
李素梅
摘 要:文章以2012―2016年CNKI数据库中收录的主题为大数据的相关文献为研究对象,借助信息可视化软件CiteSpace和VOSviewer软件绘制出科学知识图谱,通过对作者及其机構合著网络视图的解读,分析了该领域的代表作者、研究力量分布的相互关系,又通过对知识图谱的研读,探析了该领域的研究热点及研究主题。
中图分类号:G250文献标识码:A文章编号:1003-1588(2017)05-0124-03
关键词:大数据;知识图谱;可视化分析;CiteSpace;VOSviewer
“大数据”不仅是海量的、类型多样的结构化数据(如图片、声音、视频、地理位置信息等)、非结构化数据、半结构化数据的集合,它更是一种技术和理念,宗旨就是从海量、多样性的数据资源中,进行深层次的挖掘,快速获得有价值的信息,以创造巨大的经济、社会及科研价值[1]。
1 数据来源和研究方法
近年来,大数据的研究与应用已经引起IT界、政府及科研部门等相关行业的广泛关注,国内图书馆界也掀起了大数据的研究热潮,涌现出一大批相关研究成果和文献。笔者以中国知网(CNKI)为数据源,以主题为检索项,以大数据(BigData)为检索词,不限刊发时间,检索专辑名称为图书情报与数字图书馆,共检索出原始文献2,069篇(检索日期2016年9月10日),通过手工筛选,剔除89篇非学术性论文及关联性不大的文章,共搜集到从2012―2016年刊发的有效文献1,980篇。因此,笔者选取了2012―2016年这5年间的文献数据做大数据领域的知识图谱进行分析。由于VOSviewer在聚类技术、图谱绘制等方面有独特优势,因此,笔者综合运用了CiteSpace和VOSviewer来绘制相应的科学知识图谱,综合运用二者的优势,对近几年国内图书馆大数据研究领域的作者、机构、热点主题及前沿领域进行探究,准确地挖掘该研究主题的本质。
2 数据分析
2.1 文献发表时间分布
2007―2016年,国内图书馆大数据研究文献总发文量为1,986篇,其中2007―2011年的发文量较少,仅有6篇。2007年,随着云计算、物联网、机构仓储、语义网络等相关领域的快速发展,大规模数据的挖掘、整合、存储成为学术界研究的热点,为后来大数据主题的相关研究孕育了基础。笔者通过分析文献发现,国内图书馆关于大数据的确切概念研究的第一篇文献发表于2012年,同时,2012年随着大数据的技术优势及价值被广泛认知,大数据迅速成为各学科领域研究的重点和热点。此后,国内图书馆对大数据的研究日益活跃起来,自2013年以后,大数据进入快速发展阶段,相关研究文献量呈现急剧增长的态势,这充分表明了大数据已经成为国内图书馆研究的又一热点。
2.2 文献代表作者及其机构综合分析
2.2.1 综合考虑发文量和突现值的代表作者。在CiteSpace界面中,时间设置为2012―2016年,分段时间为1年,节点类型为作者,采用CiteSpace提供的突现词检测(Burst Detection)算法,得到发表论文数≥6篇以及突现值排名前10的作者(见表1、图1),并初步确定这些作者为图书馆大数据研究领域的核心作者。
从图1可以看出,组成的3人以上的小团体比较多,但子网间的联系较少,彼此之间的合作关系不是很紧密。在3人以上的团体中,最大的是以桂林理工大学图书馆的张兴旺为中心的研究团体,核心成员包括李晨晖、黄晓斌等;发文量最多的是由马晓亭、陈臣等组成的团体,该团体共发表文献41篇。
2.2.2 研究机构知识图谱分析。国内图书馆大数据研究领域发文量≥8篇的机构共有12个(见表2),这12个机构共发表文献229篇,占发文总量的11.53%。其中发文量最多的机构是武汉大学信息管理学院,其次是南京大学信息管理学院,这两个机构是目前国内公认的图情教育规模最大、实力最强的高校院系。网络节点类型选择“机构”,运行CiteSpace得到该主题研究的机构聚类知识图谱(见图2)。由图2可知,各个机构间的合作不是很紧密,存在的合作关系中大多局限于区域内的机构合作,且合作频次较低,表明该主题领域研究机构众多,但研究实力不强,还处于相对封闭且分散的状态。
2.3 研究热点聚类结果分析
通过绘制关键词共现知识图谱,根据关键词出现频次的高低可以确定一个领域的研究热点[2]。首先,将出现频次10次以上(含10次)的78个有效关键词构建成“78*78”的共词矩阵;其次,利用Ucinet及其内嵌的Netdraw工具处理过程性数据[3];最后,把生成的NET文件导入VOSviewer进行共词聚类分析,生成如图3所示的关键词聚类标签图谱。从图3可以看出,每一种颜色代表了一个类别,拥有相同颜色的节点属于同一个聚类。此外,笔者通过去除一些边缘类别,整理出国内图书馆大数据研究领域7大类关键词类簇(见表3)。
3 国内图书馆大数据研究领域分析
3.1 大数据时代图书馆信息服务创新
大数据时代,为使用户随时随地都能获得具有实时性、全面性、交互性、决策性、个性化的信息服务,图书馆应充分采集该地区与读者相关的数据,通过数据了解用户的行为、意愿及信息服务需求,借助当前的信息技术,为用户提供适应大数据时代用户信息需求的知识发现服务。
3.2 “互联网+”与图书馆的融合
“互联网+”时代的到来,给图书馆带来了全新的发展机遇[4],依托大数据技术和“互联网+”思维,图书馆各项服务(如:学科服务、嵌入式服务、阅读推广等服务)的开展也将更加便利、高效及更具有针对性。图书馆应将“互联网+”思维应用到图书馆工作实践之中,加强二者的深度融合与创新驱动,才能更好地发挥其作用。
3.3 大数据价值的挖掘
大数据时代的到来引发了人们对数据价值的重新认识,数据将成为图书馆的核心资产[5],如何对这些结构复杂、形式多样的数据进行分析與处理,最终变成有价值的信息,这对图书馆提出了挑战。所以,图书馆工作人员应借助云计算、大数据及各种智能技术,从用户日常的信息行为乃至生活行为数据中挖掘出具有潜在价值的知识和规律,进而为图书馆的科学化管理及智能化决策提供相关支持。
3.4 大数据下的竞争情报研究
大数据环境下,大数据给竞争情报研究提供了更加全面、真实的数据资源,同时给竞争情报的数据存储与管理提供了技术支持。企业通过利用大数据的数据处理手段及大数据分析技术,通过对竞争环境、竞争对手、竞争策略中的大量原始数据的获取、加工、挖掘和分析,获取其潜在的知识,为企业打造可持续的重要竞争优势提供智力支持[6]。
3.5 大数据时代的智慧图书馆
智慧图书馆是在数字图书馆及移动图书馆的基础上,为适应社会化、泛在化服务需求及互联互通的发展需要,通过云计算、物联网、移动互联网、大数据等技术支撑图书馆发展的创新形态[7]。大数据时代,不断产生的海量数据为图书馆智慧服务的开展提供了取之不尽的资源,智慧图书馆通过数据分析对馆藏资源、用户的行为及意愿、用户的知识需求等进行全面、系统的了解,挖掘读者的潜在需求,在此基础上为用户提供高效、便利的智慧服务,同时为管理者提供了科学的决策依据。
3.6 大数据环境下图书馆的数据素养教育研究
数据素养是信息素养在大数据环境下的延续和拓展,是人们有效且正当地收集、管理、处理与分析、评估和使用信息及数据的一种意识和能力[8]。大数据时代,数据逐渐渗透到人们生活的各个环节中,人们的学习、工作等都离不开数据的支撑。良好的数据素养是大数据环境下人们必备的技能素养之一,数据素养的教育与培养在当今这个网络时代也显得十分重要。图书馆以提高人们的文化素养为己任,因此,应充分发挥自身的优势及教育职能,在人们的数据素养教育中承担起相应的职责。
3.7 大数据的信息安全
大数据在带来巨大价值的同时,也加大了信息安全风险,数据的大量汇集和集中存储很容易成为黑客攻击和窃取的目标。图书馆在为用户提供高质量个性化服务的过程中,需要利用大数据技术对用户行为和社会关系数据进行采集、分析与处理,这个过程显然对读者的隐私带来了威胁和侵犯,在给用户带来危害的同时也导致了读者流失。大数据环境下的信息安全和个人隐私保护问题已经成为众多研究者努力探索的难题。
参考文献:
[1]方巍,郑玉,徐江.大数据:概念、技术及应用研究综述[J].南京信息工程大学学报,2014(5):405-419.
[2]吴晓秋,吕娜.基于关键词共现频率的热点分析方法研究[J].情报理论与实践,2012(8):115-119.
[3]陈琴,蒋合领.我国知识管理研究学派、知识基础及热点的可视化分析[J].情报杂志,2016(2):88-92,174.
[4]张兴旺,李晨晖.当图书馆遇上“互联网+”[J].图书与情报,2015(4):63-70.
[5]韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013(1):121-122.
[6]娜日,朱淑珍,洪贤方,等.基于金融创新过程的竞争情报保障机制研究[J].情报杂志,2014(1):23-26,71.
[7]李浩.云计算、大数据、数字图书馆与智慧图书馆关联研究:用大数据打造智慧图书馆的思考[J].四川图书馆学报,2014(6):31-34.
[8]金兼斌.财经记者与数据素养[J].新闻与写作,2013(10):5-9.
(编校:崔 萌)