近十年我国大数据理论研究的可视化聚类分析
——基于五种常用文献的计量与统计分析
2018-06-08曲悦
曲 悦
(辽宁广播电视大学,辽宁 沈阳 110034)
大数据这一概念无论在学术领域还是在现实社会中都已经受到了极大的关注。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中指出,大数据是指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。[1]关于大数据理论的研究现在发展到何种程度却是一个值得探讨的问题。笔者利用相关分析工具,基于5种常用文献对于大数据理论的研究现状进行聚类分析,希望能够对大数据相关研究人员提供一定的借鉴。
1 统计源、统计策略及聚类分析工具
为了能够更加真实全面地反映近十年我国大数据理论的研究现状,笔者将图书、期刊、报纸、学位论文、会议论文5种常见的文献作为数据统计对象,并利用超星发现平台的海量数据作为主要统计源,将CNKI的相关数据作为辅助统计源。为了让检查结果更加准确、可靠。笔者以“大数据”作为检索词,以题名和关键词作为检索入口,二者进行“逻辑或”检索,并将时间限定在2007-2016年之间。
笔者以超星发现平台作为聚类分析工具,因为该平台除了拥有海量的数据资源——期刊论文、学位论文等数据外,还拥有近300万种的图书资源及各类资源之间的相互引证关系,另外该平台还可以通过分面聚类、引文分析、知识关联分析等方式,实现高价值学术文献发现、纵横结合的深度知识挖掘、可视化的全方位知识关联功能。这些功能非常适合本次分析研究。[2]
根据上述检索条件,截至2017年1月19日,得到检索结果92444条,其中5类常用文献83661条,即图书706种,期刊论文41272篇,报纸文章38581篇,学位论文1370篇,会议论文1730篇。检索到的其他相关文献中,数量较多的是信息资讯、专利信息、视频资源及法律法规。而5种常用文献总量,占所有被检索到的相关文献总量的90.5%,这表明,通过对5类常用文献的统计分析,能够反映出大数据理论研究的现状。
2 基于超星发现和CNKI的五种常用文献聚类分析
2.1 大数据学术趋势分析
通过对各年发文量进行统计,可以看出某一研究领域的学术研究趋势和关注程度。通过年发文量的趋势图可以看出该研究领域所处于的发展阶段。[3]笔者将与大数据相关的5种常用文献进行年发文量统计,并绘制趋势曲线图。由于期刊论文和报纸文章与其他3种文献类型的年发文量在数量级上有差别,故分别制作曲线图表以表示5种文献的学术研究发展趋势,如图1、图2。
图1 大数据理论期刊论文、报纸文章学术趋势图
图2 大数据理论期刊论文、报纸文章学术趋势
根据图1和图2可以看出,大数据理论研究现在处于一个高速发展阶段,尤其是2011年以后,各类文献的发文量均呈现出几何级增长趋势。
报纸文献和期刊文献能够较为及时地反映出某一领域研究的重点方向。从图1可以看出,2009年大数据的研究开始走进研究人员的视野,到2011年,数据曲线开始呈现井喷状,表明该领域的研究已经受到学术界的极大关注,并且研究热情持续高涨,一直到现在。
从学位论文和会议论文曲线上看,同样可以得出相同的结论,即大数据研究现在处于高速发展阶段。虽然,会议论文曲线在2014年出现一个拐点,但2014年和2015年的会议论文总量并没有太明显的差异,对于学术趋势向上发展的结论并没有产生影响。同时,每年举办的相关学术会议场次也是有规律的,所以这一结果可以接受。而对于学位论文和会议论文在2016年均有所减少,这应该是因为数量统计结果是2017年初,很多相关的成果还没有及时录入到数据库当中所致。
从图书曲线来看,也可以反映出大数据理论研究的上升发展趋势。从2011年出版第一部相关著作后,每年的图书出版量都在迅速上升。因图书出版周期较长,但仍然能够长时间保持一种上升曲线,这对于大数据理论的发展趋势是一个非常重要的印证。
2.2 大数据相关关键词聚类分析
通过对某一研究领域的相关关键词进行聚类分析,可以了解到该研究领域的研究重点和研究热点,有利于其他研究者精准选取研究方向,或者相关资源。笔者对与大数据相关,且出现频次超过300次的关键进行了统计,如表1。
表1 大数据热门相关关键词统计
根据统计结果可以看出,与大数据最相关的4个关键词分别是云计算、数据挖掘、数据分析和物联网,这4个关键词的出现频次都超过了1000次。表明在大数据研究领域中这4个方面是最重要的研究方向。通过对所有热门关键词进行分析可知,大数据理论的研究重点和热点主要集中在以下几个方面:一是大数据分析研究,如云计算、数据挖掘、数据分析、海量数据,数据处理等。二是大数据用途研究,如电子商务、精准营销、物联网数据应用等。三是大数据相关技术与工具研究,如信息技术、hadoop等。四是大数据安全与隐私问题研究,如信息安全、隐私保护等。根据关键词共现网络图(如图3),可以很直观地看出这些关键词之间复杂的共现关系。
图3 大数据关键词共现网络
2.3 大数据理论核心研究作者分析
通过对某个领域的核心研究作者的成果进行研读和分析,可以了解该领域的最新研究方向和动态,同时也有利于研究人员更快地寻找合作伙伴。笔者对相关作者发表与大数据相关论文的总量和以第一作者或独立作者身份发表大数据相关论文的发文量分别进行统计,结果见图3。
根据图4可知,喻国明、杨光和王斌三位作者的相关发文总量和第一作者发文量都超过了30篇,表明这3位作者在大数据理论研究方面成果显著,可以被认定为该领域的核心研究作者。通过各位作者的第一作者发文量和相关发文总量进行对比可知,大部大作者的这两个数值都不相同,而且很多差别很大。这表明在大数据研究领域,研究者之间有较好的合作关系,这种合作关系对于大数据理论的横向和纵深研究都有较好的推动作用。
图4 大数据领域核心研究作者发文量统计
2.4 大数据理论核心研究机构分析
某个研究领域的核心研究机构同样可以反映出研究领域的最新研究方向和动态,同时,通过对核心研究机构的研究成果进行分析和综合,可以梳理该研究领域的发展轨迹和脉络。笔者通过对研究机构的发文量进行统计,并将发文量排名前10位的研究机构进行降序排列,得到表2。
从表2可以看出,在大数据理论研究领域,武汉大学和中国人民大学表现较为突出,发文量在300篇左右,可以认定为大数据研究领域的核心研究机构。而北京大学、清华大学和中科院3个机构的发文量也都在250篇左右。说明,这3个研究机构的研究成果也较为突出,在大数据理论研究领域也起到了较大的推动作用。利用相关性气泡图(如图5),可以清晰地看出这些机构与大数据理论研究的密切程度。另外,核心研究机构与核心研究作者有着非常密切的关系,核心研究作者很多都来自于核心研究机构,如喻国明和王斌来自于中国人民大学,张鹏来自于中科院,王伟来自于武汉大学。
表2 大数据领域核心研究机构统计
图5 大数据理论与核心研究机构关系气泡图
2.5 学科分布聚类分析
图6 大数据学科分布及跨学科主题分布
大数据理论在多个学科领域都拥有重要的研究价值,而哪个学科在大数据理论研究中效果更突出则是一个值得关注的问题,因此,笔者利用超星发现平台和百度学术的学科聚类分析功能对“大数据”进行综合分析,结论为:大数据理论在中图法中的T(工业技术)、F(经济)、G(文化、科学、教育、体育)、D(政治、法律)4个大类中研究成果较为突出,更为突出的分支学科分别为:计算机科学与技术、应用经济学、信息与通信工程、教育学、图书馆与情报学、法学。另外,大数据的跨学科研究也发展迅猛,已经衍生出多个交叉学科主题,[4]具体研究主题见图6。
2.6 经典文献分析
每个学科都有其经典文献,经典文献对于研究人员的指导和引领作用是非常明显的。虽然,学术界对于经典文献定义暂时还不明确,但是高被引率应该是衡量文献是否经典的一个得要指标,因此,笔者利用高被引著作和高被引论文对经典文献进行一个简单映射。利用超星发现平台和CNKI数据库,将与大数据相关的著作和论文按照被引用次数进行降序排列,并对前10名进行聚类分析,如表3和表4。
根据表3可知,维克托和肯尼思所著的《大数据时代:生活、工作与思维的大变革》和涂子沛老师所著的《大数据:正在到来的数据革命》备受关注,在短短3年之间被引次数都超过了500次,因此,这两本书可以被认定为大数据理论研究的经典著作。同时,涂子沛老师有两本著作入被高被引著作,说明涂子沛老师是国内大数据理论研究领域的领军人物。如果想更快更全面地获取大数据相关信息,可以对其著作进行认真研读。高被引图书中,有4本著作译自于国外,这表明,我国在大数据理论研究方面在国外的借鉴方面做了很多努力。从出版社来看,清华大学出版社有3本入选,人民邮电出版社有两本入选。研究人员在选择研究著作时,可以对这两个出版社的图书更加关注。同时,2013年出版的著作占高被引著作的80%,因此,最近一段时间,可以更关注2013年的著作。
根据表4的高被引论文列表可知,孟小峰和慈祥撰写的《大数据管理:概念、技术与挑战》一文被引次数超过了1500次,远远超过其他论文,可以认定为该领域的经典论文。这篇论文值得所有研究人员认真研读。从发表刊物来看,《计算机学报》有3篇论文入选,表明该刊对大数据理论研究方面的论文收录质量更高,值得关注,同时也可以看出,高被引论文大部分都出自于计算机和软件相关主题的刊物,这也从一个侧面印证了大数据在计算机科学与技术领域的分布规律。从高被引论文的发表年份来看,同样是2013年表现突出,这一年的论文在经过前期的铺垫后,在质量上有了较大的提升。
表3 大数据领域高被引著作统计
表4 大数据领域高被引论文统计
3 结 语
大数据的理论研究从2009年开始引起学术领域的重视,2011年开始呈高速发展趋势。云计算、数据挖掘、数据分析和物联网这4个研究方向成为大数据的研究重点和热点。喻国明、杨光和王斌三位作者的相关发文总量和第一作者发文量都较其他作者有明显的优势。因此可被认定为大数据理论研究的核心研究作者。武汉大学和中国人民大学作为核心研究机构,在大数据理论研究方面也成果显著。大数据理论研究在计算机科学与技术、应用经济学、信息与通信工程、教育学、图书馆与情报学、法学领域研究更加深入,同时也衍生了很多交叉学科。维克托和肯尼思所著的《大数据时代:生活、工作与思维的大变革》和涂子沛老师所著的《大数据:正在到来的数据革命》作为大数据理论研究领域的经典文献值得认真研读。孟小峰和慈祥发表的《大数据管理:概念、技术与挑战》一文对于研究人员的借鉴作用也非常明显。另外,2013年的大数据理论研究成果无论是著作还是论文都成果显著,在一段时间内应该引起该领域的重视。
根据关键词统计分析可以看出,虽然大数据的相关研究非常注重计算机科学与技术的应用,但是对于大数据的存储问题和分析工具并没有成为研究重点,但是数据存储和数据分析工具作为大数据处理的基础工具理应得到优先的发展,才能保证大数据在其他领域的实际应用。[5]同时,由于大数据的普遍应用,使得信息安全和隐私保护成为一项新的课题受备关注,而国内并有没相应的法律法规作保障,只能依靠行业自律,这种情况很容易引起大数据应用过程中的数据滥用等问题,因此,有必要将相应的法律法规的制定提上日程。从经典著作分析中可知,国内更注重大数据理论框架的构建,而国外更注重技术的突破。因此,我们有必要多借鉴国外的先进技术,做到理论和应用共同进步。另外,大数据的出现使得数据价值得到了空前的重视,而数据可视化分析也开始走进研究人员的视野,这也将成为大数据研究的一个新的趋势和热点。[6]
[1]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社.2013:17.
[2]超星发现系统核心功能[EB/OL].[2017-03-03].http://ss.zhizhen.com/about/about.html.
[3]衣晓冰.近十年我国信息素养教育研究现状分析——基于四类常用学术文献的统计分析[J].图书馆界,2016(2):54-59.
[4]百度学术.大数据[EB/OL].[2017-03-20].http://xueshu.baidu.com/u/biye?tag=paper&wd=大数据&site=index_links
[5]官思发,等.大数据分析研究现状、问题与对策[J].情报杂志,2015(5):98-104.
[6]刘成山,李玉,王洁良.大数据在图书情报领域的研究现状及趋势分析[J].情报理论与实践,2016(4):20-26.