APP下载

基于知识图谱的大数据研究可视化分析

2017-03-02王富祥

关键词:图谱论文领域

王富祥

(1.淮阴师范学院 法政学院,江苏 淮安 223001;2.中国人民大学 劳动人事学院,北京 100872)

基于知识图谱的大数据研究可视化分析

王富祥1,2

(1.淮阴师范学院 法政学院,江苏 淮安 223001;2.中国人民大学 劳动人事学院,北京 100872)

知识图谱;大数据;可视化;文献计量

为了深入探讨目前国内大数据领域的研究现状与趋势,从文献计量和知识图谱的角度分析大数据研究进展和热点问题。针对CNKI数据库中SCI、EI和CSSCI收录的“关键词=大数据”的2010-2015年间的1371条文献,采用文献计量分析法、知识图谱法,借助于可视化工具Citespace III对文献进行分析,探讨了大数据研究领域核心作者群、文献来源、机构分布、学科领域分布以及研究层析情况,研究了目前国内大数据领域的热点问题。

(二)研究方法

本文采用文献计量法和知识图谱对检索得到的文献进行深入研究和探索。采用Citespace III对检索的文献进行可视化研究,充分挖掘大数据领域的研究热点和科研动态。Citespace是美国德雷赛尔大学信息科学与技术学院陈超美博士与大连理工大学WISE实验室联合开发的科学文献分析工具。Citespace是用来分析和可视化共被引网络的Java程序、通用方法。基于信息科学中“研究前沿”和“知识基础”间的时间对偶概念,并实现了两个互补视图:聚焦视图和时区视图[12]。

二、数据分析

(一)年载文量分析

文献的数量从某种程度可以反应某一领域的研究水平和未来发展趋势,表1列出了2010年到2015年六年间大数据领域论文发表数量变化情况。从表1中可以看出,2010年国内尚未出版关于大数据的研究论文,在2011年仅有一篇,由中国人民大学王珊等人发表在《计算机学报》中的《架构大数据:挑战、现状与展望》。2012年论文发表数量有所增加,占总篇数的1.17%,但增加幅度很小,从2013年开始有关大数据的论文发表数量较前三年,数量明显增加,2013年的发表论文百分比由2010年的零百分比增加到14.08%,到2015年论文发表百分比已经增加至50.4%,占近五年论文总篇数的一半。从论文发表情况可以看出,国内对大数据的研究从2012年开始已经受到密切关注,论文发表数量增加幅度较快,已经成为目前研究热点问题。这种发展趋势和变化从某个侧面也反应了学术界和工业界对大数据领域研究和发展的高度重视,这与国家推出大数据发展战略计划和各级政府部门对大数据的重视是分不开的。比如,2012年3月22日,奥巴马政府将大数据定义为“未来的石油”,联合国也在2012年发布了大数据政务白皮书,2012年7月21日,在国内举行了大数据论坛,交流大数据前沿技术、实践应用、经营模式等[13]。根据以上分析可知,大数据研究目前已经成为热点问题,未来将出现更多的研究成果,大数据的实践应用将进一步深度融入到各行各业中。

表1 CNKI中SCI、EI、CSSCI检索的大数据相关论文年载文量分布情况

(二)著者分析

通过分析作者发文情况可以了解某个领域中作者群的成熟度。根据普莱斯定律,核心作者发文数 (其中 表示发文最多著者的论文数, 为核心作者最低发文量)[14],本文通过人工查阅的方式得出发文量最多的作者的论文数为11篇,由此计算得出 ,应将3篇以上作者确定为重要作者,经过分析得出发文量在3篇以上的作者一共有40位,共发表论文176篇,远远低于文献总量的一半,而普莱斯定律认为:“杰出科学家”或“核心作者群”将完成该研究领域50%以上的论文[15]。这说明大数据相关论文较多,但总体上看,国内研究大数据的核心作者的贡献率较低,学术水平和论文质量还有待提高。由于篇幅的限制,只选择了部分作者,如表2所示。从表2中可以看出,中国人民大学作者发文量最多,总数达到21篇,分别为喻国明教授,主要从事新闻媒体类研究,其次为孟小峰教授,主要从事大数据管理方面的研究,李彪教授主要从事社会舆情、新闻媒体类研究。桂林理工大学张兴旺和李晨晖共发表论文19篇、兰州商学院陈臣和马晓婷共发表论文16篇、南京大学陈云松、甄峰和苏新宁共发表14篇、北京大学李广建和化柏林发表论文10篇。使用Citespace III可视化软件将各作者的发文数量以及作者之间的合作情况用知识图谱的形式直观展示出来,在Citespace III中设置相关参数如下:时区分割(Time Slicing)设置为2010-2015,单个时间分区的长度(Years PerSlice)设置为1年,阈值设置为Top 100,词类型设置为None,节点类型(Node Type)选择为作者(Author),运行程序得到作者共现知识图谱,如图1所示。图1中,每个节点表示一个作者,节点大小表示作者发文量的多少,节点越大表示发文量越多,节点之间的连线表示作者之间有合作关系,连线越粗表示作者之间的合作次数越多,节点的年轮反映的是作者发文的时间结构,色调由冷变暖表明时间由远及近。图1的作者共现知识图谱中一共有285个节点,132条连线。以发表论文数量最多的喻国明教授为例,从图1中可以看到喻国明教授所对应的节点最大,证实了他的发文量11篇是最多的,还可以看出喻国明教授与何睿、宋美杰有合作,喻教授是中国传播学实证研究领域的领军人物,从上世纪八十年代中期至今,他已经主持进行了400余项具有广泛学术影响的实证研究项目,特别是近五年,喻教授在调查数据的价值挖掘、智能化文本分析技术在互联网舆情监测分析中的应用,以及应用认知神经科学的方法进行传播学研究,在学术界具有广泛影响。发表的《传播学:大数据时代的新范式》被引频次达到60次,该文主要分析了大数据基本特征,揭示大数据时代传播学研究的变革和进路,为大数据新闻实践、舆情研究和品牌传播等领域应对大数据时代的到来提供全新的研究思路、架构和方法[16]。综合上述分析可知,正如第一部分引言所述,大数据领域的研究主要集中在新闻媒体类、社会舆情、计算机科学、图书馆、情报类。核心作者群主要集中在高校和研究院,在中国人民大学、桂林理工大学、兰州商学院、南京大学、北京大学等高校已经形成了稳定的核心作者群。

表2 作者发文量排名表

图1 作者共现知识图谱

(三)文献来源机构分析

从文献来源机构角度看,由表4可知,中国人民大学、清华大学、武汉大学和南京大学为大数据领域文献的高产机构。文献来源机构排名从某个侧面能反映某领域稳定作者群分布情况。从表4中可知中国人民大学发表论文总篇数高达79篇之多,再次位居榜首,进一步证明该高校具有稳定的大数据研究的核心作者群,处于国内领先水平,是大数据研究的核心机构。清华大学和武汉大学发表论文篇数水平相当,南京大学和北京大学发表论文总篇数也不相上下。中国传媒大学、兰州商学院、华中师范大学发表论文总篇数均在20~30篇之间,上海交通大学和中国科学研究院计算机技术研究所发表论文近20篇,与排名第一的中国人民大学发表论文总数相差甚远,在大数据研究已经成为热点的趋势下,各高校和科研机构应学习和借鉴其他高校的研究方法和科研成果,提升大数据管理、处理和应用能力,逐步提升在大数据领域的研究水平。使用Citespace III软件,其他参数设置不变,将阈值Top 100设置为Top50,节点类型(Node Type)选择为机构,运行程序得到机构共现知识图谱如图2所示。图2中,每一个节点表示一个机构,节点大小表示机构发文量的多少,节点之间的连线表示节点之间具有合作关系,连线越粗表示机构之间合作的次数越多,节点的年轮结构反映的是机构发文的时间结构,色调由冷变暖表示时间由远及近,文献来源机构共现知识图谱总共有131个节点,27条边,以中国人民大学新闻学院为例,由图中可以看出,其所对应的节点最大,说明发文量最多,并且与中国人民大学新闻与社会发展研究中心有合作关系。结合表4和图2可以看出中国人民大学的新闻学院、信息学院、信息资源管理学院、统计学院,清华大学的计算机科学与技术系、新闻与传播学院、社会科学学院、经济管理学院,武汉大学的计算机学院、信息管理学院、政治与公共管理学院,南京大学的社会学系、信息管理学院、工程管理学院为这些文献的主要来源机构。

表3 文献来源机构排名表

图2 文献来源机构共现知识图谱

(四)学科领域分析

对文献进行学科领域的分析,能有效把握大数据领域研究内容的侧重点。通过统计分析得出文献主要集中在40个学科领域,本文选取排名前十的学科领域。从表6中可以看出,大数据研究领域主要分布在图书情报与数字图书馆、计算机软件与计算机应用、新闻与传媒、行政学及国家行政管理等学科领域,这与表3文献出版来源分析结果相吻合。研究表明大数据是一个涉及多学科、多种信息技术、多行业的新研究领域,需要研究人员共同努力,积极加快大数据研究领域进展、丰富大数据研究领域的成果。

表4 学科领域类别分布

(五)关键词词频分析与共现分析

关键词是一篇文献的高度浓缩,是文献的重点研究内容,通过关键词词频分析能够确认文献所研究学科领域的研究热点问题。本文使用Citespace III可视化软件进行关键词词频和共现分析,设置相应的参数为:其他参数不变,阈值设置为Top 50,节点类型(Node Type)选择为关键词(Keyword)。运行程序得到关键词词频排序表7和关键词共现知识图谱图3。图3中每个节点表示一个关键词,节点大小表示关键词的频次,节点之间的连线表示关键词具有共现关系,两个节点之间的连线越粗表示两个关键词共现频次越高。结合表7和图3可以看出,大数据研究所采用的主要关键技术包括云计算、数据挖掘等,主要应用领域包括图书馆、电子政务、新闻、知识服务等行业。Citespace III可视化软件通过Time-Zone时区图可以探索研究领域的发展与演进轨迹,由图4可以看出大数据一词从2010年一直持续到2015年,近五年中大数据在云计算、图书馆、数据挖掘等方面的研究备受关注。

表5 关键词词频排序

图3 关键词共现知识图谱

图4 研究前沿Time-Zone图

三、研究结论与展望

本文从文献的年载文量、著者来源、文献来源、学科领域、研究层次、关键词词频、共现、文献被引频次等方面对CNKI数据库中从2010年到2015年SCI、EI以及CSSCI有关大数据的论文进行了研究与分析,统计了目前国内大数据研究热点和发展趋势,得出国内大数据研究自2012年进入了快速发展阶段,在中国人民大学、桂林理工大学等高校已经形成了核心作者群,以中国人民大学、清华大学、武汉大学和南京大学为代表的高校是大数据主要研究机构,计算机科学与技术、新闻媒体、图书馆、情报、社会舆情等是大数据主要研究的学科领域,在专业实用技术、基础教育和中等职业教育等研究层次关注度较低,目前国内还处于大数据研究初期,缺乏大数据实用性成果。大数据是一个涉及多学科的技术,研究人员和学者应该多交流、加强合作逐步形成一支世界领先的稳定、强实的大数据研究团队,争取在大数据实用性方面取得辉煌成绩。

[1]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报(工学版),2014,(6):957-972.

[2]程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].软件学报,2014,(9):1889-1908.

[3]张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,(S2):216-233.

[4]朱静薇,李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013,(5):9-13.

[5]孙杰,贺晨.大数据时代的互联网金融创新及传统银行转型[J].财经科学,2015,(1):11-16.

[6]陈坚林.大数据时代的慕课与外语教学研究——挑战与机遇[J].外语电化教育,2015,(1):3-8.

[7]David Goldston. Big data: Data wrangling[J]. Nature, 2008, 455(7209):15.

[8]O. J. Reichman, Matthew B. Jones, Mark P. Schildhauer. Challenges and opportunities of open data in ecology[J]. Science,2011,331(6018):703-705.

[9]Wang YZ, Jin XL, Cheng XQ. Network big data: Present and future[J]. Chinese Journal of Computers, 2013, 36(6):1125-1138.

[10]Gantz J, Reinsel D. Extracting value from chaos[EB/OL]. [2014-09-20]. http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf.

[11]维克托·迈尔·舍恩伯格,肯尼斯·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013:113.

[12]Chen, C. CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006,57(3):359-377.

[13]2012大数据论坛[EB/OL] . [2012-07-24]. http://huod.itxinwen.com/2012bigdata/.

[14]罗式胜.文献计量学概论[M].广州:中山大学出版社,1994:309-310.

[15]冯琳.国外信息用户研究的文献计量分析[J].图书馆学研究,2010,(14):2-5.

[16]喻国明,王斌,李彪,等.传播学研究:大数据时代的新范式[J].新闻记者,2013,(6):22-27.

Visualization Analysis of Big Data Research Based on Knowledge Mapping

WANG Fu-xiang1,2

(1.School of Law Politics and Public Management, Huaiyin Normal University, Huai'an Jiangsu 223001, China; 2.School of Labor and Human Resources, Renmin University of China, Beijing 100872, China)

:knowledge mapping; big data; visualization; bibliometric

In order to deeply discuss the trends of big data research in China, we studied the hotspots of big data from the perspective of bibliometric and knowledge mapping. In CNKI database, 1371literatures which are indexed by SCI、EI and CSSCI are based on big data. Bibliometric analysis、knowledge mapping and Citespace III software were used to discuss primal authors、 reference source、institutions distribution、subject distribution and research rank in the field of big data, big data hotspots were also studied in this paper.

2095-2708(2017)01-0056-07

G250.252

A

一、数据来源和研究方法

知网(CNKI)学术文献

总库中收录的“关键词=大数据”的文献作为数据来源。由于国内开展大数据研究工作比较晚,检索时设定时间跨度为2010年到2015年,检索日期为2016年4月8日,期刊来源选择:SCI、EI和CSSCI期刊进行精确检索得到1371篇文献。

近年来,国内对大数据研究的现状、展望与挑战的相关文献学术成果不断涌现,涉及计算机科学、图书馆、情报、互联网金融和高等教育等众多领域[1-6]。“大数据”概念最早出现在《Nature》[7]杂志所设立的“Big Data”和《Science》[8]“Dealing with Data”专刊,专刊中主要涉及互联网技术、互联网经济学、超级计算机、环境科学生物医药等多个方面。什么是大数据,目前尚未有统一的定义,从宏观角度讲,大数据是融合物理世界、信息空间和人类社会三元世界的纽带[9],从信息产业角度讲,大数据还是新一代信息技术产业的强劲推动力。大数据及其研究领域极具影响力的领导者的国际数据公司(IDC)在2011年发布的报告中,总结了大数据具有4V特点,即volume(体量大)、variety(模太多)、velocity(生成速度快)和value(价值大),4Vs特性指出了大数据的意义和必要性,就是如何从大数据中如挖掘价值[10],正如Facebook副总工程师杰伊·帕瑞克所言,“如果不利用所收集的数据,那么你所拥有的只是一堆数据,而不是大数据”[11]。本文从文献计量和知识图谱的角度分析大数据研究进展和热点问题。

(一)数据来源

猜你喜欢

图谱论文领域
绘一张成长图谱
2020 IT领域大事记
领域·对峙
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
下期论文摘要预登
下期论文摘要预登
下期论文摘要预登
新常态下推动多层次多领域依法治理初探
2013年5—12月最佳论文