基于可视化分析的我国大数据产业研究现状综述
2021-08-28杨子江单铁城李晨李宪毅杜阳
杨子江 单铁城 李晨 李宪毅 杜阳
【摘 要】论文基于CNKI数据库,运用文献计量、信息可视化和社会网络分析的方法,对我国2012-2020年大数据产业研究的核心期刊文献进行梳理,用Citespace构建了共现图谱,分析了该领域的发文趋势和主要研究机构;通过Ucinet进行社会网络分析,探讨了我国大数据产业研究的发展特点和高频关键词之间的联系情况。
【Abstract】Based on CNKI database, this paper uses the methods of bibliometrics, information visualization and social network analysis to sort out the literatures of the core journals of big data industry research in China from 2012 to 2020. Citespace is used to construct the co-occurrence map and analyze the publishing trend and major research institutions in this field. Through social network analysis by Ucinet, this paper discusses the development characteristics of China's big data industry research and the relationship between high-frequency keywords.
【关键词】大数据产业;可视化分析;社会网络分析;知识图谱
【Keywords】big data industry; visual analysis; social network analysis; knowledge map
【中图分类号】F49 【文献标志码】A 【文章编号】1673-1069(2021)09-0040-04
1 引言
随着数据量的飞速增长,人们迈入了大数据时代,新型信息发布方式不断涌现,数据正成为另一种重要的战略资源。大数据是众多关键行业关注的问题。“大数据”这一概念从被提出到获得普遍认可并成为全球热词,伴随的是数据在各行业领域的深层渗透与应用。作为复杂而庞大的数据集,它具备强大的分析与挖掘价值,是影响竞争和发展的重要因素。在信息化发展的新阶段,大数据对经济发展、社会秩序、国家治理、人民生活都会产生重大影响。
为推动我国大数据产业有效、健康发展,本文运用文献计量和信息可视化的方法,对我国大数据产业相关研究的核心期刊文献进行梳理,分析了该领域的发文趋势和主要研究机构;通过共词分析、知识图谱和社会网络分析,探讨新时期互联网和大数据环境下,大数据产业的发展特点和主题演化,以期为之后研究工作的开展提供参考。
本文运用文献计量和信息可视化的方法,对我国大数据产业相关研究的核心期刊文献进行梳理,分析了该领域的发文趋势和主要研究机构,以期为之后研究工作的开展提供参考。
2 数据来源与研究步骤
2.1 数据来源
本文选用CNKI平台中国学术期刊网络出版总库(CAJD)作为数据源,以“大数据产业OR大数据行业”为检索词进行主题检索,检索年限字段从2012年开始,截至2020年,根据布拉德福文献离散分布规律,为保证研究的有效性,研究论文数据1165条(检索时间为2021年3月27日)。
2.2 研究步骤
运用文献计量的理论和方法,对收集所得的大数据产业研究文献进行统计分析。基于词频分析法,利用SATI、Excel軟件处理文献数据,从文献数量、作者和机构分布、关键词等角度进行了社会网络分析,探讨参与大数据产业相关研究的作者和机构的合作情况以及该领域的研究热点和前沿。将期刊来源类别字段设定为核心期刊及CSSCI来源期刊。通过人工筛选、去重、整理,共得到大数据产业相关研究论文数据1165条(检索时间为2021年3月27日)。
3 分析讨论
3.1 大数据产业相关研究发文的时间分布
我国2012年均发表在图书情报学相关期刊上,指出了大数据时代的来临和对数据进行创新分析的重要性。大数据的研发与应用开始被重视起来。截至2020年,该领域共发表核心期刊论文1165篇,其发文趋势见图1。
工业4.0代表了第四次工业革命,代表了生产中自主和非集中控制的新范式。产品和生产系统被增强为具有相互通信、构建自组织网络、自我控制和自我优化能力的网络物理系统。从IT的角度来看,这涉及一个新层次的网络、数据集成和生产中的数据处理。物联网、大数据等成熟技术是工业4.0的传播解决方案组件。到目前为止,还没有对IT需求进行有根据的详细阐述,也没有对解决方案组件如何满足这些需求进行有区别的讨论。本研究采用内容分析的方法,从现有的研究文献中提取工业4.0的需求。分析的目标是数据处理需求的结构化汇编。由此产生的分类方案支持在工业4.0的应用领域中进一步开发解决方案组件。此外,本文还展示了如何将需求与大数据软件解决方案的能力相匹配。因此,确定并描述了工业4.0中大数据应用程序的2个通用用例。我们可以看到2012-2020年大数据产业相关研究从2012年至2015年呈指数增长。与此同时,该行业在管理大量可用于执行大数据项目的技术方面面临巨大挑战。在初步调查的基础上,有一个空白的文献清楚地审视了银行业是如何利用大数据的潜力和面临的挑战。本研究以3家选定银行为样本进行个案研究,旨在通过更细致地调查如何使用和管理大数据来填补这一空白。这些发现将有助于我们从技术的角度加深对大数据实施和管理技术的理解,因此,2015年我国大数据产业相关研究发生了“大爆炸”。虽然2015-2017年发文量增长趋于平稳,但发文量一直较高,这段时间,我国相继出台了各种相关政策。2018年,大数据行业发展达到了一个“瓶颈”,发文量有明显的下降,国家出台的相关政策也较少。2018年之后,相关研究继续增长。由此可以看出,该领域的研究与国家政策的支持有较大关系。近年来,各种网络物理系统(CPS)的开发和实现呈爆炸式增长。因此,与CPS相关的研究和CPS技术的进步越来越成为物联网(IoT)、大数据、云计算和工业4.0等IT领域新兴趋势的一部分。然而,只有很少的研究工作能够确定与新兴IT趋势相关的综合CPS研究趋势。因此,本文的目的是探讨什么样的CPS研究主题与新兴的IT趋势相关,以及产业如何实施CPS技术。
3.2 大数据产业相关研究的热点和前沿分析
2012-2020年大数据产业相关研究涉及的关键词及其频次统计显示,1162篇文献共涉及关键词5112个,其中占该领域关键词总数55.01%的2812个关键词出现过1次(见图2)。
将CNKI的论文以endnote形式导入文献题录信息统计分析工具SATI软件,对文档提取关键词,其中TOP10高频关键词如表1所示。
首先将从中国知网下载的endnote格式文档输入SATI软件中,变成了50×50的共词矩阵,计算共词矩阵的Ochiai(相似)系数,并得到相似矩阵,如图3所示。
接下来,运用Ucinet软件对关键词相关矩阵进行社会网络分析。人工删掉了“大数据”“大数据时代”等过大的节点,得到高频关键词网络图,如图4所示。
对该网络进行中心度分析,节点之间的连线越多,颜色越深,代表其相互关系作用越强。根据图5可知,节点中心度由大到小依次为“人工智能”“数据挖掘”“云计算”“大数据分析”“数据共享”等。
数据挖掘技术是如何在Hadoop中用于云数据的,技术融入日常生活中已经变得非常流行。数据挖掘有助于提高业务领域的效率,降低成本。在云计算范式中,最需要的是数据挖掘的应用和技术。用户可以从虚拟集成的数据仓库中获取有意义的信息,通过在云计算中实现数据挖掘来降低存储和基础设施的成本。本文以电信行業客户流失预测为研究对象,将数据集存储在云端,利用Hadoop中的数据挖掘技术实现。本文采用分类的方法对电信行业的数据集进行分析,对数字数据和文本数据进行分类,并对可能从现有网络中切换的用户进行预测,在Hadoop环境下,利用聚类方法对给定数据集的分类结果进行分组,以达到对数字和文本数据的最佳预测。Hadoop是一个易于实现分类的环境。按照“网络—凝聚力—密度—密度”的路径进行网络密度分析,结果显示网络密度为0.0016,通过比较,该网络密度较低,关键词之间的联系较弱。
鉴于此,为进一步研究我国大数据研究的发展趋势,运行CiteSpace,参数设置“Burst items”,得到关键词突现图(见图6)。
由图6可看出,2012年,大数据产业研究起步阶段,研究多在情报学领域和数据分析领域,而后,大数据产业的研究可以融入许多原本存在的和新出现的行业中。最后,2018-2020年突变词为“产业融合”,说明大数据产业在“产业融合”方面的研究将是一种发展趋势,大数据将更好地促进各个产业进行融合发展。面向流程工业领域的跨部门大数据平台的体系结构。主要目标是设计一个可扩展的分析平台,支持多个行业领域数据的收集、存储和处理。这样一个平台应该能够连接到工厂的现有环境,并使用收集到的数据建立预测功能,以优化生产过程。分析平台将包含用于构建这些功能的开发环境,以及用于评估模型的仿真环境。该平台将在不同行业的多个网站之间共享。跨部门共享将使知识能够在不同领域之间进行转移。在开发过程中,我们采用了以用户为中心的方法来收集来自不同涉众的需求,这些涉众用于从不同的角度(从上下文到部署)设计体系结构模型。部署的架构在2个过程工业领域进行了测试,一个来自铝生产,另一个来自塑料成型行业。
4 结论与不足
由于大数据概念比较广泛,大数据产业涉及的领域也较多,使得对大数据产业研究现状分析不够系统和完整。
我国大数据产业研究与国家政策的支持有较大关系,相关研究起步于2012年,2012-2015年发文量呈指数增长,2015-2017年发文量增长趋于平稳,但发文量一直较高,2018年,大数据行业发展达到了一个“瓶颈”,发文量有明显的下降,2018年之后,相关研究继续增加。研究还发现,我国大数据产业研究热点主要集中在“人工智能”“数据挖掘”“云计算”“大数据分析”“数据共享”等方面,通过对该网络的密度进行分析,发现关键词整体网络密度较低,关键词之间的联系较弱,对关键词进行小团体分析,最终将50个关键词分为10个小团体,表明关键词之间较分散。通过对突变词的研究,说明大数据产业在“产业融合”方面的研究将是一种发展趋势。
【参考文献】
【1】李后卿,樊津妍,印翠群.中国大数据战略发展状况探析[J].图书馆,2019(12):30-35.
【2】习近平:实施国家大数据战略加快建设数字中国[J].中国卫生信息管理杂志,2018,15(01):5-6.
【3】国发〔2015〕50号.国务院关于印发促进大数据发展行动纲要的通知[Z].
【4】工信部规[2016]412号.工业和信息化部关于印发大数据产业发展规划(2016-2020年)的通知[Z].
【5】邱均平.信息计量学(四) 第四讲 文献信息离散分布规律——布拉德福定律[J].情报理论与实践,2000(04):315-314+316-320.
【6】林德明,陈超美,刘则渊.共被引网络中介中心性的Zipf-Pareto分布研究[J].情报学报,2011(1):76-82.
【7】黄晓斌,钟辉新.大数据时代企业竞争情报研究的创新与发展[J].图书与情报,2012(06):9-14.
【8】张文彦,武瑞原,于洁.大数据时代的图书馆初探[J].图书与情报,2012(06):15-21.
【9】季忠洋,李北伟,朱婧祎.大数据生态系统形成机理与模型构建研究[J].图书馆学研究,2018(05):9-13+8.