近年来大数据技术前沿与热点研究
——基于2015—2021年VOSviewer相关文献的高频术语可视化分析
2023-04-06孙晨霞施羽暇
孙晨霞 施羽暇
(1. 北京印刷学院新闻与出版学院,北京 102600; 2.中国信息通信研究院政策与经济研究所数字经济研究部,北京 100191)
引言
大数据这一科技术语并不是近几年才出现的。2008年9月,Nature杂志推出Bigdata:ThenextGoogle专刊,讨论大数据技术用于处理未来可能会遇到的问题,其中便首次使用了“大数据”的说法[1]。而首次提出大数据的定义是在2011年,麦肯锡全球研究院 ( MGI) 在其发布的《大数据: 创新、竞争和生产力的下一个前沿领域》 (Bigdata,Thenextfrontierforinnovation,competition,andproductivity)研究报告中清晰表述:大数据是指其大小超出了常规数据库工具获取、储存、管理和分析能力的数据集[2]。
随着信息和通信技术的发展,大数据不再只是一个概念,而是逐渐融入人们生产和生活的方方面面,社会呈现出万物互联的趋势。大数据技术的繁荣与各个国家的政策和经济投入密切相关。2020年3月,数据首次被纳入生产要素范围,成为继土地、劳动力、资本和技术之外的第五大生产要素[3]。数字技术发展到今天,计算机算法越来越复杂、稳定和科学,数据的产生、传输和处理的方式也发生了翻天覆地的变化,深刻地影响着人们的生活方式。大数据的基础技术是基于云计算对数据进行存储、管理、挖掘和分析,核心技术包括数据采集、机器学习、数据预处理、数据库等。大数据技术意味着数字化进程的新阶段,驱动人类社会发展,推动社会生产格局的调整。《2021年IDC全球大数据支出指南V1》(IDCWorldwideBigDataandAnalyticsSpendingGuide, 2021V1)[4]中,对全球大数据市场的未来发展做出推断,称到2025年IT投资规模将得到巨幅增长,数额将超过3500亿美元,其复合增长率(CAGR)也将达到12.8%左右。IDC中国新兴科技研究组分析师王丽萌认为,随着互联网经济的升级和加速发展,政府、企业等终端用户正在广泛开展数字化转型,完善数据全生命周期管理,运用大数据分析和解决方案提升管理决策水平、改善内外部用户体验、支持创新应用,中国大数据市场支出将在五年内稳定增长。政府、企业对大数据技术投之以更多的关注。
信息和数据规模增长,人们的思维方式也受到大数据技术的影响发生改变,学界也涌现出大量大数据领域的相关研究。随着国内外研究深度和广度的不断延伸,形成了复杂的研究网络,这些庞杂的文献数据信息亟须梳理和总结。知识图谱法和文献计量分析方法中的共词共现法是分析学术领域研究态势的基本方法,科技术语和高被引论文可以在一定程度上代表学科领域的研究内容,显示出该学科领域的学者对某一方向的重视程度和研究倾向。因此,本文以VOSviewer可视化软件为工具,以Web of Science核心合集检索到的大数据领域的高被引论文为数据源,构建关于大数据领域的科技术语知识图谱,然后对该领域的前沿和热点进行挖掘、分析和解读。
1 数据准备
1.1 数据收集
研究数据来源于2015—2021年Web of Science核心合集中大数据领域的文献,通过主题字段检索,检索标题、摘要、作者关键词和Keywords Plus,以“big data technology”作为主题词,截止到2022年4月9日,共检索出8944篇文献,为了使数据分析的结果更有意义,对这些文献进行清洗,过滤掉信函、会议摘要、综述论文、被撤回论文等无效文献,最终以7169篇文献为样本。然后根据被引频次从高到低进行排序,选取出前1000篇高被引论文。最后将这些文献数据信息以纯文本文件的格式导出,作为本文的数据源。
1.2 研究方法
主要采用文献计量分析方法和知识图谱法,以Web of Science核心合集中的论文为研究对象,以大数据技术为主要研究领域,时间跨度为2015—2021年,借助科学知识图谱软件VOSviewer对从Web of Science导出的文献数据信息进行Author keywords和Keywords plus共现可视化,从而确定大数据技术的研究热点,构建关键词共现矩阵,并通过呈现出的聚类谱系图、标签视图、密度视图进行聚类分析,以便直观和动态地揭示大数据技术的知识结构和演化路径,从而实现对2015—2021年大数据技术文献的前沿和热点研究。
1.3 数据预处理
将1000篇高被引论文作为源数据导入VOSviewer软件,共析出5130个关键词,关键词的选取规则为:共现次数达到5次及以上,共得到252个关键词。但是软件自动合并出的结果中存在一些未达到共现分析要求的无效关键词以及重复关键词,需要进行手动筛选。在新建txt文档中加入如下关键词处理规则:(1)去除语义过于笼统、意义过于宽泛以及无意义的词,如big data、things和0等;(2)统一单词单复数,如network与networks,model与models;(3)合并同义词,如:network与Internet,industry 4与industry 4.0。最终得到174个符合共现要求的关键词。
2 大数据领域论文计量分析
2.1 年度发文数量分析
Web of Science 核心合集2015—2021年共发表了23 540篇大数据相关论文,图1是2015—2021年该领域所发表的相关研究的逐年趋势。可以看出,近几年大数据相关研究文献的发表数量呈现出逐年稳定上升的趋势,学界对大数据技术的研究在7年间从每年331篇上升到2075篇。
图1 2015—2021年大数据相关研究论文逐年分布
大数据相关研究论文近年来的持续增长,究其原因,主要在于大数据技术进入各行各业,从而导致全社会出现了对大数据技术的应用需求。从国家层面讲,大数据技术已经成为国家建设数字强国的强大驱动力;从企业层面而言,大数据技术在生产、传播和反馈信息方面具有突出作用;在科研领域,大量学科领域均有基于大数据技术的应用研究。除此之外,也离不开人们对数据本身的采集、管理、处理、分析等技术需求。社会生产活动需要用到大数据技术以及大数据的思维方式,因此,对大数据技术的需求与日俱增。大数据技术产生自数据库,集大成于分布式系统,现在又重新落地于数据库系统。近年来,人们不断追求和改进现有的技术,推动了对大数据技术的研究。如今新型分布式关系数据库技术和以分布式计算为特征的云计算技术将我们带入人工智能和信息化社会,大数据技术的相关研究仍在继续,在大数据领域相关研究文献数量逐年上升的大趋势和分布式计算的技术背景下,未来几年对数据库和云计算的研究将持续增长。
2.2 高被引论文分析
高被引论文之所以被多次引用,一方面在于其研究具有一定的代表性,学者们普遍认可论文成果在学术领域的贡献;另一方面也和论文关注的领域发展较快有关。因此,高被引论文可以在很大程度代表人们对某一问题研究的重视程度和研究倾向。表1列出了2015—2021年Web of Science 核心合集中大数据领域排名前10的高被引论文。可以看出,大数据领域的三个主要研究方向为大数据挖掘、大数据运维、云计算。2021年我国围绕大数据技术的资金投入继续增加,大数据技术在实践落地的过程中也存在风险和挑战,在数据的运营和维护过程中,如何有效地管理和应用大数据技术,以及在大数据的价值转化过程中切实保障用户数据信息的安全,也是大数据领域需要研究和解决的问题。
表1 2015—2021年大数据领域排名前10的高被引论文列表
(续表1)
3 大数据领域高被引论文聚类分析
3.1 基于聚类谱系图的关键词共现分析
VOSviewer可以对文献知识单元进行关系构建,对数据信息进行可视化分析,从而绘制出可以展现某一领域的知识结构、演进和前沿热点的知识图谱,实现对关键词共现的聚类分析。将上述2015—2021年大数据领域高被引论文的174个关键词导出到txt文档,接着在Excel文档中整理这些关键词数据,依照出现频次重新排序,选取前20个高频关键词,得到大数据领域高被引论文关键词频次表(见表2)。
表2 大数据领域高被引论文的前20个高频关键词
VOSviewer软件可以生成聚类谱系图,将经过数据预处理的174个符合共现分析要求的关键词导入软件,设置聚类规则为最小聚类中包含的关键词不少于25个,通过统计和梳理大数据领域的高被引论文中各个关键词出现的频次,以及各个关键词之间的关联程度,以展现大数据领域的研究热点和结构分布。图2是VOSviewer对样本数据分析生成的关键词聚类谱系图,图中的结点表示在大数据领域高被引论文中共现的关键词,结点的大小表示该词共现的频次高低,结点越大,体现出其研究热度越高。
图2 2015—2021年大数据领域关键词聚类谱系图
图谱中有174个标签,3017条连接线,总体关联强度为6567。可以看出,2020—2021年间,大数据领域的研究形成了3个聚类,分别围绕“大数据开发与挖掘”(红色)、“大数据分析与管理”(蓝色)、“大数据运维与云计算”(绿色)这三个技术方向进行研究。
3.1.1 聚类一:大数据的开发与挖掘
这个类簇包含73个关键词,其中系统(system)、框架(framework)、计算机应用(applications)、算法(algorithm)、模型(model)、机器学习(machine learning)、人工神经网络(artificial neural networks)这些词的结点最大,是这个聚类的中心结点。而分布式计算系统(MapReduce)、数据融合(data fusion)、智慧农业(smart farming)、数字医疗保健事业(digital health)、智能电网(smart grid)、清洁生产(cleaner production)、碳排放(CO2emissions)等词,在该聚类的网络边缘。
从图2还可以看出,系统一词的结点最大,可见对于系统的开发是大数据领域的一个研究热点。大数据挖掘技术通过建模和构造相关算法便于人们在海量数据中获取信息。其中,算法是由基本运算和规定运算顺序构成的运算规则和步骤[5]。机器学习是对计算机模拟人类神经网络和学习行为的研究,计算机可以根据算法智能地进行大数据挖掘与分析,从而构建、丰富和完善自身知识网络结构,并通过建立数据模型,实现对同类型数据的预测分析。深度学习是一种含多隐层的多层感知器,起源于机器学习,卷积神经网络属于深度学习的范畴[6]。而机器学习属于人工智能的范畴,是人工智能的一个研究分支。在大数据时代,凭借大规模的数据信息,通过构建数据模型,不断改善人工智能对数据预测的准确性,研究更加科学合理的数据挖掘算法,实现对人类神经网络的模拟,构造大数据网络体系,从而获取信息。随着在采集、挖掘过程中的数据沉淀和积累,融合了数据库技术、人工智能和机器学习的大数据挖掘技术也不断得到优化。
近年来,人们越来越重视大数据技术和以大数据技术为支撑的人工智能技术。根据调查,11.1%的企业对大数据技术和人工智能技术的累计投资超过5亿美元,有84.1%的企业在大数据技术和人工智能方面已开展工作[7]。可以预见,这样的趋势在未来仍将继续。大数据技术的应用包括多个领域,如在农业、医疗保健事业和电网技术等方面的应用,此外,还可以看到,在大数据开发、大数据挖掘这两个技术方向的理论研究到技术落地的应用研究过程中,对大数据技术的清洁生产和碳排放也很关注。从大数据、大环保到大治理,大数据技术在环境管理和决策过程中发挥了越来越重要的作用。
3.1.2 聚类二:大数据分析与管理
这个类簇包含49个关键词,有大数据分析(big data analysis)、工业4.0(industry 4.0)、服务(service)、信息系统(information systems)、持续性(sustainability)、创新(innovation)、供应链管理(supply chain management)等结点较大的词,还有专业化生产系统(manufacturing systems)、数据科学(data science)、情感分析(sentiment analysis)、业务分析(business analytics)、竞争优势(competitive advantage)、用户认可(user acceptance)等结点较小的词。
大数据分析和管理技术与工业4.0的时代背景密切相关。工业4.0时代具有智能化、个性化、虚拟与现实相融合的特征[8]。人们的需求通过在网络留下的数据信息表现出来,通过大数据整合分析,可以实现产品生产和分发的定制化。社会生产朝着个性化定制、服务性产品和数据要素驱动产业新业态和新模式创新的方向前进和发展,企业在工业4.0时代需要应用大数据分析和管理技术,绘制目标群体的用户画像,通过对数据加工、系统分析,实现从大数据到具体信息又到服务的转化,进而做出科学决策,获得企业在自己产业领域的竞争优势。此外,还有对大数据技术的绩效评估和数据管理。信息数据的生产没有尽头,但是并非所有的数据都具有信息价值,也并非所有的数据都可以实现信息到服务的价值转换,如何对数据进行科学和可持续的管理以及对未来的发展趋势进行预测,在工业4.0时代受到广泛关注。
3.1.3 聚类三:大数据运维与云计算
这个类簇包含52个关键词,其中,互联网(internet)、云计算(cloud computing)、物联网(iot)、安全(security)、架构(architecture)、区块链技术(blockchain technology)、信息与通信技术(ict)是该聚类的中心结点。此外,处于网络边缘的结点主要有:数据共享(data sharing)、数据隐私(data privacy)、边缘计算(edge computing)、雾计算(fog computing)、云(cloud)、智慧城市(smart city)等。
信息网络系统与物理网络信息系统进行融合,出现物联网、工业物联网等新兴概念。社交媒体每天都制造大量的数据信息。《我们究竟产生了多少数据?》一文曾预测,到2055年全世界将产生高达175 ZB的数据[9]。分布式计算使企业可以更加方便快捷地处理社交媒体上规模巨大的数据信息,通过大数据应用程序对数据进行挖掘和分析,从而绘制用户画像,提供个性化的服务和服务性产品。在碎片化信息时代,数据也是碎片式的,如何面对这些碎片式的数据构建数据模型是大数据技术发展应用的一个挑战,并且在构建数据模型的过程中,数据源并非全部真实可靠,有些信息涉及个人隐私或国家机密,难以获取完整的数据信息,因此数据质量难以保证。此外,互联网带来了数据的流动共享,人们在互联网中的所有行为都会留下数据信息印记,而数据信息的传播不再受限于空间和时间,可以大量无成本扩散,对数据的隐私保护与安全带来巨大挑战。同时,数据的流动共享还带来数据泄露的风险,无论从个人数据权利出发还是从国家数据利益出发,都需要对数据流动共享给予一定的限制。构建大数据监控报警体系,可以保证数据的可靠与安全。
人们的生活与互联网的关联程度比以往更加紧密,例如以数字化为特征的智慧城市建设,实现数据信息安全是建设智慧城市的重要内容和评价标准之一。根据美国国家标准技术研究院的统计,云计算涉及的安全问题主要在虚拟机隔离、数据保护、云计算体系结构、身份访问与控制等多个方面[10]。云计算是以分布式计算为特征的技术,通过云计算,各种数据和信息可以从一台计算机提供给另一台计算机。在云计算环境中,虚拟的操作系统建立在服务器上,数据信息都储存在服务器中,比如用户上传的身份认证信息。数据信息一旦被上传到云中,用户便不再拥有对数据的控制权,一旦服务器遭到入侵,用户数据就会被盗取,从而造成数据泄露。此外,区块链技术与比特币密切相关,通过对数据的层层处理改变数据存储形式,将区块链技术应用到数据隐私保护与安全,数据在网络中的流动将会更有保障。
3.2 基于标签视图的关键词演化分析
使用VOSviewer软件对2020—2021年大数据领域关键词进行演化分析,生成关键词标签视图(图3)。视图中结点的颜色表示关键词出现的平均年份,结点的大小表示关键词共现频次的高低。从2015年到2021年颜色逐渐由蓝到黄,从中可以看出大数据领域研究热点的演变。
图3 2015—2021年大数据领域关键词标签视图
图3中,近几年大数据研究的关键词大多集中出现在2018年,有较高共现频次的关键词集中分布在2017—2018年。2015—2016年有关大数据的论文发表数量较少。由于大数据技术发展极快,相关的研究论文越来越多,到2021年大数据相关研究的论文数量从每年331篇增长至2075篇,出现的高共现频次的关键词有:系统(system)、挑战(challenges)、大数据分析(big data analysis)、物联网(iot)、云计算(cloud computing)、工业4.0(industry 4.0)、框架(framework)、模型(model)、算法(algorithm)、机器学习(machine learning)、隐私(privacy)、区块链技术(blockchain technology)。可以看出,大数据分析、数据管理、数据模型、云计算的研究热度比较高,是大数据领域的研究热点。此外,2019—2021年间出现了边缘计算(edge computing)、安全(security)、数据隐私(data privacy)、企业绩效(firm performance)、数字双胞胎(digital twin)、工业4.0(industry 4.0)、人工智能(artificial intelligence)、区块链技术(blockchain technology)、循环经济(circular economy)等关键词,对大数据技术的研究更加深入,理论研究的广度和深度进一步提高,从对单一技术到技术群,再到“技术+管理” “技术+运维”,可以看出,数据安全与隐私保护方面的技术受到重视,相关技术的研究是近年来的新兴热点。
3.3 基于密度视图的热力分析
关键词密度视图可以对相关领域的研究重点予以可视化。通过对2020—2021年大数据领域关键词密度视图进行热力分析,可以了解大数据领域的研究现状。如图4中,可以看出大数据分析(big data analytics)、系统(system)、机器学习(machine learning)、挑战(challenge)、物联网(iot)、工业4.0(industry 4.0)、云计算(cloud computing)这些词的密度最高,可见大数据的开发、挖掘、分析、管理、运维与云计算这几个技术方向的研究最受学者关注。
图4 2020—2021年大数据领域关键词密度视图
4 结语
对科技术语和高被引论文进行统计分析并加以解读,能够了解学科领域的研究前沿和热点。借助计量分析法以及科学知识图谱分析,通过知识图谱软件VOSviewer对大数据领域2015—2021年高被引论文中的关键词进行可视化呈现,并对其进行共现分析解读,最终得出如下结论:
(1)近年来大数据领域的研究热点主要集中在三个方向。一是大数据开发与挖掘。如大数据处理系统、应用程序、建模、算法以及与大数据相关的数据库技术、人工智能与机器学习;二是大数据分析与管理。大数据并不是简单的建模、算法,也不只是对数据的挖掘整理,而是通过系统分析将数据转化为信息,为国家、企业和个人做出科学决策提供依据;三是大数据运维和云计算技术。大数据是海量的,人们接收的数据信息与日俱增,与此同时每个人又都是大数据生产的参与者,人们的生活与大数据的联系更加紧密,机构与个人数据的隐私与安全越来越得到重视。
(2)大数据技术研究在推进数字化社会的进程中起到重要作用。大数据开发与挖掘、大数据分析与管理、大数据运维与云计算在数字化社会的建设进程中必不可少。大数据开发与挖掘的研究能够推动机器学习更加完善,促进构建智能化知识网络,推动人工智能的发展;对云计算技术和区块链技术的研究能够为数据安全提供保障,推动智慧城市的建设。
(3)数字化、智能化、网络化是大数据技术的未来发展方向,数据安全是大数据领域未来的研究热点。从2015—2021年大数据领域高被引论文关键词的演化分析也可以看到,近年来,尤其是2019—2021年,随着对数字技术研究的深入,学者对循环经济和数字安全更加重视,在数字化、智能化和网络化的时代背景下,数据技术也朝数字化、智能化和网络化的方向发展,数字安全是智慧城市的评价标准,也是数字化社会的评价标准。数字安全将成为未来大数据领域的重要研究方向之一,相关的区块链技术将成为研究热点。