基于文献计量的大数据技术研究现状与趋势
2022-01-17陈航宇罗子江
□陈航宇 杨 鑫 罗子江
随着网络化、信息化的普及,网络数据呈爆炸式增长,云计算及人工智能等大数据技术快速兴起并渗透到各个领域,极大改善了人们的生活。如李积雲等[1]提出一种基于大数据的智慧农业共性信息技术,改进了农产品的流通模式。王淑平等[2]在研究医疗大数据特征的基础上,探讨了医疗大数据的应用体系和应用场景。杜吉梁等[3]使用大数据技术,构建出多源数据的挖掘模型与时空分析模型,并应用在食品安全监管中,有效排除安全隐患。可见,大数据技术为各行各业带来了新的思维视角,充分激发出数据对社会发展的影响与推动,具有极大的研究价值。然而当前关于大数据技术的研究呈现出一种繁杂的现状,亟需对本领域内研究成果进行系统梳理,同时也鲜有学者对文献计量、知识图谱等方法进行迁移应用。本文提出一种文献计量和共词分析相结合的研究方法,并运用知识图谱等可视化技术从多角度系统梳理该领域的学术成果,力求对后续研究提供一定借鉴。
一、数据来源和方法
研究数据源自中国知网(CNKI)期刊数据库,选用高级检索,以“大数据技术”为主题进行精准检索,其中,为确保数据质量,将期刊来源类别设定为“核心期刊+CSSCI”,共检索出2,532篇文献。经过人工预处理,如剔除前言、寄语等无关数据,获得有效文献2,465篇,共含标题、时间、期刊、关键词等9个特征。
二、文献计量分析
(一)文献时间分布。通过统计最近二十多年以来在中国知网对于以大数据技术为核心词汇的文章,并仔细统计其各个时期的发表文章数,我们可直观地展示出发文量随年份的变化状况,发现大数据技术领域中的发文数量呈现先缓慢波动后迅速增长并逐渐趋至平稳的总体发展态势,具体可以分成三个阶段。第一阶段是1997年至2011年,该期间内发文量上下浮动,但年文献量均低于4篇,正值“大数据技术”领域的萌芽期。第二阶段是2012年至2017年,发文量与年均增幅都有较大提升,可称作快速发展期。第三阶段是2018年至今,发文量的年均增幅较小,呈平稳波动,是该领域的稳定发展期。
(二)文献期刊分布。对大数据技术领域中的期刊分布情况进行统计,结果发现,2,465篇相关论文共分布在750种核心期刊内,其中《现代电子技术》和《人民论坛》的期刊载文量最多,分别是43次和42次,均篇被引用5.6次和4.4次。而《电子政务》和《现代教育技术》的总引用量较多,分别为1,347次和1,111次,均篇被引用35.4次和55.6次。整体而言,我国研究大数据技术的文献主要集中在管理学、计算机科学和情报学等学科相关的期刊,是促进本领域发展的中坚力量。
(三)发文机构分布。本文将期刊文献的第一单位视为统计指标进行分析,我们通过仔细对比发现发文机构主要来自全国各大高校,其中文献数量排名前三的分别为:清华大学(73篇)、中国人民大学(55篇)、武汉大学(52篇)。同时,如图1所示还可以发现,这些机构地处科技发达的城市,有效推动了大数据技术的进步和发展,也表明非发达地区在大数据技术相关文献发表上还需要进一步加大力度,在大数据技术的研究上让全国均衡仍然任重道远。
图1 发文机构分布
(四)文献作者分布。此部分主要依据普赖斯定律来统计大数据技术领域内的高产作者,计算公式为M=0.749×(Nmax)1/2,其中Nmax表示作者的最高发文数。经统计,发现Nmax=11,计算M=2.48,取整,即发文量在3篇及以上的视为高产,共有128人。统计发现,南京审计大学陈伟发文量最高(11),其研究内容多以大数据技术在审计学中的应用和实践为主。江苏师范大学杨现民和南京大学甄峰等发文量也较高,均为8。
三、共词分析
(一)高频关键词分析。关键词是一篇论文的主要概括与研究重点,可以反映该研究领域内热点。实验中我们使用Python对关键词进行提取和词频统计。结果发现2,465篇文献共涉及关键词6,029个,总词频11,527,关键词平均频次1.801。表1列出部分词频较高的关键词,从中可知,“大数据”的词频最高,为1,376次,“大数据技术”和“大数据时代”的频数均在130次以上,分别为385和135次。其他频数在60次以上的关键词有“人工智能”“数据挖掘”“云计算”“物联网”“信息技术”等,这些频次较高的词汇在一定程度上表示了本领域的研究热点,之后的关键词共现分析进一步说明了这一点。
表1 高频关键词统计表
(二)关键词共现分析。为更好地挖掘关键词之间的潜在关系与动态变化,在完成了高频关键词的统计以后,实验中我们还在文中截取词频不低于7的132个关键词进行研究,并构建出一个132×132的共现矩阵(如表2所示),表2中的数值是两两关键词在同一篇文献内的共现次数,对角线上数值是该关键词的自身词频,从表2可知,“大数据”与“大数据技术”共现24次、与“人工智能”共现91次。这样的统计结果表明,在对于大数据技术的研究中,目前有关“大数据”、“大数据技术”、“大数据时代”、“人工智能”、“数据挖掘”、“云计算”等重要内容是目前的研究热点,未来有关这方面的研究也将成为重点。
表2 关键词共现矩阵(部分)
(三)关键词知识图谱。共现矩阵中132个关键词的总频数为4,036,占全部关键词的35.01%,高于知识图谱构建要求的27%,达到分析标准。本文借助Gephi软件依据表2绘制“大数据技术”领域的关键词知识图谱,该图谱共包括132个关键词和1,800条共现边。每一圆形节点代表一个相应的关键词,大小是其频数高低,连线代表各关键词间的关系,其粗细为共现频数的高低,节点颜色及深浅代表关键词的相似类别。居于图谱中心位置的是“大数据”,与四周“大数据技术”“大数据时代”“人工智能”“数据挖掘”等词汇的连线较多,关系紧密,表明这些关键词是组成整个图谱的核心结构,为本领域的研究重点。同时,根据节点颜色还可以分成3个类别,第一类是图谱右侧的橙黄色节点区域,以“大数据技术”为中心,聚集了“大数据分析”“深度学习”“机器学习”“云计算技术”“数据挖掘”等关键词;第二类是图谱中心地带区域,以“大数据”为中心,聚集了“人工智能”“互联网+”“区块链”“可视化”和“信息化”等关键词;第三类是图谱下侧的粉色节点区域,以“教育大数据”为中心,聚集了“智慧教育”“学习分析”“智慧城市”“公共管理”“个性化学习”等关键词。
四、结语
本文以中国知网(CNKI)中已发表的2,465篇文献为样本,系统梳理了大数据技术领域中近年来的高质量研究成果。通过对文献时间、期刊、机构、作者和关键词共现等多方面分析,有效揭示出我国大数据技术领域的现有研究状况和发展态势,指出有关大数据技术、人工智能、数据挖掘、大数据分析、云计算、物联网、区块链等主要研究方向不仅是现在大数据技术方面的重点研究领域,在未来多年这几个方向都将是研究热点。文章借助知识图谱等方法将结果可视化呈现,有助于人们对本领域进行更好地理解,并为未来研究者提供参考。