APP下载

机器学习研究领域的研究态势

2021-11-05崔梓凝

电子技术与软件工程 2021年17期
关键词:发文机器聚类

崔梓凝

(北京工业大学经济与管理学院 北京市 100144)

1 引言

近年来,人工智能技术已对人类社会产生极为深远且广泛的影响,它为诸多领域提供了大量发展机遇。机器学习技术是人工智能的一大核心研究领域。机器学习概念的提出至今已有较为悠久的历史,图灵早在1950年发表的文章中便有所提及。鉴于目前关于机器学习领域的文献计量研究较少,本文旨在对2016-2020年机器学习领域高被引文献进行统计分析和知识图谱分析,以得到机器学习领域研究热点和该领域高被引文献的特征,使研究人员得以更加清楚地了解机器学习领域的研究态势。

2 数据来源与研究方法

2.1 数据来源

WebofScience 数据库是目前国际上最具权威性和影响力的文献数据库之一。本文所选取的是Web of Science 核心合集中检索时间范围为2016-2020年标题为“machin*learning”的文献数据,采用的检索式为:标题="machin*learning";出版时间="2016 OR 2017 OR 2018 OR 2019 OR 2020";数据采集时间为2021年5月16日,以此检索式进行检索,共检索到28769 篇文献。最终根据被引频次从低到高排序,筛选出被引频次靠前的2000 篇高被引文献。

2.2 研究方法

本文研究主要采用文献计量分析法和可视化分析法对机器学习领域相关文献进行分析研究。文献计量分析法是利用数据库中研究性论文的发表规律,以定量研究方法作为基础,客观地评价不同期刊、研究机构或国家针对某一领域的研究现状与发展历程。文献计量分析法主要以文献为数据源,包括搜集、整理和分析三大基本过程。可视化分析法则是运用可视化分析软件r 对检索得到的文献进行深入的分析研究,更为直观地说明不同研究范畴间的内在联系。

3 研究分析

3.1 时间分布

文献发表数量是用来衡量某一领域科研成果和发展水平的重要指标。对相关文献的发文量进行年度统计分析能够揭示当前该领域的发展状况并预测其研究前景与发展趋势。通过对Web of Science数据库中检索得到的2000 篇有关机器学习研究的高被引文献进行时间分布分析,所选文献在2016 到2018年间呈现增长趋势并于2018年发文量达到高峰,总计668 篇;2018年作为转折点,2018到2020年间呈现降低趋势,并在2020年达到最低点,发文量仅有116 篇。

3.2 空间分布

3.2.1 国家/地区分布

国家/地区在领域内的发文量在一定程度上可以反映出该国/

地区在此领域的整体科研实力和学术影响力。有关机器学习的研究主要集中在美国、中国、英国、德国、加拿大等国,其中美国的发文量最多,共962 篇;中国发文量位列第二,发表文献为352 篇,随后为英国、德国、加拿大、澳大利亚、意大利、韩国、瑞士、日本等国,这十个国家构成了机器学习领域的核心国家/地区群。在2000 篇高被引文献中,其中352 篇为中国学者发表,排名世界第二,由此可见中国在机器学习领域占据较高地位,有极大的影响力。

此外,HistCite 软件用来进行文献计量分析的主要指标还有TGCS。TGCS 的全称是Total global citation score,即某一文献在WOS 数据库中的总被引用次数,可以作为衡量文献重要性的指标。鉴于所选数据为机器学习领域被引频次前2000 的文献,GCS 值高意味着该文献是本研究领域内的重要文献。

3.2.2 研究机构分布

3.2.2.1 研究机构统计分析

研究机构的计量分析可以揭示该研究方向的机构分布,辅助研究者找到学术跟踪信息源[12]。科研机构发文量是其研究力量的体现,通常研究机构的学术实力越强,其发文量越多。从表2 来看,在所选的2016-2020年2000 篇高被引文献中,全球发文量排名前10 位的机构共发表论文395 篇,仅占发文总量的19.75%。由此可见,目前机器学习领域研究机构分布广泛,尚未形成具有绝对学科优势的科研机构。

通过统计分析所选文献的研究机构数据,发现发文量排名前十的研究机构依次为:斯坦福大学、麻省理工学院、哈佛医学院、剑桥大学、哈佛大学、加利佛尼亚大学伯克利分校、宾夕法尼亚大学、卡内基梅隆大学、中国科学院和伦敦大学学院。在这十个研究机构中,其中包括7 个美国高校、2 个英国高校。

3.2.2.2 研究机构合作图谱分析

本文选用CiteSpace 构建研究机构合作关系网络,研究机构在图谱中表现为圆形节点,图谱节点的大小代表发文量的多少,通过分析研究机构合作网络图,可以得出发文量前3 的机构分别是Stanford Univ、MIT、Harvard Med Sch。节点间连线的粗度表示机构之间的合作程度,节点间连线越密集,代表该研究机构与其他研究机构的合作关系越强。可发现:Stanford Univ、Univ Krudistan、Los Alamos Nalt Lab、Chinese Acad Sci 和Harvard Univ 与其他机构间有较强的合作。

3.3 期刊分布

期刊发表相关文献数量是指2000 篇文献里每种期刊登载的相关文献数量。一般来说,文献发表数越多,则说明此期刊在该领域影响力越大,期刊发表相关文献数量与期刊影响力是正相关关系。分析文献发表期刊有助于研究者了解该领域内的核心期刊,并为其检索资料、发表论文和投稿提供一定参考。

机器学习领域高被引论文发表刊物较为分散,所选的2000 篇文献分别发表在882 种期刊上,发文量排名前十的期刊如表1所示,近1/5 的文献发表于这十种刊物。

表1:2016-2020年期刊发表期刊文献数量统计

由表1 可得:《PLOS ONE》的TGCS 最高,说明在此刊发表的论文在本地数据集中的被引用次数最多。

3.4 关键词分析

关键词是对文献主旨内容和作者意图的概括。通过对论文关键词词频进行统计分析和共现分析,即可以发现该领域当前研究热点。“machine learning”在中心度和关键词词频排序中都位居首位。结合两种排序方法进行分析,本文发现机器学习的研究主要以算法为主,涉及到深度学习、随机森林等。

3.4.1 关键词统计分析

文献关键词是对文章主题的高度概括。通过分析关键词,可以了解到机器学习研究热点问题。对机器学习研究领域高被引文献高频关键词进行统计分析,可发现关键词出现频次由高到低依次是机器学习、深度学习、人工智能、随机森林、分类、数据挖掘等。

3.4.2 关键词共现分析

在关键词共现聚类分析方面, VOSviewer 可清晰展示领域内各聚类簇中的关键词。本文利用VOSviewer 进行关键词共现分析,根据出现关键词出现频次绘制机器学习领域的关键词共现图谱,关键词出现频次越高,关键词节点越大。

关键词共现图谱中将128 个关键词分为12 个聚类簇,以包含较多关键词的聚类1 和聚类2 为例进行具体说明:

(1)聚类1 中有21 个关键词,如图中红色关键词所示,主要包括急性肾损伤、人工智能、大数据、急救护理、交叉验证、诊断、电子健康记录、精密医疗等,可看出此聚类中主要涉及到机器学习在医疗诊断等方面的应用,以及所需的关键技术。

(2)聚类2 中有20 个关键词,如图中绿色关键词所示,主要包括自适应神经模糊推理系统、人工神经网络、回归树、决策树、基因算法、随机森林、粒子群算法等,该聚类中包括机器学习在脑电分析中的应用及相关算法。

4 研究结论

4.1 机器学习领域高被引论文特征

(1)有关机器学习的研究主要集中在美国、中国、英国、德国、加拿大、澳大利亚、意大利、韩国、瑞士、日本等国,这十个国家构成了机器学习领域的核心国家/地区群,其中美国的发文量最多,中国位列第二。

(2)机器学习领域研究机构分布广泛,尚未形成具有绝对学科优势的科研机构。发文量排名前十的研究机构中,包括7 所美国高校、2 所英国高校,由此看出英美高校是机器学习领域研究的核心研究机构。

(3)机器学习领域高被引论文发表刊物较为分散,仅有不到1/5 的文献发表在该领域发表文献数量排名前十刊物。

4.2 机器学习领域研究热点

虽然按照关键词权重排序与按词频排序得到的高频关键词并非完全一致,但可以基本反映出机器学习领域的研究热点。通过对所选文献的关键词词频进行统计和共现分析,可以发现该领域当前的研究热点为:机器学习、深度学习、人工智能、随机森林、分类、数据挖掘、支持向量机、大数据、特征选择、预测。

4.3 中国在机器学习领域研究的地位

中国在机器学习研究上处于较高水平,在该领域占据较高地位,有较强的的影响力,但与美国仍存在一定的差距。在2016-2020年内被引用最多的2000 篇论文中,中国的作者比例稳步上升,其份额在2019年达到了24.14%,而美国的份额正在下降,中国与美国之间的差距明显缩小。如果这种趋势持续下去,中国发文量会在不久后超过美国。

4.4 机器学习领域高被引论文特征

(1)有关机器学习的研究主要集中在美国、中国、英国、德国、加拿大、澳大利亚、意大利、韩国、瑞士、日本等国,这十个国家构成了机器学习领域的核心国家/地区群,其中美国的发文量最多,中国位列第二。

(2)机器学习领域研究机构分布广泛,尚未形成具有绝对学科优势的科研机构。发文量排名前十的研究机构中,包括7 所美国高校、2 所英国高校,由此看出英美高校是机器学习领域研究的核心研究机构。

(3)机器学习领域高被引论文发表刊物较为分散,仅有不到1/5 的文献发表在该领域发表文献数量排名前十刊物。

猜你喜欢

发文机器聚类
机器狗
机器狗
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
未来机器城
校园拾趣
爷孙趣事
以牙还牙
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
一种层次初始的聚类个数自适应的聚类方法研究