机器学习领域的研究热点及主题演化分析<br/>----以科学计量为基础

机器学习领域的研究热点及主题演化分析
----以科学计量为基础

2021-03-10陈红羽王丽叶

沈阳大学学报(社会科学版) 2021年1期

李会,陈红羽,李侠,王丽叶

(安徽财经大学管理科学与工程学院,安徽蚌埠 233030)

20世纪90年代中期,支持向量机(SVM)算法诞生,随后各种浅层机器学习模型被提出,如Boosting、最大熵方法(如Logistic Regression)等[1],带来了机器学习研究热潮并一直持续到今天。伴随着移动互联网、云计算、大数据、人工智能、物联网等新一代信息技术的高速发展,产生了大量的类型多样的数据资源。浅层机器模型主要解决数据存储、转换、处理等功能,但无法适应大数据背景下自主发现数据信息即时变化的需求,这对浅层机器学习模型提出了更多的挑战。因此,需要将深度学习能力运用于数据分析中,借助机器自主学习能力实现用户与计算机之间的沟通与协调,并作出明智决策,这是机器学习努力的方向。因此,了解和探索机器学习领域的热点及演化过程,对下一步机器学习领域的研究具有借鉴意义。

一、研究设计

1. 数据采集

本文选取Web of Science核心集为数据源,以“machine learning”作为标题词,时间范围设定为2008年1月—2019年7月,对初步检索得到的文献根据文献类型进行筛选,共得到7 279条文献记录,将其作为研究数据集合。对7 279条文献进行初步统计,文献共被引243 433次,涉及27 292位作者。

2. 工具与方法

信息计量分析是借助信息计量分析工具,采用定量分析的方法挖掘文献内容特征,并通过可视化的方式呈现文献内在关联及趋势预测。本文采用HistCite、CiteSpace、VOSViewer和SciMAT等工具对文献进行可视化分析和社会网络分析,以此获得文献内容特征、研究热点及发展趋势。 HistCite是由Thomson Reuters公司开发的专门针对WOS数据库进行文献引文关系分析的工具。它可以发现文献之间的引文关系,迅速找出研究领域内引用频次最高、质量最好的文献,并可以通过引文编年图了解文献引证关系。 CiteSpace是由美国德雷塞尔大学信息科学与技术学院陈超美博士代领的团队与大连理工大学WISE实验室联合开发的科学文献分析工具。该软件可以通过可视化手段呈现科学知识的结构、规律和分布情况,是一款在科学计量学、数据可视化背景下发展起来的引文可视化分析软件。 VOSViewer由荷兰莱顿大学科技研究中心发布,是一款可以对文献进行大数据分析的工具,可对文献引用、关键词共现进行可视化聚类分析。 SciMAT是由西班牙格拉纳达大学研发的知识图谱分析工具。本文在利用HistCite分析样本文献,并进行基本描述统计的基础上,借助CiteSpace、VOSViewer计量分析软件对样本文献的国家(地区)发文情况及关键词进行聚类分析,再通过SciMAT科学图谱分析工具,获取不同时间区间的研究主题,分析主题间的关系演化,并以此获得机器学习领域的热点主题问题。

二、数据统计与分析

1. 基本统计分析

文献计量学认为,某研究领域年度发文数量是评价该领域发展状况的重要指标之一。本文设定的采集周期是2008年1月—2019年7月,对该时间区间内的年度发文量进行统计分析,得到机器学习领域年度发文情况,如图1所示。

图1 机器学习研究领域年度发文情况

由图1可以看出,机器学习领域研究的文献数量呈现稳步增长的趋势。2008—2011年,机器学习领域发文数量增长较为缓慢,年发文数量在200篇以下,该领域的研究未引起学术界广泛关注;2012—2016年,发文数量年均增长接近100篇;2017年以来,机器学习领域发文数量增长较为迅速,年发文数量均突破千篇,2018年增长幅度超过100%。这也验证了随着大数据、人工智能、商务智能分析等新技术的发展与成熟,机器学习领域的研究越来越被学者关注。

在对样本文献年度发文量进行统计分析的基础上,利用HistCite信息计量分析工具进一步统计机器学习领域各国家(地区)发文情况,具体如表1所示。

通过发文作者所在国家(地区)的统计数据可以看出,该领域研究力量主要分布在美国、中国、英国、德国、加拿大等国家。由表1可知,前10位国家的发文量累计占比高达97.8%,而这些国家和地区在《世界主要国家2018年互联网发展指数TOP20排名》中,大部分表现也比较突出,尤其是美国、中国、英国,在全球互联网发展指数中位列前3名[2]。它们在机器学习领域发文量也领跑其他国家,这也间接印证了互联网发展水平对机器学习领域的研究及应用起到了很好的推广及促进作用。虽然德国、加拿大、西班牙、韩国、印度、澳大利亚、意大利等国家发文数量占比在4.0%～7.2%之间,但是在全球范围内,这些国家在机器学习领域的研究仍然走在前列。从总被引频次来看,频次较高的3个国家分别是美国、德国、英国;从篇均引用频次来看,德国、英国、美国排在前3位。德国虽然在发文量方面仅占7.2%,但篇均被引频次达28.60次,比发文数量最多的美国高出14.10次,比发文数量排名第二的中国高出21.85次。从信息计量统计分析的角度来看,德国在机器学习领域的研究取得很多创新性的成果,而且研究成果得到学术界广泛的认可和引用。中国的发文量虽然排在第二位,但是篇均被引频次表现不是很突出。这说明我国需要进一步提高论文质量,以提高论文的引用率,要在注重发文数量的基础上加强交流合作,注重颠覆性技术突破研究。

表1中仅能体现发文量排在前10位国家的情况,如果需要进一步了解国家(地区)之间的科研合作情况,需要借助VOSViewer进行国家(地区)合作关系可视化分析。本文将样本文献预处理后,导入VOSViewer中,选取发文量在50篇及以上的国家(地区)进行可视化分析,有33个国家(地区)满足条件,最终形成国家(地区)间的合作关系网络图谱,如图2所示。

图2中:节点代表发文数量,节点越大说明发文数量越多,反之则越少;节点与节点之间的连线代表合作关系,连线越粗说明合作越密切。从图2可以看出,美国、中国、英国在合作关系中处于核心位置,美国与日本、中国、韩国、西班牙、德国联系最为密切,与中国合作较为密切的有美国、日本、韩国、英国、加拿大、德国等。从发文时间来看,以色列、瑞士、法国、葡萄牙、伊朗、威尔士等国家(地区)在机器学习领域研究较早,而随着时间的推移,目前在机器学习领域研究表现较为突出的是美国、日本、加拿大、英国、西班牙、巴西、韩国等国家。

2. 基于关键词的共现网络分析

文献的关键词是对文献内容的高度凝练和概括,是文献的核心和精华所在。通过关键词共现分析,发现主题词之间的关联性,揭示时间推移过程中主题词的演化过程,可以为该领域的相关研究提供辅助支持。本文在对样本文献资料中的关键词进行规范化处理的基础上,选择词频数量大于100的关键词进行分析,最终有37个关键词符合要求。对这37个词进行共现分析,形成图3所示的聚类图谱。节点代表关键词的词频数量,节点越大说明以该节点作为关键词的文献越多,也说明该节点在该领域研究中被学者关注得越多。节点与节点之间的连线代表这两个节点出现在同一篇文献中。连线越粗说明两个节点同时出现在一篇文章中的频率越高。

图2 机器学习研究领域的国家合作关系图谱

图3 机器学习研究领域关键词共现网络图谱

参照图3中形成的聚类效果,结合每个关键词之间的连接程度,本文将机器学习领域中的研究主题概括为以下4个方面:

(1) 支持向量机领域的研究。主要针对随机森林、证实、回归分析、变量选择、特征选择等。

(2) 分类领域的研究。主要涵盖了特征识别、医学诊断、决策树、预测等。

(3) 神经网络领域的研究。主要针对算法、人工神经网络、支持向量回归、模型研究等。

(4) 深度学习领域的研究。主要从大数据、人工智能、数据挖掘、系统、管理、网络等角度开展研究。

3. 基于时间序列的主题演化分析

使用SciMAT工具进行主题演化分析,可以很直观形象地观察机器学习领域在不同时间的热点主题及主题之间的关系,从而了解该领域主题词演化过程,为该领域后续的研究提供支撑。本文将数据划分为2008—2009年、2010—2011年、2012—2013年、2014—2015年、2016—2017年、2018—2019年,6个区间。以文献关键词作为分析单位,以共现矩阵作为网络构建方式,以等价性指数作为网络标准化方式,以简单中心算法作为聚类算法,通过内部链接和外部链接构建机器学习不同时间区间的主题演化视图,如图4所示。

机器学习早期关注支持向量机、蛋白质、基因等领域。随着时间的推移,预测、神经网络、人工神经网络、数据库、序列模式等领域成为学者关注的焦点。2014年之后,预测、系统、决策树、图像识别等成为机器学习领域的主要研究对象。2016—2017年,随机森林、基因表达、影响因素、性能分析等内容开始受到学术界的关注。2018年以来,人工神经网络、算法、风险、模式、相变逐渐成为研究的侧重点。从图4中6个时期的主题词演化过程来看,机器学习研究主题分布范围较为广泛,各主题词之间的交互较为频繁,人工神经网络自2010年被关注后,经过几年的发展,在近两年来仍然是研究者关注的主要问题。除了常规的支持向量机、预测、分类等之外,算法优化、相变、风险等逐渐成为研究的热点问题。

图4 机器学习研究领域不同时期的主题演化

三、机器学习领域研究主题述评

从关键词共现网络图谱及主题词演化过程可以看出,机器学习研究涉及医学、分类、预测、模型、神经网络、深度学习等领域,研究领域也在不断扩展,尤其在医学诊断、图像识别、算法优化等方面表现较为突出。基于上述给出的聚类及不同时期主题词演化过程,机器学习领域的研究主题可以归纳为5大类:支持向量机、分类问题、神经网络、人工智能、深度学习。其中,“深度学习”是机器学习领域近年研究的热点问题。

1. 支持向量机研究

“支持向量机”在1964年被提出,20世纪90年代以后得到快速发展,是一类有监督的学习过程,主要依据数据分布情况求解最大边距超平面,从而解决二元分类问题。由于突出的学习性能,该项技术已成为国内外机器学习领域新的研究热点。目前,该技术主要应用于图像识别、文本分类、手写字符识别、生物信息学等领域。在图像识别领域,遥感图像的土地覆盖识别、农作物生长情况监测等取得了较为突出的成果[3];在文本分类领域,对故障排查、特征排名等内容展开研究[4-5];在手写字符识别方面,实现了打字、手写和印刷文本图像的自动转换及英文数字识别[6-7];在生物信息学领域,利用SVM技术可以自动准确地检测某些事件,提高检测疾病的效率[8]。

2. 分类与预测研究

分类和预测是利用现有数据进行预测的方法,分类是对离散类别的数据对象进行预测,预测是针对连续的、有序的数据对象进行预测。目前,分类和预测已在很多领域得到广泛应用。如近年来,为了更好地完成对土地不同类型特征的判断,学术界开始针对遥感图像进行分类领域的研究。研究证实,运用SVM、神经网络、随机森林等技术实现遥感图像分类的总体准确率有较大幅度的提升。Lotte团队[9]针对自适应分类器、矩阵和张量分类器、转移学习和深度学习及其他一些杂类分类器的原理及如何使用进行分析,为进一步推进BCI中脑电分类提供了参考。

3. 神经网络研究

1943年,“似脑机器(mindlike machine)”思想的提出开启了人工神经网络的研究。经过几十年的发展,神经网络已在模式识别、图像处理、自动控制、机器人、信号处理、商业管理、医疗诊断和军事等领域均有广泛的应用。Tien等[10]以Son La水电站为研究对象,利用神经网络技术实现浅层滑坡敏感性模型的训练和验证。Carleo等[11]将神经网络应用在量子物理学中的多体问题研究领域,提出的强化学习方案能够找到基态并描述复杂相互作用的量子系统的单位时间演化。Zhu等[12]将神经网络技术应用于河流系统中河流水温领域的研究,提出的关键控制学习模型被有效地用于河水温度模拟。李晓峰团队在基于卷积神经网络的多样性关键数据方面改进了现有的并行推荐算法,解决了传统数据推荐算法易受干扰因素影响的问题[13]。

4. 人工智能研究

“人工智能”在1956年的达特茅斯会议上被首次提出,这次会议也开启了对这一新兴领域的研究。研究人工智能的初心是希望它能在实现自然智能的基础上,不断扩展甚至加快人类智能的发展水平,并逐渐实现超智能。虽然人工智能研究已经走过60多年,但它依然在模拟、延伸和扩展人的智能方面不断探索,应用领域在不断扩大,取得了许多骄人的成绩。如Salehi等学者[14]将人工智能技术应用于专家系统,提出一种基于概率方法的数据挖掘方法,可有效地用于重建延迟和丢失的信号,从而解决能源可用性的问题,解决各类智能基础设施监控系统和智能城市中使用的专家系统收集的嘈杂信号和不完整信号可解释的问题。Ramkumar[15]等学者将人工智能技术应用于医学领域,探索下肢关节置换术的机器学习模型,这些模型能够有效预测患者术前的价值指标。Liu等学者[16]将人工智能技术引入暴雨风险的早期识别中。

5. 深度学习研究

大脑的工作过程是对接收的信号不断迭代、不断抽象并概念化的过程,是一个深度的认知过程。而深度学习就是通过组合低层特征,形成更加抽象的高层特征的过程,是学习样本数据的内在规律和表示层次的过程,突破了浅层结构学习模型的局限性。因此,深度学习已然成为机器学习领域中的一个全新的研究方向,主要目的是让机器同人一样具有深度的分析学习能力。Gulshan等学者[17]应用深度学习创建一种自动检测视网膜底照片中糖尿病性视网膜病变和糖尿病性黄斑水肿的算法,该算法具有很高的灵敏度和特异性。Ghorbanzadeh团队[18]将深度学习技术应用于地质灾害的预测,通过大量的卫星光学数据和地形地貌数据,借助先进的深度学习方法,不断满足全球对详细而准确的滑坡图和清单的需求。Peng团队[19]则将深度学习应用在通信系统中,依托大量数据,自动完成数据特征的选择,大大降低了调制分类中任务的复杂程度。

四、总结

机器学习是人工智能及模式识别领域共同的研究热点,其理论和方法已被广泛应用于解决工程应用和科学领域的各类复杂问题,取得了丰硕的研究成果。本文以机器学习研究领域的文献为研究对象,借助文献计量分析软件,利用描述性分析、聚类分析、主题演化分析等方法,从该领域的年度发文情况、国家(地区)合作情况、研究热点趋势、主题演化等角度,对机器学习研究进行综合分析和总结。从年度发文情况来看,机器学习论文呈现每年递增的趋势,尤其在2017年以后,发文数量急剧增长,说明该领域的研究引起全球学者越来越多的关注,成为重点研究领域之一。从地区发文统计来看,美国、中国、英国在机器学习领域发文量领跑其他国家,3国发文量累计占比高达约63%,德国发文总量虽然不够突出,但在篇均被引频次上位居第一,充分说明德国在机器学习领域的研究成果被学术界认可。从合作关系来看,美国、日本、中国、韩国、英国、加拿大等国家联系较为密切。从研究聚类情况来看,机器学习的研究基本集中在支持向量机、分类与预测、神经网络、人工智能、深度学习等领域。而通过主题演化分析来看,机器学习将会在量子计算、算法改进、相变、风险等领域展开新一轮的研究。